2020年度、論文紹介

5 minute read

一覧

IMP: Instance Mask Projection for High Accuracy Semantic Segmentation of Things

服のデータセット(ModaNet)で、2019年のSOTAとくらべ20%のmIOUを増加、しかしcityscapeのデータセットの場合数%しか増加しない -> 服の領域分割専用のsematic segmentatorかな

ArcFace: Additive Angular Margin Loss for Deep Face Recognition

source code : mxnet

proposed an Additive Angular Margin Loss function、

GradNet: Gradient-Guided Network for Visual Object Tracking

Nothing special pass

FET-GAN: Font and Effect Transfer via K-shot Adaptive Instance Normalization

GAN を用いて、Font生成 、 source code

Specifying Object Attributes and Relations in Interactive Scene Generation

ICCV 2019 , source cdode, Generating image using scene-text-grapth , Youtube GUI

0519: A Simple Baseline for Multi-Object Tracking

-> source code -> one-shot multiple object tracking -> one-shot object detectionと同じ意味、one-shot, few-shot learningの意味ではない -> 多目的のネットワークを学習、従来のMOTは 検出とRe-ID の2つの段階で行います。 FairMOTは検出+Re-IDを同時に行い、一つの段階になりました。 そろで速度が30FPS達成した、他の工夫もある、精度はSOTAになりました

-> jil の tracker は simple detector のやり方で工夫できるかもしれません

0519: HoloGAN: Unsupervised Learning of 3D Representations From Natural Images

-> next

0522: EGO-TOPO: Environment Affordances from Egocentric Video

next

0526: Image2StyleGAN: How to Embed Images Into the StyleGAN Latent Space?

similar source code at github

解説記事も quita

終了

0526: Semi-Supervised Classification with Graph Convolutional Networks

全く理解できない

0529: Fast Image Processing with Fully-Convolutional Networks,

source code

demo video

image processing (down-sampling, up-sampling, dehazingなど)を深層学習(ネットワーク名:CAN)で行います。 処理時間の大幅を短縮できました。

0529: Gabriella: An Online System for Real-Time Activity Detection in Untrimmed Surveillance Videos,

-> security video surveilliance -> run very fast, faster than real-time (>=45fps) -> can detect multiple action inside vide

0605 Example-Guided Image Synthesis across Arbitrary Scenes using Masked Spatial-Channel Attention and Self-Supervision

-> pass

0605 Cross-domain Correspondence Learning for Exemplar-based Image Translation

Exemplar-based image translation : example = styleの画像 見本画像(Examplar)を用いて、InputのSketch画像を完成する方法を提案 -> 応用例: Fashionの画像を回転するなど -> なんか良いらしい

paper page

0609 Deep Multi-Modal Image Correspondence Learning

-> 不動産のデータセットを利用 : lifull -> 古いのでpass

0609 Zero-shot Ingredient Recognition by Multi-Relational Graph Convolutional Network,

Food 関係、pass

0612 : G3AN: Disentangling Appearance and Motion for Video Generation, CVPR, (2020).

-> GAN : pass

0612 : Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels, CVPR, (2020).

Open Images public test 2018で60.90 mAPの最良の単一モデル

Hybrid training schedulerを用いたSoft-balance法を提案すること で、非常に不均衡なラベル分布問題に効果的に対処することが可 能である

明示的・暗黙的なマルチラベル問題 :?????

-> 強大なデータセットに役に立つ

0616 BachGAN: High-Resolution Image Synthesis from Salient Object Layout, CVPR, (2020).

source code : github

-> GAN のでpass

0619 Mask Encoding for Single Shot Instance Segmentation, CVPR, (2020).

-> pass

0619 Visual Relations Augmented Cross-modal Retrieval, ACM ICMR, (2020).

-> cross-modal retrieval (CMR) -> pass

0623 Improving Action Segmentation via Graph Based Temporal Reasoning, CVPR, (2020).

-> pass

0623 Editing in Style: Uncovering the Local Semantics of GANs, CVPR, (2020).

https://github.com/IVRL/GANLocalEditing : Gan for local editting

0626 Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstructionfor Indoor Scenes from a Single Image, CVPR, pp.55-64, (2020)

-> read this if we need to work with the 3d object detection -> current 3D object detection SOTA : https://github.com/open-mmlab/OpenPCDet

0626 Conditional Channel Gated Networks for Task-Aware Continual Learning, CVPR, (2020).

0630 Temporal Pyramid Network for Action Recognition, CVPR, (2020)

-> next

0710 Something-Else: Compositional Action Recognition with Spatial-Temporal Interaction Networks, CVPR, (2020).

動画認識、ー>次

0710 Swapping Autoencoder for Deep Image Manipulation, arXiv:2007.00653v1, (2020).

-> image manipulation : texture swapping, …

0714 3D Imaging, Modeling, Processing, Visualization and Transmission, pp.145-152, (2001).

-> ICP , next

0714 ADINet: Attribute driven incremental network for retinal image classification, CVPR, (2020).

-> 医療の画像認識、pass

0717 : X3D: Expanding Architectures for Efficient Video Recognition, CVPR, (2020).

-> 動画認識の低計算化 、X3D-XLとSlowFast+NL(SOTA)とほぼ同じ精度、演算量は5倍より少ない

0717 : CookGAN:CausalitybasedText-to-ImageSynthesis, CVPR, (2020).

料理二関する画像研究に以下のタスクに実験した -> Ingredient recognition: image -> ingredient -> image to recipe retrieval -> image to image retrieval -> content manipulability : add ingredients, mibus ingredients, replace ingredients

0721 : ManiGAN: Text-Guided Image Manipulation, CVPR, (2020).

text -> image : 多くの内容はControlGANから借りる. Source code of ControlGAN

0721 : : PlaneRCNN:3D Plane Detection and Reconstruction from a Single Image, CVPR, (2019).

source code PlaneRCNN : community, non-commercial

単一RGB画像から平面領域を分割するPlaneRCNNを提案 PlaneRCNNは平面領域、回帰平面パラメータ、インスタンスマスクを検出 セグメンテーションマスクをグローバルに洗練 パフォーマンス向上のため別視点画像の利用 細かい平面を分割できる手法として最高精度を記憶

0728 : Fast Online Object Tracking and Segmentation: A Unifying Approach, CVPR, (2019).

SiamMask提案、Source-codeは SenseTime Pysotにある

0728 : World-Consistent Video-to-Video Synthesis, ECCV, (2020).

https://nvlabs.github.io/wc-vid2vid/

Video-to-Video Synthesis = Semantic Segmentation (Segmentationデータセットのlabel) + depth情報から 動画を生成する

ー> VidtoVid研究は結局なのため???

1002 Understanding Human Hands in Contact at Internet Scale, CVPR, (2020).

100DOH のデータセット公開(non-commercial) : homepage

1002 Piggyback GAN: Efficient Lifelong Learning for Image Conditioned Generation, ECCV, (2020).

-> Retrain GAN will loss learned information (catastrophic forgetting in NNs) -> they use PiggyBack to keep the learned information -> 一つのGANモデルでも多くのタスク(generate monet, …)に対応できる

About catastrophic forgetting in NNs, there’re few links here

-> 結構おもしろいので、時間ある時に深堀りする

1006 Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization, arXiv:2006.07976, (2020

-> scene情報(context) + 人間行動(actor)を利用:Actor-Context-Actor Relation Network(ACAR-Net)提 -> SOTA (SlowFast-R50) の結果を2~4%改善

1006 : NeRF: Representing Scenes asNeural Radiance Fields for View Synthesis

-> ECCV 2020 : best paper -> スパースな複数視点から新しい視点から見た時の画像を生成するタスクで最高精度

homepage short video long video

-> a quick read at https://towardsdatascience.com/nerf-representing-scenes-as-neural-radiance-fields-for-view-synthesis-ef1e8cebace4 -> from nerf, we can get 3d model -> the model look amazing, they even produce 3d model for “boat on water” -> It should have a lot of draw-back : -> need to read deeper

1009 Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching, CVPR, (2020)

-> next

1009 COCO-FUNIT: Few-Shot Unsupervised Image Translation with a Content Conditioned Style Encoder, ECCV, (2020).

-> homepage

1013 Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary Instructions, ECCV, (2020).

(単語テキストでopen-domainの画像編集を実現するOpen-Editを提案する。色、テクスチャや高レベル特徴の編集をできる。https://github.com/xh-liu/Open-Edit)

1013 Asynchronous Interaction Aggregation for Action Detection, ECCV, (2020).

(動画行動検出を向上させる非同期相互作用集約ネットワーク(AIA)を提案.AVA データセットで有効な結果.(https://github.com/MVIG-SJTU/AlphAction))

-> same team as AlphaPose -> 動画解析

1016 Domain-Specific Mappings for Generative Adversarial Style Transfer, ECCV, (2020).

Image-to-image のCurrent SOTA : Munit, DRIT++

評価:FIDスコア(低いほど良い)とLPIPSスコア(高いほど良い)

Home page: https://acht7111020.github.io/DSMAP-demo/

1020 Graph Structured Network for Image-Text Matching, CVPR, (2020).

Image-Text Matchingで、動詞や属性(形容詞)もグラフノードとして明示的にモデル化してマッチングする手法、GSMNを提案した。 https://github.com/CrossmodalGroup/GSMN

-> next

1020 Flow-edge Guided Video Completion, ECCV, (2020).

http://chengao.vision/FGVC/

-> video impanting, object removal , mask inpainting

1023 Prototype Mixture Models for Few-shot Semantic Segmentation, ECCV, (2020).

source code : https://github.com/Yang-Bob/PMMs

1024 ChefGAN: Food Image Generation from Recipes, ACM ISBN, (2020

-> next

1106 Multi-Task Learning for Calorie Prediction on a Novel Large-Scale Recipe Dataset Enriched with Nutritional Information, ICPR, (2020).

pic2kcal source code

1124 Semantic Image Manipulation Using Scene Graphs, CVPR, (2020)

https://he-dhamo.github.io/SIMSG/

(画像からシーングラフを抽出し、シーングラフのノード・エッジを操作することで、物体の追加・除去・置換、関係の変更などの高レベルな画像編集を実現した。学習には完全な教師情報は必要とせず、画像とシーングラフのペアから学習することができる。

1124 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, ICLR, 2021, (2021).

画像を画像のパッチのシーケンスとして扱うことでTransformerを適用 大規模データセットで事前学習した後各タスクに転移学習することでCNNなしで画像分類タスクでSOTA https://github.com/google-research/vision_transformer

1127 Prior Guided Feature Enrichment Network for Few-Shot Segmentation, IEEE trans. PAMI, (2020).

source code

1127 House-GAN: Relational Generative Adversarial Networks for Graph-constrained House Layout Generation, ECCV, (2020).

source code

-> ネットワークの入力=Graph

個人が注目する論文

  • 1002 Piggyback GAN: Efficient Lifelong Learning for Image Conditioned Generation, ECCV, (2020).
  • 1006 : NeRF: Representing Scenes asNeural Radiance Fields for View Synthesis

  • SEAN: Image Synthesis with Semantic Region-Adaptive Normalization (CVPR 2020 Oral) : https://github.com/ZPdesu/SEAN ->
  • Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary Instructions : https://github.com/xh-liu/Open-Edit

Categories:

Updated: