2020年度、論文紹介

2 minute read

一覧

IMP: Instance Mask Projection for High Accuracy Semantic Segmentation of Things

服のデータセット(ModaNet)で、2019年のSOTAとくらべ20%のmIOUを増加、しかしcityscapeのデータセットの場合数%しか増加しない -> 服の領域分割専用のsematic segmentatorかな

ArcFace: Additive Angular Margin Loss for Deep Face Recognition

source code : mxnet

proposed an Additive Angular Margin Loss function、

GradNet: Gradient-Guided Network for Visual Object Tracking

Nothing special pass

FET-GAN: Font and Effect Transfer via K-shot Adaptive Instance Normalization

GAN を用いて、Font生成 、 source code

Specifying Object Attributes and Relations in Interactive Scene Generation

ICCV 2019 , source cdode, Generating image using scene-text-grapth , Youtube GUI

0519: A Simple Baseline for Multi-Object Tracking

-> source code -> one-shot multiple object tracking -> one-shot object detectionと同じ意味、one-shot, few-shot learningの意味ではない -> 多目的のネットワークを学習、従来のMOTは 検出とRe-ID の2つの段階で行います。 FairMOTは検出+Re-IDを同時に行い、一つの段階になりました。 そろで速度が30FPS達成した、他の工夫もある、精度はSOTAになりました

-> jil の tracker は simple detector のやり方で工夫できるかもしれません

0519: HoloGAN: Unsupervised Learning of 3D Representations From Natural Images

-> next

0522: EGO-TOPO: Environment Affordances from Egocentric Video

next

0526: Image2StyleGAN: How to Embed Images Into the StyleGAN Latent Space?

similar source code at github

解説記事も quita

終了

0526: Semi-Supervised Classification with Graph Convolutional Networks

全く理解できない

0529: Fast Image Processing with Fully-Convolutional Networks,

source code

demo video

image processing (down-sampling, up-sampling, dehazingなど)を深層学習(ネットワーク名:CAN)で行います。 処理時間の大幅を短縮できました。

0529: Gabriella: An Online System for Real-Time Activity Detection in Untrimmed Surveillance Videos,

-> security video surveilliance -> run very fast, faster than real-time (>=45fps) -> can detect multiple action inside vide

0605 Example-Guided Image Synthesis across Arbitrary Scenes using Masked Spatial-Channel Attention and Self-Supervision

-> pass

0605 Cross-domain Correspondence Learning for Exemplar-based Image Translation

Exemplar-based image translation : example = styleの画像 見本画像(Examplar)を用いて、InputのSketch画像を完成する方法を提案 -> 応用例: Fashionの画像を回転するなど -> なんか良いらしい

paper page

0609 Deep Multi-Modal Image Correspondence Learning

-> 不動産のデータセットを利用 : lifull -> 古いのでpass

0609 Zero-shot Ingredient Recognition by Multi-Relational Graph Convolutional Network,

Food 関係、pass

0612 : G3AN: Disentangling Appearance and Motion for Video Generation, CVPR, (2020).

-> GAN : pass

0612 : Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels, CVPR, (2020).

Open Images public test 2018で60.90 mAPの最良の単一モデル

Hybrid training schedulerを用いたSoft-balance法を提案すること で、非常に不均衡なラベル分布問題に効果的に対処することが可 能である

明示的・暗黙的なマルチラベル問題 :?????

-> 強大なデータセットに役に立つ

0616 BachGAN: High-Resolution Image Synthesis from Salient Object Layout, CVPR, (2020).

source code : github

-> GAN のでpass

0619 Mask Encoding for Single Shot Instance Segmentation, CVPR, (2020).

-> pass

0619 Visual Relations Augmented Cross-modal Retrieval, ACM ICMR, (2020).

-> cross-modal retrieval (CMR) -> pass

0623 Improving Action Segmentation via Graph Based Temporal Reasoning, CVPR, (2020).

-> pass

0623 Editing in Style: Uncovering the Local Semantics of GANs, CVPR, (2020).

https://github.com/IVRL/GANLocalEditing : Gan for local editting

0626 Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstructionfor Indoor Scenes from a Single Image, CVPR, pp.55-64, (2020)

-> read this if we need to work with the 3d object detection -> current 3D object detection SOTA : https://github.com/open-mmlab/OpenPCDet

0626 Conditional Channel Gated Networks for Task-Aware Continual Learning, CVPR, (2020).

0630 Temporal Pyramid Network for Action Recognition, CVPR, (2020)

-> next

0707 FGN: Fully Guided Network for Few-Shot Instance Segmentation, CVPR, (2020).

-> few-shot learning , 2020年の一番良い精度

0710 Something-Else: Compositional Action Recognition with Spatial-Temporal Interaction Networks, CVPR, (2020).

-> next

0714 Efficient Variants of the ICP Algorithm, 3D Imaging, Modeling, Processing, Visualization and Transmission, pp.145-152, (2001).

-> ICP はいろんな手法があります。 疑問: ー>PCL,o3dのICPは現在のベスト? ー>DLを用いて、ICP実装は可能かな? -> a lot here : https://github.com/weiweisun2018/awesome-point-clouds-registration

0721 ManiGAN: Text-Guided Image Manipulation, CVPR, (2020).

maniGAN controlGAN

-> テキストからの情報に基づいて、画像の一部を編集するためのManiGANを提案する

0721 PlaneRCNN:3D Plane Detection and Reconstruction from a Single Image, CVPR, (2019).

PlaneRCNN : Creative Commons Attribution NonCommercial ShareAlike 4.0 License.

個人が注目する論文

Categories:

Updated: