본문 바로가기

Paper Review/Video Understanding39

[NIPS 2022] VideoMAE : Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training Before Review 본 리뷰에서 다루는 VideoMAE는 말 그대로 MAE를 Video로 가져온 느낌입니다. Image 기반의 MAE가 등장하고 거의 4~5개월 만에 등장한 것이라 볼 수 있습니다. 정말 빠르네요! 방법론 자체는 Image MAE를 거의 그대로 차용을 하였습니다. 그래서 비디오 데이터 자체의 특성만을 이해하면 방법론의 이해는 어려운 편이 아닙니다. 리뷰 시작하도록 하겠습니다. Preliminaries Masked AutoEncoder(MAE) 저의 지난 리뷰에서 내용을 가져왔습니다. Patch 단위로 나뉜 입력에 대해서 Random으로 마스킹을 진행합니다. 가장 왼쪽 그림에서 input 부분을 보면 군데군데 비어있는 것을 확인하실 수 있을 것입니다. 그리고 여기서 마스킹되지 않은 v.. 2024. 1. 11.
[CVPR 2022] Scene Consistency Representation Learning for Video Scene Segmentation Before Review 이번 리뷰는 Self-Supervised 기반의 Video Representation Learning 논문을 읽었습니다. Video Scene Segmentation을 위한 논문이지만, 결국 Long-Term 비디오를 이해한다는 관점에서 저의 연구 방향에 도움이 될 것 같아 리뷰하게 되었습니다. KAUST라고 해서 사우디아라비아에 있는 대학이 있는데 유독 비디오 관련 논문에서 많이 보이네요. 그럼 리뷰 시작하도록 하겠습니다. Introduction Video Scene Segmentation은 제가 이전에 [CVPR 2021] Temporally-Weighted Hierarchical Clustering for Unsupervised Action Segmentation라는 논문을.. 2023. 1. 12.
[NIPS 2021] Relational Self-Attention What's Missing in Attention for Video Understanding Before Review 이번 논문은 비디오를 이해하는 데 있어 중요하게 작용하는 요소들을 고려하여 새롭게 제안된 attention 메커니즘을 다룬 논문입니다. Neurips 페이퍼는 Core-ML 쪽만 다루는 줄 알았는데 Vision 연구도 다루나 봅니다. 리뷰 시작하도록 하겠습니다. Introduction 우리가 자주 사용하는 Convolution은 Computer Vision을 입문한 사람들은 모두 다 들어봤을 정도로 많이 사용됐고, 되고 있습니다. 지난 수십 년간 비전 시스템에 있어서 딥러닝 연구의 부흥을 책임진 부분이기도 합니다. 하지만 최근 연구에서는 Transformer 기반의 모델이 많이 등장하면서 Convolution과의 비교가 많이 진행 되었습니다. Feature Transform 관점.. 2023. 1. 12.
[CVPR 2022] Motion-aware Contrastive Video Representation Learning via Foreground-Background Merging Before Review 이번 논문은 self-supervised 기반의 video representation learning 논문을 읽게 되었습니다. 지난 리뷰랑 비슷한 점이 많습니다. 지난 리뷰 background erasing은 background를 추가하여 오히려 motion pattern에 집중할 수 있는 contrastive learning framework를 제안하였습니다. 본 논문도 비슷한 흐름으로 진행됩니다. 그럼 리뷰 시작하도록 하겠습니다. Preliminaries Bayesian theorem $P(H\mid E)=\frac{P(E\mid H)P(H)}{P(E)} $ 베이즈 정리는 사전 확률과 사후 확률의 관계를 나타내는 정리입니다. 자세하게 정리된 포스팅 글이 있어 링크 달아두겠습니.. 2022. 9. 18.
[CVPR 2022] Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation Before Review 이번 논문도 Weakly Supervised Temporal Action Localization으로 읽었습니다. 인상 깊은 점은 논문의 아이디어가 전통적인 머신러닝 기법이 핵심이 된다는 것입니다. GMM을 이용해 클러스터링 방식으로 비디오를 대표하는 정보를 추출하는 framework를 제안합니다. 그럼 리뷰 시작하도록 하겠습니다. Preliminaries 본 논문을 이해하기 위해서는 Gaussian Mixture Model이 무엇이고 이것의 파라미터를 추정하는 알고리즘 중 하나인 Expectation Maximization을 알아야 합니다. 내용이 깊게 들어가면 어려운데 본 논문을 이해하기 위한 정도로만 설명하도록 하겠습니다. Gaussian Mixture Model 우선 가우시.. 2022. 9. 5.
[CVPR 2022] Exploring Denoised Cross-Video Contrast for Weakly-Supervised Temporal Action Localization Before Review 이번 논문은 Weakly Supervised Temporal Action Localization입니다. 개인적으로는 Code가 공개되지 않아서 아쉬움이 드는 논문입니다. 방법론이 인상 깊어서 원복을 해보려고 코드를 짜보고 있는데 K-Means에서 막혔네요. GPU를 이용해도 K-Means가 너무 오래 걸리는 거 같은데 저자는 어떻게 처리했는지 궁금하네요. 리뷰 시작하겠습니다. Introduction Weakly Supervised Temporal Localization(이하 W-TAL)은 snippet level의 feature를 추출하고 Temporal-Class Activation Sequence (이하 T-CAS)를 생성하고 thresholding을 거쳐 localizati.. 2022. 7. 15.