본문 바로가기

전체 글59

[NIPS 2022] VideoMAE : Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training Before Review 본 리뷰에서 다루는 VideoMAE는 말 그대로 MAE를 Video로 가져온 느낌입니다. Image 기반의 MAE가 등장하고 거의 4~5개월 만에 등장한 것이라 볼 수 있습니다. 정말 빠르네요! 방법론 자체는 Image MAE를 거의 그대로 차용을 하였습니다. 그래서 비디오 데이터 자체의 특성만을 이해하면 방법론의 이해는 어려운 편이 아닙니다. 리뷰 시작하도록 하겠습니다. Preliminaries Masked AutoEncoder(MAE) 저의 지난 리뷰에서 내용을 가져왔습니다. Patch 단위로 나뉜 입력에 대해서 Random으로 마스킹을 진행합니다. 가장 왼쪽 그림에서 input 부분을 보면 군데군데 비어있는 것을 확인하실 수 있을 것입니다. 그리고 여기서 마스킹되지 않은 v.. 2024. 1. 11.
[CVPR 2022] Masked Autoencoders Are Scalable Vision Learners 이번에는 비디오 논문이 아닌 이미지 논문을 읽게 되었습니다. 요즘 Masking Model들이 많은 연구가 이루어지고 있어서 저도 한번 읽게 되었습니다. 이번에 MAE를 읽고 VideoMAE도 읽을 계획입니다. 참고로 Kaiming He 선생님의 연구인데 참 연구를 잘하시는 것 같습니다. 연구에 손 대시는 것마다 굵직한 연구를 하시는 것을 보면 재능의 영역인가..? 의문을 들게 만드는 사람인 것 같습니다. 이미지 도메인의 논문은 또 오랜만이라 논문의 모든 디테일을 이해하진 못했지만 부족한 부분은 다른 논문들도 읽어보면서 차근차근 채워나가도록 하겠습니다. Introduction 딥러닝이 2012년에 주목을 받기 시작하고 지난 십 년 동안 딥러닝 모델들은 많은 발전이 있었습니다. 그러한 과정에서는 이제는 1.. 2023. 1. 12.
[CVPR 2022] Scene Consistency Representation Learning for Video Scene Segmentation Before Review 이번 리뷰는 Self-Supervised 기반의 Video Representation Learning 논문을 읽었습니다. Video Scene Segmentation을 위한 논문이지만, 결국 Long-Term 비디오를 이해한다는 관점에서 저의 연구 방향에 도움이 될 것 같아 리뷰하게 되었습니다. KAUST라고 해서 사우디아라비아에 있는 대학이 있는데 유독 비디오 관련 논문에서 많이 보이네요. 그럼 리뷰 시작하도록 하겠습니다. Introduction Video Scene Segmentation은 제가 이전에 [CVPR 2021] Temporally-Weighted Hierarchical Clustering for Unsupervised Action Segmentation라는 논문을.. 2023. 1. 12.
[NIPS 2021] Relational Self-Attention What's Missing in Attention for Video Understanding Before Review 이번 논문은 비디오를 이해하는 데 있어 중요하게 작용하는 요소들을 고려하여 새롭게 제안된 attention 메커니즘을 다룬 논문입니다. Neurips 페이퍼는 Core-ML 쪽만 다루는 줄 알았는데 Vision 연구도 다루나 봅니다. 리뷰 시작하도록 하겠습니다. Introduction 우리가 자주 사용하는 Convolution은 Computer Vision을 입문한 사람들은 모두 다 들어봤을 정도로 많이 사용됐고, 되고 있습니다. 지난 수십 년간 비전 시스템에 있어서 딥러닝 연구의 부흥을 책임진 부분이기도 합니다. 하지만 최근 연구에서는 Transformer 기반의 모델이 많이 등장하면서 Convolution과의 비교가 많이 진행 되었습니다. Feature Transform 관점.. 2023. 1. 12.
[CVPR 2022] Motion-aware Contrastive Video Representation Learning via Foreground-Background Merging Before Review 이번 논문은 self-supervised 기반의 video representation learning 논문을 읽게 되었습니다. 지난 리뷰랑 비슷한 점이 많습니다. 지난 리뷰 background erasing은 background를 추가하여 오히려 motion pattern에 집중할 수 있는 contrastive learning framework를 제안하였습니다. 본 논문도 비슷한 흐름으로 진행됩니다. 그럼 리뷰 시작하도록 하겠습니다. Preliminaries Bayesian theorem $P(H\mid E)=\frac{P(E\mid H)P(H)}{P(E)} $ 베이즈 정리는 사전 확률과 사후 확률의 관계를 나타내는 정리입니다. 자세하게 정리된 포스팅 글이 있어 링크 달아두겠습니.. 2022. 9. 18.
Optimization Theory (Gradient Descent - Convergence Analysis) Convex Functions Convex function의 정의에 대해서 다시 한번 상기시켜 보도록 하겠습니다. 우선 함수가 정의되는 정의역이 convex set 이어야 합니다. 그러한 상태에서 다음의 부등식을 만족하는 함수를 우리는 convex function이라 정의합니다. $f(\theta x+(1-\theta )y)\leq \theta f(x)+(1-\theta )f(y),0\leq \theta \leq 1$ 여기서 등호가 사라지면 우리는 strictly convex function이라 정의합니다. $f(\theta x+(1-\theta )y) 2022. 9. 8.