본문 바로가기

분류 전체보기67

[CVPR 2022] Probabilistic Representations for Video Contrastive Learning Preliminaries 본 논문을 이해하기 위해서는 가우시안 혼합 모델(Mixture of Gaussian)이 무엇인지 이해해야 합니다. Gaussian Mixture Model 우선 가우시안 혼합 모델이라 불리는 수학적 테크닉에 대해서 알아보도록 하겠습니다. 예를 들어 아래와 같은 데이터의 분포가 있다고 생각해 보겠습니다. 왼쪽 사진을 보면 전체 데이터의 분포를 하나의 가우시안 분포로 근사하여 설명하고 있습니다. 그래서 그런지 전체 데이터를 완전하게 설명하기에는 조금 부족해 보입니다. 가우시안 분포 중앙 부분에는 실제로 데이터가 별로 없기 때문입니다. 오른쪽 사진을 보면 전체 데이터의 분포를 두개의 가우시안 분포로 근사하여 설명하고 있습니다. 앞서서 하나의 분포로만 설명한 것에 비해 이번에는 데이터 .. 2024. 1. 15.
[CVPR 2023] VideoMAE V2 Scaling Video Masked Autoencoders with Dual Masking Before Review 제가 이전에 VideoMAE를 리뷰한 적이 있습니다. VideoMAE는 MAE가 나오고 얼마 지나지 않아서 NIPS 2022에 개제가 되었는데 이번에는 CVPR 2023에 바로 version2 공개가 됐네요. A100 80G 64장을 가지고 pretrain을 진행했다고 하는데 여전히 엄두가 나지 않는 GPU 자원입니다. 이번 논문도 VideoMAE처럼 굉장히 간단하지만 VideoMAE나 MAE를 모른다면 읽기 어려울 수 있으므로 익숙지 않은 분들은 저의 지난 리뷰를 먼저 참고하시길 바랍니다. Introduction 요즘 인공지능 분야에서 핫한 토픽은 뭘까요? Generative AI, Multimodal 등등 있지만 결국 이들은 하나로 묶어줄 수 있는 키워드가 있습니다. 바로 F.. 2024. 1. 15.
[NIPS 2022] VideoMAE : Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training Before Review 본 리뷰에서 다루는 VideoMAE는 말 그대로 MAE를 Video로 가져온 느낌입니다. Image 기반의 MAE가 등장하고 거의 4~5개월 만에 등장한 것이라 볼 수 있습니다. 정말 빠르네요! 방법론 자체는 Image MAE를 거의 그대로 차용을 하였습니다. 그래서 비디오 데이터 자체의 특성만을 이해하면 방법론의 이해는 어려운 편이 아닙니다. 리뷰 시작하도록 하겠습니다. Preliminaries Masked AutoEncoder(MAE) 저의 지난 리뷰에서 내용을 가져왔습니다. Patch 단위로 나뉜 입력에 대해서 Random으로 마스킹을 진행합니다. 가장 왼쪽 그림에서 input 부분을 보면 군데군데 비어있는 것을 확인하실 수 있을 것입니다. 그리고 여기서 마스킹되지 않은 v.. 2024. 1. 11.
[CVPR 2022] Masked Autoencoders Are Scalable Vision Learners 이번에는 비디오 논문이 아닌 이미지 논문을 읽게 되었습니다. 요즘 Masking Model들이 많은 연구가 이루어지고 있어서 저도 한번 읽게 되었습니다. 이번에 MAE를 읽고 VideoMAE도 읽을 계획입니다. 참고로 Kaiming He 선생님의 연구인데 참 연구를 잘하시는 것 같습니다. 연구에 손 대시는 것마다 굵직한 연구를 하시는 것을 보면 재능의 영역인가..? 의문을 들게 만드는 사람인 것 같습니다. 이미지 도메인의 논문은 또 오랜만이라 논문의 모든 디테일을 이해하진 못했지만 부족한 부분은 다른 논문들도 읽어보면서 차근차근 채워나가도록 하겠습니다. Introduction 딥러닝이 2012년에 주목을 받기 시작하고 지난 십 년 동안 딥러닝 모델들은 많은 발전이 있었습니다. 그러한 과정에서는 이제는 1.. 2023. 1. 12.
[CVPR 2022] Scene Consistency Representation Learning for Video Scene Segmentation Before Review 이번 리뷰는 Self-Supervised 기반의 Video Representation Learning 논문을 읽었습니다. Video Scene Segmentation을 위한 논문이지만, 결국 Long-Term 비디오를 이해한다는 관점에서 저의 연구 방향에 도움이 될 것 같아 리뷰하게 되었습니다. KAUST라고 해서 사우디아라비아에 있는 대학이 있는데 유독 비디오 관련 논문에서 많이 보이네요. 그럼 리뷰 시작하도록 하겠습니다. Introduction Video Scene Segmentation은 제가 이전에 [CVPR 2021] Temporally-Weighted Hierarchical Clustering for Unsupervised Action Segmentation라는 논문을.. 2023. 1. 12.
[NIPS 2021] Relational Self-Attention What's Missing in Attention for Video Understanding Before Review 이번 논문은 비디오를 이해하는 데 있어 중요하게 작용하는 요소들을 고려하여 새롭게 제안된 attention 메커니즘을 다룬 논문입니다. Neurips 페이퍼는 Core-ML 쪽만 다루는 줄 알았는데 Vision 연구도 다루나 봅니다. 리뷰 시작하도록 하겠습니다. Introduction 우리가 자주 사용하는 Convolution은 Computer Vision을 입문한 사람들은 모두 다 들어봤을 정도로 많이 사용됐고, 되고 있습니다. 지난 수십 년간 비전 시스템에 있어서 딥러닝 연구의 부흥을 책임진 부분이기도 합니다. 하지만 최근 연구에서는 Transformer 기반의 모델이 많이 등장하면서 Convolution과의 비교가 많이 진행 되었습니다. Feature Transform 관점.. 2023. 1. 12.