본문 바로가기

Paper Review/Video Understanding39

[NIPS 2021 ] Low-Fidelity Video Encoder Optimization for Temporal Action Localization Before Review 오래간만에 Temporal Action Localization 관련 논문 리뷰입니다. NIPS에 Temporal Action Localization 관련 논문이 억센 된 건 오랜만에 본 거 같아서 리뷰하게 되었습니다. 리뷰 시작하도록 하겠습니다. Introduction Temporal Action Localization은 길이가 긴 Untrimmed Video에 대해서 비디오 내부에 존재하는 사전에 정의된 Action Category에 해당되는 Segment를 예측하는 작업을 의미합니다. Temporal Action Localization의 핵심은 Boundary를 잘 예측하는 것이 중요하기 때문에 시간 축에 대해서 민감하게 반응해야 합니다. 즉, Action과 Backgroun.. 2024. 1. 15.
[ICLR 2022] TADA! Temporally Adaptive Convolutions for Video Understanding Before Review 이번 논문은 Video Understanding을 위해 제안되는 temporally adaptive convolution을 다룬 논문입니다. 모든 프레임에 대해서 고정된 weight를 사용하는 기존 Convolution 대비, 입력 값에 따라 weight가 달라지는 dynamic transformation의 성격을 가지는 Convolution이라 볼 수 있습니다. 약간 Self-Attention + Convolution을 섞은 것 같은 느낌이라 볼 수 있을 것 같네요. 제안되는 방법은 Plug and Play 가 굉장히 간단하고 성능이 우수함을 보여주는 것 같아 나중에 제가 어떤 모델을 사용하든 고려할 수 있는 선택지가 될 수 있을 것 같습니다. 리뷰 시작하도록 하겠습니다. In.. 2024. 1. 15.
[ICML 2022] Time Is MattEr : Temporal Self-supervision for Video transformers Before Review 요즘 제가 Transformer 관련 논문을 많이 읽고 있습니다. 이번 논문도 Video Transformer를 위한 Self-Supervised Learning을 다룬 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction Transformer 계열의 architecture들은 long-term dependency를 잘 capture 할 수 있다는 이유로 Video 진영에서 21년쯤부터 계속 활발하게 연구가 진행되고 있습니다. 3D Convolution은 제한된 Receptive Field 때문에 global information을 capture 하기에는 한계가 있습니다. Transformer는 더군다나 입력의 길이에는 제한을 받지 않습니다. Transformer En.. 2024. 1. 15.
[ICLR 2022] Uniformer : Unified Transformer For Efficient Spatiotemporal Representation Learning Before Review 이번에도 BackBone 연구입니다. 흥미로웠던 것은 3D CNN의 장점과 Vision Transformer의 장점을 묶어 하나의 통합된(Unified) 구조를 제안하는 것이 인상 깊었습니다. 리뷰 시작하도록 하겠습니다. Preliminaries 딥러닝에서 자주 활용되지만 따로 알아보지 않으면 낯선(?) 연산들에 대해서 알아보도록 하겠습니다. Gaussian Error Linear Unit (GELU) 요즘 BERT나 GPT 그리고 ViT 기반의 최신 논문 혹은 MLP-Mixer와 같은 최신 연구에서 정말 자주 보이는 활성화 함수입니다. 저도 그냥 ReLU 보다 GELU가 더 좋더라 정도로만 알고 있었는데 GELU가 어떻게 formulation 되는지는 알아본 적이 없어 이번 기.. 2024. 1. 15.
[CVPR 2022] Probabilistic Representations for Video Contrastive Learning Preliminaries 본 논문을 이해하기 위해서는 가우시안 혼합 모델(Mixture of Gaussian)이 무엇인지 이해해야 합니다. Gaussian Mixture Model 우선 가우시안 혼합 모델이라 불리는 수학적 테크닉에 대해서 알아보도록 하겠습니다. 예를 들어 아래와 같은 데이터의 분포가 있다고 생각해 보겠습니다. 왼쪽 사진을 보면 전체 데이터의 분포를 하나의 가우시안 분포로 근사하여 설명하고 있습니다. 그래서 그런지 전체 데이터를 완전하게 설명하기에는 조금 부족해 보입니다. 가우시안 분포 중앙 부분에는 실제로 데이터가 별로 없기 때문입니다. 오른쪽 사진을 보면 전체 데이터의 분포를 두개의 가우시안 분포로 근사하여 설명하고 있습니다. 앞서서 하나의 분포로만 설명한 것에 비해 이번에는 데이터 .. 2024. 1. 15.
[CVPR 2023] VideoMAE V2 Scaling Video Masked Autoencoders with Dual Masking Before Review 제가 이전에 VideoMAE를 리뷰한 적이 있습니다. VideoMAE는 MAE가 나오고 얼마 지나지 않아서 NIPS 2022에 개제가 되었는데 이번에는 CVPR 2023에 바로 version2 공개가 됐네요. A100 80G 64장을 가지고 pretrain을 진행했다고 하는데 여전히 엄두가 나지 않는 GPU 자원입니다. 이번 논문도 VideoMAE처럼 굉장히 간단하지만 VideoMAE나 MAE를 모른다면 읽기 어려울 수 있으므로 익숙지 않은 분들은 저의 지난 리뷰를 먼저 참고하시길 바랍니다. Introduction 요즘 인공지능 분야에서 핫한 토픽은 뭘까요? Generative AI, Multimodal 등등 있지만 결국 이들은 하나로 묶어줄 수 있는 키워드가 있습니다. 바로 F.. 2024. 1. 15.