본문 바로가기

전체 글59

[2022 CVPR] UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event Boundary Detection Before Review 오늘은 Generic Event Boundary Detection이라고 해서 제가 요즘 관심 있어하는 Video Scene Segmentation이라는 연구 분야와 굉장히 비슷한 것으로 가져왔습니다. Segmentation을 하는 과정에서 Segmentation Unit을 Scene으로 할지 Event로 할 지의 차이와 사전 학습으로 사용하는 비디오의 길이에 차이가 있긴 합니다. 리뷰 시작하겠습니다. Introduction 비디오 플랫폼 (Youtube, TiK Tok, Netflix..)의 확산과 함께 컴퓨터 비전 연구자들은 Video Understanding에 많은 관심을 가지게 되었습니다. Video Understanding 분야에서 가장 많이 사용되는 방식은 비디오를 단순.. 2024. 1. 16.
[CVPR 2023] Soft-Landing Strategy for Alleviating the Task Discrepency Problem in Temporal Action Localization Tasks Before Review arXiv에 올라온 preprint이지만 CVPR format이며, 연세대와 포스텍의 합작 논문이라 읽어보게 되었습니다. (리뷰를 작성하고 있을 때는 CVPR에 accept이 되었네요. 대단합니다!) 제가 이전에 자주 리뷰하던 Temporal Action Localization에 대한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction 저희가 스마트폰을 사용할 때 빠질 수 없는 어플이 하나 있죠. 바로 YouTube입니다. 다양한 콘텐츠를 담은 미디어 시장이 성장하면서 자연스레 비디오 데이터를 어떻게 효율적으로 처리할 지에 대한 연구도 관심을 받고 있습니다. 특히 사람의 행동을 분류하고 그 위치를 찾는 Temporal Action Localization (이하 TAL.. 2024. 1. 16.
[NIPS 2021 ] Low-Fidelity Video Encoder Optimization for Temporal Action Localization Before Review 오래간만에 Temporal Action Localization 관련 논문 리뷰입니다. NIPS에 Temporal Action Localization 관련 논문이 억센 된 건 오랜만에 본 거 같아서 리뷰하게 되었습니다. 리뷰 시작하도록 하겠습니다. Introduction Temporal Action Localization은 길이가 긴 Untrimmed Video에 대해서 비디오 내부에 존재하는 사전에 정의된 Action Category에 해당되는 Segment를 예측하는 작업을 의미합니다. Temporal Action Localization의 핵심은 Boundary를 잘 예측하는 것이 중요하기 때문에 시간 축에 대해서 민감하게 반응해야 합니다. 즉, Action과 Backgroun.. 2024. 1. 15.
[ICCV 2023] ProbVLM : Probabilistic Adapter for Frozen Vision-Language Models Before Review 이번 ICCV 2023에 Video + Text는 아니고 Image+Text인 상황에서 Probabilistic Representation을 고민하는 방향의 논문이 나와버렸네요. 논문 내용이 조금 어렵긴 했지만 꼭꼭 씹어 먹었습니다. 최근 논문 작성 과정에서 Video + Text 상황에서 Probabilistic Representation의 방향을 가져가는 연구를 진행했었는데 해당 논문을 많이 참고하였습니다. 리뷰 시작하겠습니다. Preliminaries Contrastive Language-Image Pre-training (CLIP) 워낙 유명해서 다들 아실 거 같지만 그래도 간단하게 정리하고 넘어가겠습니다. CLIP은 OpenAI가 공개한 Vision-Language Pr.. 2024. 1. 15.
[ICLR 2022] TADA! Temporally Adaptive Convolutions for Video Understanding Before Review 이번 논문은 Video Understanding을 위해 제안되는 temporally adaptive convolution을 다룬 논문입니다. 모든 프레임에 대해서 고정된 weight를 사용하는 기존 Convolution 대비, 입력 값에 따라 weight가 달라지는 dynamic transformation의 성격을 가지는 Convolution이라 볼 수 있습니다. 약간 Self-Attention + Convolution을 섞은 것 같은 느낌이라 볼 수 있을 것 같네요. 제안되는 방법은 Plug and Play 가 굉장히 간단하고 성능이 우수함을 보여주는 것 같아 나중에 제가 어떤 모델을 사용하든 고려할 수 있는 선택지가 될 수 있을 것 같습니다. 리뷰 시작하도록 하겠습니다. In.. 2024. 1. 15.
[ICML 2022] Time Is MattEr : Temporal Self-supervision for Video transformers Before Review 요즘 제가 Transformer 관련 논문을 많이 읽고 있습니다. 이번 논문도 Video Transformer를 위한 Self-Supervised Learning을 다룬 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction Transformer 계열의 architecture들은 long-term dependency를 잘 capture 할 수 있다는 이유로 Video 진영에서 21년쯤부터 계속 활발하게 연구가 진행되고 있습니다. 3D Convolution은 제한된 Receptive Field 때문에 global information을 capture 하기에는 한계가 있습니다. Transformer는 더군다나 입력의 길이에는 제한을 받지 않습니다. Transformer En.. 2024. 1. 15.