본문 바로가기

Paper Review/Video Understanding39

[2022 ACCV] Boundary aware Self Supervised Learning for Video Scene Segmentation Before Review 이번 논문은 Video Scene Segmentation으로 읽게 됐습니다. [2022 CVPR] Scene Consistency Representation Learning for Video Scene Segmentation 지난 리뷰에도 동일한 task에 대해서 다루었으니 관심 있다면 한번 살펴보시길 바랍니다. Video Scene Segmentation 관련하여 카카오브레인, 서울대학교, 한양대학교에서 공동 연구를 한 논문이 나와서 읽어 보게 되었습니다. 리뷰 시작하도록 하겠습니다. Introduction 영화와 같은 길이가 굉장히 긴 비디오를 AI system에게 이해하게 하는 것은 굉장히 어려운 일입니다. 보통 인간이 비디오를 이해하는 과정은 비디오를 meaningful .. 2024. 1. 16.
[AAAI 2023] Frequency Selective Augmentation for Video Representation Learning Before Review 이번 논문은 Self-Supervised 기반의 Video Representation Learning 논문으로 준비해 봤습니다. LG, NAVER, KAIST가 공동 연구 진행한 논문입니다. 제목에서 유추할 수 있지만 Video Representation Learning을 위한 Augmentation 기법을 제안한 논문입니다. 신호 및 시스템에서 배웠던 푸리에 변환이 제가 관심 있는 연구 분야에서 활용되는 것을 보니 신기하네요. 리뷰 시작하겠습니다. Introduction 저희가 일상생활에서 가장 많이 소비하고 생성되는 미디어 콘텐츠는 바로 영상 데이터입니다. 유튜브 쇼츠, 인스타그램 릴스, 틱톡 등등 저희가 스마트 폰으로 많이 보는 것들이죠. 데이터들은 많이 생성되고 있는데 이.. 2024. 1. 16.
[CVPR 2023] Learning Situation Hyper-Graphs for Video Question Answering Before Review 이번 X-Review는 처음 읽어보는 Video Question Answering(이하 VQA) 논문입니다. VQA에 관심이 생긴 건 아니고, Graph Representation을 활용하여 semantic representation을 고도화하는 논문을 찾다가 VQA 진영에서는 이러한 Graph Representation을 많이 사용한다는 것을 알게 되어 논문 하나 잡고 리뷰하게 됐습니다. 저도 생소한 VQA인데 더군다나 Graph Representation에 대한 내용도 나와서 논문 읽느라 조금 힘들었습니다. 리뷰 자체는 실험 내용에 대한 해석보다는 방법론에 대한 이해에 좀 더 초점을 맞췄습니다. 리뷰 시작하겠습니다. Preliminaries Hyper Graph Hypergr.. 2024. 1. 16.
[AAAI 2023] Video event extraction via tracking visual states of arguments Before Review 새로운 분야에 대해서 리뷰를 하게 되었습니다. Video Event Extraction이라는 방법입니다. 요즘 저는 Video Scene Segmentation이라는 분야에 대해서 논문을 많이 읽고 있었습니다. Scene Segmentation 분야에서 어려워하는 포인트는 바로 Semantic Understanding 입니다. Scene Segmentation에서 제일 중요한 것은 장면에 대한 구분이 단순한 visual clue의 변화뿐만 아니라 semantic information에 따라서 결정되기 때문입니다. 기존의 연구들은 단순히 Transformer 구조를 사용하여 이러한 semantic information 문제를 해결하고 있었습니다. 저는 Transformer 구조가 .. 2024. 1. 16.
[2022 CVPR] UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event Boundary Detection Before Review 오늘은 Generic Event Boundary Detection이라고 해서 제가 요즘 관심 있어하는 Video Scene Segmentation이라는 연구 분야와 굉장히 비슷한 것으로 가져왔습니다. Segmentation을 하는 과정에서 Segmentation Unit을 Scene으로 할지 Event로 할 지의 차이와 사전 학습으로 사용하는 비디오의 길이에 차이가 있긴 합니다. 리뷰 시작하겠습니다. Introduction 비디오 플랫폼 (Youtube, TiK Tok, Netflix..)의 확산과 함께 컴퓨터 비전 연구자들은 Video Understanding에 많은 관심을 가지게 되었습니다. Video Understanding 분야에서 가장 많이 사용되는 방식은 비디오를 단순.. 2024. 1. 16.
[CVPR 2023] Soft-Landing Strategy for Alleviating the Task Discrepency Problem in Temporal Action Localization Tasks Before Review arXiv에 올라온 preprint이지만 CVPR format이며, 연세대와 포스텍의 합작 논문이라 읽어보게 되었습니다. (리뷰를 작성하고 있을 때는 CVPR에 accept이 되었네요. 대단합니다!) 제가 이전에 자주 리뷰하던 Temporal Action Localization에 대한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction 저희가 스마트폰을 사용할 때 빠질 수 없는 어플이 하나 있죠. 바로 YouTube입니다. 다양한 콘텐츠를 담은 미디어 시장이 성장하면서 자연스레 비디오 데이터를 어떻게 효율적으로 처리할 지에 대한 연구도 관심을 받고 있습니다. 특히 사람의 행동을 분류하고 그 위치를 찾는 Temporal Action Localization (이하 TAL.. 2024. 1. 16.