본문 바로가기

분류 전체보기67

[AAAI 2023] Video event extraction via tracking visual states of arguments Before Review 새로운 분야에 대해서 리뷰를 하게 되었습니다. Video Event Extraction이라는 방법입니다. 요즘 저는 Video Scene Segmentation이라는 분야에 대해서 논문을 많이 읽고 있었습니다. Scene Segmentation 분야에서 어려워하는 포인트는 바로 Semantic Understanding 입니다. Scene Segmentation에서 제일 중요한 것은 장면에 대한 구분이 단순한 visual clue의 변화뿐만 아니라 semantic information에 따라서 결정되기 때문입니다. 기존의 연구들은 단순히 Transformer 구조를 사용하여 이러한 semantic information 문제를 해결하고 있었습니다. 저는 Transformer 구조가 .. 2024. 1. 16.
[CVPR 2023] Devil's on the Edges : Selective Quad Attention for Scene Graph Generation Before Review 제가 KCCV 2023에 참석하면서 알게 된 논문입니다. 그전에도 알고 있긴 했지만 구체적인 내용은 몰랐고 이번 KCCV 다녀오면서 저자에게 직접 설명을 들으면서 궁금한 점도 물어보고 했던 논문입니다. 확실히 한국인이 논문 저자면 영어라도 뭔가 더 친숙하게 잘 읽히는 것 같습니다. 논문의 내용 자체는 어렵지 않지만 Scene Graph Generation이라는 task 자체는 처음 리뷰 하다 보니 저의 설명이 조금 부족할 수 있다는 점 먼저 말씀드립니다. 리뷰 시작하도록 하겠습니다. Preliminaries Multi Head Attention Multi Head Attention(이하 MHA)은 [2017 NIPS] Attention is All you Need 논문에서 제안된.. 2024. 1. 16.
[CVPR 2022] UBoCo : Unsupervised Boundary Contrastive Learning for Generic Event Boundary Detection Before Review오늘은 Generic Event Boundary Detection이라고 해서 제가 요즘 관심 있어하는 Video Scene Segmentation이라는 연구 분야와 굉장히 비슷한 것으로 가져왔습니다. Segmentation을 하는 과정에서 Segmentation Unit을 Scene으로 할지 Event로 할 지의 차이와 사전 학습으로 사용하는 비디오의 길이에 차이가 있긴 합니다. 리뷰 시작하겠습니다.Introduction비디오 플랫폼 (Youtube, TiK Tok, Netflix..)의 확산과 함께 컴퓨터 비전 연구자들은 Video Understanding에 많은 관심을 가지게 되었습니다. Video Understanding 분야에서 가장 많이 사용되는 방식은 비디오를 단순히 겹.. 2024. 1. 16.
[CVPR 2023] Soft-Landing Strategy for Alleviating the Task Discrepency Problem in Temporal Action Localization Tasks Before Review arXiv에 올라온 preprint이지만 CVPR format이며, 연세대와 포스텍의 합작 논문이라 읽어보게 되었습니다. (리뷰를 작성하고 있을 때는 CVPR에 accept이 되었네요. 대단합니다!) 제가 이전에 자주 리뷰하던 Temporal Action Localization에 대한 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction 저희가 스마트폰을 사용할 때 빠질 수 없는 어플이 하나 있죠. 바로 YouTube입니다. 다양한 콘텐츠를 담은 미디어 시장이 성장하면서 자연스레 비디오 데이터를 어떻게 효율적으로 처리할 지에 대한 연구도 관심을 받고 있습니다. 특히 사람의 행동을 분류하고 그 위치를 찾는 Temporal Action Localization (이하 TAL.. 2024. 1. 16.
[NIPS 2021 ] Low-Fidelity Video Encoder Optimization for Temporal Action Localization Before Review 오래간만에 Temporal Action Localization 관련 논문 리뷰입니다. NIPS에 Temporal Action Localization 관련 논문이 억센 된 건 오랜만에 본 거 같아서 리뷰하게 되었습니다. 리뷰 시작하도록 하겠습니다. Introduction Temporal Action Localization은 길이가 긴 Untrimmed Video에 대해서 비디오 내부에 존재하는 사전에 정의된 Action Category에 해당되는 Segment를 예측하는 작업을 의미합니다. Temporal Action Localization의 핵심은 Boundary를 잘 예측하는 것이 중요하기 때문에 시간 축에 대해서 민감하게 반응해야 합니다. 즉, Action과 Backgroun.. 2024. 1. 15.
[ICCV 2023] ProbVLM : Probabilistic Adapter for Frozen Vision-Language Models Before Review 이번 ICCV 2023에 Video + Text는 아니고 Image+Text인 상황에서 Probabilistic Representation을 고민하는 방향의 논문이 나와버렸네요. 논문 내용이 조금 어렵긴 했지만 꼭꼭 씹어 먹었습니다. 최근 논문 작성 과정에서 Video + Text 상황에서 Probabilistic Representation의 방향을 가져가는 연구를 진행했었는데 해당 논문을 많이 참고하였습니다. 리뷰 시작하겠습니다. Preliminaries Contrastive Language-Image Pre-training (CLIP) 워낙 유명해서 다들 아실 거 같지만 그래도 간단하게 정리하고 넘어가겠습니다. CLIP은 OpenAI가 공개한 Vision-Language Pr.. 2024. 1. 15.