본문 바로가기

전체 글59

[ECCV 2020] End to End Object Detection with Transformers Before Review 올해 해보고 싶은 연구 방향 중 하나가 바로 DETR을 활용한 object-centric representation입니다. Object Detection을 하겠다는 의미가 아니라 object 끼리의 상호작용을 표현할 수 있는 feature representation을 고도화하고 싶고 이를 활용하여 다양한 video understanding task에 접목시키고 싶은 것이죠. DETR을 읽으면서 꽤나 인상 깊게 읽었습니다. 공감이 되는 부분도 많았고요. Introduction Object Detection은 전통적으로 컴퓨터 비전 학계에서 가장 근본적으로 다루어진 문제입니다. 근본적으로 Object Detection은 이미지에 존재하는 bounding box와 그에 해당되는 cat.. 2024. 1. 24.
[2022 ACCV] Boundary aware Self Supervised Learning for Video Scene Segmentation Before Review 이번 논문은 Video Scene Segmentation으로 읽게 됐습니다. [2022 CVPR] Scene Consistency Representation Learning for Video Scene Segmentation 지난 리뷰에도 동일한 task에 대해서 다루었으니 관심 있다면 한번 살펴보시길 바랍니다. Video Scene Segmentation 관련하여 카카오브레인, 서울대학교, 한양대학교에서 공동 연구를 한 논문이 나와서 읽어 보게 되었습니다. 리뷰 시작하도록 하겠습니다. Introduction 영화와 같은 길이가 굉장히 긴 비디오를 AI system에게 이해하게 하는 것은 굉장히 어려운 일입니다. 보통 인간이 비디오를 이해하는 과정은 비디오를 meaningful .. 2024. 1. 16.
[AAAI 2023] Frequency Selective Augmentation for Video Representation Learning Before Review 이번 논문은 Self-Supervised 기반의 Video Representation Learning 논문으로 준비해 봤습니다. LG, NAVER, KAIST가 공동 연구 진행한 논문입니다. 제목에서 유추할 수 있지만 Video Representation Learning을 위한 Augmentation 기법을 제안한 논문입니다. 신호 및 시스템에서 배웠던 푸리에 변환이 제가 관심 있는 연구 분야에서 활용되는 것을 보니 신기하네요. 리뷰 시작하겠습니다. Introduction 저희가 일상생활에서 가장 많이 소비하고 생성되는 미디어 콘텐츠는 바로 영상 데이터입니다. 유튜브 쇼츠, 인스타그램 릴스, 틱톡 등등 저희가 스마트 폰으로 많이 보는 것들이죠. 데이터들은 많이 생성되고 있는데 이.. 2024. 1. 16.
[CVPR 2023] Learning Situation Hyper-Graphs for Video Question Answering Before Review 이번 X-Review는 처음 읽어보는 Video Question Answering(이하 VQA) 논문입니다. VQA에 관심이 생긴 건 아니고, Graph Representation을 활용하여 semantic representation을 고도화하는 논문을 찾다가 VQA 진영에서는 이러한 Graph Representation을 많이 사용한다는 것을 알게 되어 논문 하나 잡고 리뷰하게 됐습니다. 저도 생소한 VQA인데 더군다나 Graph Representation에 대한 내용도 나와서 논문 읽느라 조금 힘들었습니다. 리뷰 자체는 실험 내용에 대한 해석보다는 방법론에 대한 이해에 좀 더 초점을 맞췄습니다. 리뷰 시작하겠습니다. Preliminaries Hyper Graph Hypergr.. 2024. 1. 16.
[AAAI 2023] Video event extraction via tracking visual states of arguments Before Review 새로운 분야에 대해서 리뷰를 하게 되었습니다. Video Event Extraction이라는 방법입니다. 요즘 저는 Video Scene Segmentation이라는 분야에 대해서 논문을 많이 읽고 있었습니다. Scene Segmentation 분야에서 어려워하는 포인트는 바로 Semantic Understanding 입니다. Scene Segmentation에서 제일 중요한 것은 장면에 대한 구분이 단순한 visual clue의 변화뿐만 아니라 semantic information에 따라서 결정되기 때문입니다. 기존의 연구들은 단순히 Transformer 구조를 사용하여 이러한 semantic information 문제를 해결하고 있었습니다. 저는 Transformer 구조가 .. 2024. 1. 16.
[CVPR 2023] Devil's on the Edges : Selective Quad Attention for Scene Graph Generation Before Review 제가 KCCV 2023에 참석하면서 알게 된 논문입니다. 그전에도 알고 있긴 했지만 구체적인 내용은 몰랐고 이번 KCCV 다녀오면서 저자에게 직접 설명을 들으면서 궁금한 점도 물어보고 했던 논문입니다. 확실히 한국인이 논문 저자면 영어라도 뭔가 더 친숙하게 잘 읽히는 것 같습니다. 논문의 내용 자체는 어렵지 않지만 Scene Graph Generation이라는 task 자체는 처음 리뷰 하다 보니 저의 설명이 조금 부족할 수 있다는 점 먼저 말씀드립니다. 리뷰 시작하도록 하겠습니다. Preliminaries Multi Head Attention Multi Head Attention(이하 MHA)은 [2017 NIPS] Attention is All you Need 논문에서 제안된.. 2024. 1. 16.