본문 바로가기

분류 전체보기67

[CVPR 2020 oral] Unbiased Scene Graph Generation from Biased Training Before Review우선 오늘 리뷰 하는 논문은 오늘날 SGG 연구의 기반이 되고 있는 논문으로 SGG 문제를 푸는 최초의 논문은 아니지만, 가장 중요했던 bias problem에 대한 훌륭한 insight를 제공한 논문입니다. 동시에 모든 연구에 사용 가능한 protocol을 코드로 잘 공개하여 후속 연구들은 모두 이 코드를 활용하고 있습니다. 논문 자체는 제가 최근 읽어본 논문 중에 이해하기 가장 어려웠던 논문인 거 같네요. 우선, 해당 논문에서 라이팅이 문장을 길게 쓰는 형식이다 보니, 읽기 어려웠습니다. 문장을 끊어서 쓰지 않고 어떻게든 붙여서 서술하는 방식이라 해석하기 조금 어려웠습니다. 또한 논문의 motivation을 psychological 연구 내용 기반으로 하여, 글을 구성하는 단어.. 2024. 10. 23.
[ACM MM 2023] Open-Vocabulary Object Detection via Scene Graph Discovery IntroductionObject Detection은 예전부터 전통적으로 컴퓨터 비전 도메인에서 중요하게 다뤄진 문제입니다. 대다수의 학생들도 딥러닝을 활용한 컴퓨터 비전을 배우면 가장 먼저 하는 것이 Object Detection 이죠. 전통적인 Object Detection은 고정된 category set을 가정하고 학습과 추론을 진행했습니다. 즉, 추론 과정에서는 학습 과정에서 배운 category만 대응할 수 있는 구조였던 것이죠.따라서 다양한 real-world system에서 Object Detection을 수행하기 위해서 내가 원하는 category를 포함하는 새로운 데이터 셋으로 re-train 시키는 과정이 필요했습니다. 따라서 open-set을 가정하는 연구들이 많은 주목을 받게 되었습.. 2024. 10. 23.
[ECCV 2020] End to End Object Detection with Transformers Before Review 올해 해보고 싶은 연구 방향 중 하나가 바로 DETR을 활용한 object-centric representation입니다. Object Detection을 하겠다는 의미가 아니라 object 끼리의 상호작용을 표현할 수 있는 feature representation을 고도화하고 싶고 이를 활용하여 다양한 video understanding task에 접목시키고 싶은 것이죠. DETR을 읽으면서 꽤나 인상 깊게 읽었습니다. 공감이 되는 부분도 많았고요. Introduction Object Detection은 전통적으로 컴퓨터 비전 학계에서 가장 근본적으로 다루어진 문제입니다. 근본적으로 Object Detection은 이미지에 존재하는 bounding box와 그에 해당되는 cat.. 2024. 1. 24.
[ACCV 2022] Boundary aware Self Supervised Learning for Video Scene Segmentation Before Review이번 논문은 Video Scene Segmentation으로 읽게 됐습니다. [2022 CVPR] Scene Consistency Representation Learning for Video Scene Segmentation 지난 리뷰에도 동일한 task에 대해서 다루었으니 관심 있다면 한번 살펴보시길 바랍니다. Video Scene Segmentation 관련하여 카카오브레인, 서울대학교, 한양대학교에서 공동 연구를 한 논문이 나와서 읽어 보게 되었습니다. 리뷰 시작하도록 하겠습니다. Introduction영화와 같은 길이가 굉장히 긴 비디오를 AI system에게 이해하게 하는 것은 굉장히 어려운 일입니다. 보통 인간이 비디오를 이해하는 과정은 비디오를 meaningful un.. 2024. 1. 16.
[AAAI 2023] Frequency Selective Augmentation for Video Representation Learning Before Review 이번 논문은 Self-Supervised 기반의 Video Representation Learning 논문으로 준비해 봤습니다. LG, NAVER, KAIST가 공동 연구 진행한 논문입니다. 제목에서 유추할 수 있지만 Video Representation Learning을 위한 Augmentation 기법을 제안한 논문입니다. 신호 및 시스템에서 배웠던 푸리에 변환이 제가 관심 있는 연구 분야에서 활용되는 것을 보니 신기하네요. 리뷰 시작하겠습니다. Introduction 저희가 일상생활에서 가장 많이 소비하고 생성되는 미디어 콘텐츠는 바로 영상 데이터입니다. 유튜브 쇼츠, 인스타그램 릴스, 틱톡 등등 저희가 스마트 폰으로 많이 보는 것들이죠. 데이터들은 많이 생성되고 있는데 이.. 2024. 1. 16.
[CVPR 2023] Learning Situation Hyper-Graphs for Video Question Answering Before Review 이번 X-Review는 처음 읽어보는 Video Question Answering(이하 VQA) 논문입니다. VQA에 관심이 생긴 건 아니고, Graph Representation을 활용하여 semantic representation을 고도화하는 논문을 찾다가 VQA 진영에서는 이러한 Graph Representation을 많이 사용한다는 것을 알게 되어 논문 하나 잡고 리뷰하게 됐습니다. 저도 생소한 VQA인데 더군다나 Graph Representation에 대한 내용도 나와서 논문 읽느라 조금 힘들었습니다. 리뷰 자체는 실험 내용에 대한 해석보다는 방법론에 대한 이해에 좀 더 초점을 맞췄습니다. 리뷰 시작하겠습니다. Preliminaries Hyper Graph Hypergr.. 2024. 1. 16.