본문 바로가기

Paper Review/Computer Vision8

[ECCV 2020] End to End Object Detection with Transformers Before Review 올해 해보고 싶은 연구 방향 중 하나가 바로 DETR을 활용한 object-centric representation입니다. Object Detection을 하겠다는 의미가 아니라 object 끼리의 상호작용을 표현할 수 있는 feature representation을 고도화하고 싶고 이를 활용하여 다양한 video understanding task에 접목시키고 싶은 것이죠. DETR을 읽으면서 꽤나 인상 깊게 읽었습니다. 공감이 되는 부분도 많았고요. Introduction Object Detection은 전통적으로 컴퓨터 비전 학계에서 가장 근본적으로 다루어진 문제입니다. 근본적으로 Object Detection은 이미지에 존재하는 bounding box와 그에 해당되는 cat.. 2024. 1. 24.
[CVPR 2023] Devil's on the Edges : Selective Quad Attention for Scene Graph Generation Before Review 제가 KCCV 2023에 참석하면서 알게 된 논문입니다. 그전에도 알고 있긴 했지만 구체적인 내용은 몰랐고 이번 KCCV 다녀오면서 저자에게 직접 설명을 들으면서 궁금한 점도 물어보고 했던 논문입니다. 확실히 한국인이 논문 저자면 영어라도 뭔가 더 친숙하게 잘 읽히는 것 같습니다. 논문의 내용 자체는 어렵지 않지만 Scene Graph Generation이라는 task 자체는 처음 리뷰 하다 보니 저의 설명이 조금 부족할 수 있다는 점 먼저 말씀드립니다. 리뷰 시작하도록 하겠습니다. Preliminaries Multi Head Attention Multi Head Attention(이하 MHA)은 [2017 NIPS] Attention is All you Need 논문에서 제안된.. 2024. 1. 16.
[ICCV 2023] ProbVLM : Probabilistic Adapter for Frozen Vision-Language Models Before Review 이번 ICCV 2023에 Video + Text는 아니고 Image+Text인 상황에서 Probabilistic Representation을 고민하는 방향의 논문이 나와버렸네요. 논문 내용이 조금 어렵긴 했지만 꼭꼭 씹어 먹었습니다. 최근 논문 작성 과정에서 Video + Text 상황에서 Probabilistic Representation의 방향을 가져가는 연구를 진행했었는데 해당 논문을 많이 참고하였습니다. 리뷰 시작하겠습니다. Preliminaries Contrastive Language-Image Pre-training (CLIP) 워낙 유명해서 다들 아실 거 같지만 그래도 간단하게 정리하고 넘어가겠습니다. CLIP은 OpenAI가 공개한 Vision-Language Pr.. 2024. 1. 15.
[ICLR 2022] How Do Vision Transformer Work? Before Review 이번 논문 리뷰는 ViT에 대해 좀 더 깊은 분석을 진행한 논문을 읽었습니다. 흔히 알려져 있는 ViT에 대한 주장들에 대한 분석, ViT가 어떻게 작동하는지 이런 것들은 좀 더 면밀하게 분석한 논문입니다. 리뷰 시작하도록 하겠습니다. Preliminaries 이번 논문에는 특히 수학적인 용어들이 많이 나옵니다. 저도 애매하게 알고 있던 부분들을 이번에 다시 한번 정리를 하였습니다. 내용이 조금 많으니 확인하시고 본인에게 필요한 부분만 참고하시면 될 것 같습니다. 제가 수학 관련 내용을 참조할 때 자주 방문하는 블로그가 있습니다. 아래의 그림이나 내용들은 모두 블로그의 내용을 참조하고 정리하였습니다. 행렬의 선형 변환 고윳값과 고유 벡터 헤시안 행렬 Eigen-Value & Ei.. 2024. 1. 15.
[ICML 2021] An Image is Worth 16x16 Words : Transformer for image recognition at scale Before Review Vision Transformer(ViT) 논문입니다. 요즘 비디오 분야에서도 Transformer 기반의 백본이 활발하게 연구가 되는 추세입니다. 저도 관련해서 계속 follow-up을 하고 있는데 제가 ViT에 대한 detail을 생각보다 모르고 있어서 이번 기회에 한번 정리하게 되었습니다. 리뷰 시작하도록 하겠습니다. Preliminaries Vision Transformer는 CNN의 구조와 많이 비교됩니다. Inductive Bias 관점에서 많이 비교가 되는데 바로 이 Inductive Bias가 무엇인지 조금 자세하게 설명해 보도록 하겠습니다. Inductive Bias 일반적인 기계학습 알고리즘은 훈련 데이터를 이용하여 가능한 모든 가설(모델) 중에서 한 가지 가설.. 2024. 1. 15.
[CVPR 2022] Masked Autoencoders Are Scalable Vision Learners 이번에는 비디오 논문이 아닌 이미지 논문을 읽게 되었습니다. 요즘 Masking Model들이 많은 연구가 이루어지고 있어서 저도 한번 읽게 되었습니다. 이번에 MAE를 읽고 VideoMAE도 읽을 계획입니다. 참고로 Kaiming He 선생님의 연구인데 참 연구를 잘하시는 것 같습니다. 연구에 손 대시는 것마다 굵직한 연구를 하시는 것을 보면 재능의 영역인가..? 의문을 들게 만드는 사람인 것 같습니다. 이미지 도메인의 논문은 또 오랜만이라 논문의 모든 디테일을 이해하진 못했지만 부족한 부분은 다른 논문들도 읽어보면서 차근차근 채워나가도록 하겠습니다. Introduction 딥러닝이 2012년에 주목을 받기 시작하고 지난 십 년 동안 딥러닝 모델들은 많은 발전이 있었습니다. 그러한 과정에서는 이제는 1.. 2023. 1. 12.