Paper Review57 [ICML 2022] Time Is MattEr : Temporal Self-supervision for Video transformers Before Review 요즘 제가 Transformer 관련 논문을 많이 읽고 있습니다. 이번 논문도 Video Transformer를 위한 Self-Supervised Learning을 다룬 논문입니다. 리뷰 시작하도록 하겠습니다. Introduction Transformer 계열의 architecture들은 long-term dependency를 잘 capture 할 수 있다는 이유로 Video 진영에서 21년쯤부터 계속 활발하게 연구가 진행되고 있습니다. 3D Convolution은 제한된 Receptive Field 때문에 global information을 capture 하기에는 한계가 있습니다. Transformer는 더군다나 입력의 길이에는 제한을 받지 않습니다. Transformer En.. 2024. 1. 15. [ICLR 2022] How Do Vision Transformer Work? Before Review 이번 논문 리뷰는 ViT에 대해 좀 더 깊은 분석을 진행한 논문을 읽었습니다. 흔히 알려져 있는 ViT에 대한 주장들에 대한 분석, ViT가 어떻게 작동하는지 이런 것들은 좀 더 면밀하게 분석한 논문입니다. 리뷰 시작하도록 하겠습니다. Preliminaries 이번 논문에는 특히 수학적인 용어들이 많이 나옵니다. 저도 애매하게 알고 있던 부분들을 이번에 다시 한번 정리를 하였습니다. 내용이 조금 많으니 확인하시고 본인에게 필요한 부분만 참고하시면 될 것 같습니다. 제가 수학 관련 내용을 참조할 때 자주 방문하는 블로그가 있습니다. 아래의 그림이나 내용들은 모두 블로그의 내용을 참조하고 정리하였습니다. 행렬의 선형 변환 고윳값과 고유 벡터 헤시안 행렬 Eigen-Value & Ei.. 2024. 1. 15. [ICLR 2022] Uniformer : Unified Transformer For Efficient Spatiotemporal Representation Learning Before Review 이번에도 BackBone 연구입니다. 흥미로웠던 것은 3D CNN의 장점과 Vision Transformer의 장점을 묶어 하나의 통합된(Unified) 구조를 제안하는 것이 인상 깊었습니다. 리뷰 시작하도록 하겠습니다. Preliminaries 딥러닝에서 자주 활용되지만 따로 알아보지 않으면 낯선(?) 연산들에 대해서 알아보도록 하겠습니다. Gaussian Error Linear Unit (GELU) 요즘 BERT나 GPT 그리고 ViT 기반의 최신 논문 혹은 MLP-Mixer와 같은 최신 연구에서 정말 자주 보이는 활성화 함수입니다. 저도 그냥 ReLU 보다 GELU가 더 좋더라 정도로만 알고 있었는데 GELU가 어떻게 formulation 되는지는 알아본 적이 없어 이번 기.. 2024. 1. 15. [ICML 2021] An Image is Worth 16x16 Words : Transformer for image recognition at scale Before Review Vision Transformer(ViT) 논문입니다. 요즘 비디오 분야에서도 Transformer 기반의 백본이 활발하게 연구가 되는 추세입니다. 저도 관련해서 계속 follow-up을 하고 있는데 제가 ViT에 대한 detail을 생각보다 모르고 있어서 이번 기회에 한번 정리하게 되었습니다. 리뷰 시작하도록 하겠습니다. Preliminaries Vision Transformer는 CNN의 구조와 많이 비교됩니다. Inductive Bias 관점에서 많이 비교가 되는데 바로 이 Inductive Bias가 무엇인지 조금 자세하게 설명해 보도록 하겠습니다. Inductive Bias 일반적인 기계학습 알고리즘은 훈련 데이터를 이용하여 가능한 모든 가설(모델) 중에서 한 가지 가설.. 2024. 1. 15. Self-Supervised Learning Framework (SimCLR, MoCo) Before Review 요즘 Self-Supervised 기반의 Video Representation Learning 논문을 계속 읽고 있는데 기본적인 SSL framework에 이해가 부족한 느낌을 받았습니다. 요즘 비디오 분야에서 2D Encoder + Transformer 구조가 많이 등장하면서 2D Encoder 부분에 SimCLR나 MoCo 같은 framework를 많이 사용하고 있습니다. 그런데 이 SimCLR나 MoCo와 같은 구조의 특징이나 implementation detail을 제가 놓치고 있었습니다. 따라서 한번 제대로 정리하고자 SSL의 대장(?) 논문들을 method 위주로 정리하였습니다. 따라서 실험 내용보다는 방법론의 개념 그리고 implementation detail에 집중.. 2024. 1. 15. [CVPR 2022] Probabilistic Representations for Video Contrastive Learning Preliminaries 본 논문을 이해하기 위해서는 가우시안 혼합 모델(Mixture of Gaussian)이 무엇인지 이해해야 합니다. Gaussian Mixture Model 우선 가우시안 혼합 모델이라 불리는 수학적 테크닉에 대해서 알아보도록 하겠습니다. 예를 들어 아래와 같은 데이터의 분포가 있다고 생각해 보겠습니다. 왼쪽 사진을 보면 전체 데이터의 분포를 하나의 가우시안 분포로 근사하여 설명하고 있습니다. 그래서 그런지 전체 데이터를 완전하게 설명하기에는 조금 부족해 보입니다. 가우시안 분포 중앙 부분에는 실제로 데이터가 별로 없기 때문입니다. 오른쪽 사진을 보면 전체 데이터의 분포를 두개의 가우시안 분포로 근사하여 설명하고 있습니다. 앞서서 하나의 분포로만 설명한 것에 비해 이번에는 데이터 .. 2024. 1. 15. 이전 1 2 3 4 5 6 7 ··· 10 다음