전체 글69 [컴퓨터 비전 / 인공지능 대학원생] 연구실 회고 2부 (연구 시작) 들어가며안녕하세요 이번 글에서는 1부에 이어 본격적으로 인공지능 연구실에서는 무슨 일을 하는지 적어 보도록 하겠습니다. 연구란 무엇이고, R&D 사이클은 무엇이고 어떻게 돌아가는지 얘기해 보도록 하겠습니다. 지난 글은 저에 대한 소개와 인공지능을 공부함에 있어 무엇이 중요한지 다뤘다면 이번 포스팅에서는 조금 더 대학원 진학을 고민하는 분들에게 있어 인공지능 연구실에서는 무슨 일을 하는가라는 질문에 답변을 드릴 수 있는 내용으로 준비해 보았습니다.연구란?당연히 연구실에서는 연구 (Research)를 합니다. 사실 제가 지난 포스팅에서 다뤘던 중점 내용은 공부 (Study)였구요. 공부는 문제와 답이 있습니다. 연구는 문제를 스스로 찾아야 하고 답도 스스로 제안해야 합니다. 공부의 과정은 기존의 잘 정리된.. 2025. 4. 19. [컴퓨터 비전 / 인공지능 대학원생] 연구실 회고 1부 (인턴 시작) 들어가며처음으로 회고 작성해 보면서 부끄럽지만 저에 대한 얘기를 해보려고 합니다. 인공지능 연구실 학부 인턴부터 석사 과정까지 거의 4년의 시간이 흘렀는데, 그 과정에서 느꼈던 경험이나 저의 생각들을 한번 공유하는 것도 도움이 될 거 같아 글을 적어보려 합니다. 내용이 좀 많을 것 같아 3부 정도로 정리하려고 합니다. 그럼 시작하겠습니다.Who am I?블로그의 글을 보면 아시겠지만, 저는 딥러닝과 컴퓨터 비전의 다양한 문제에 관심 있는 대학원생입니다. 로보틱스 및 컴퓨터 비전 연구실에서 4년 동안 연구실 생활을 지냈으며 컴퓨터 비전 분야 내에서 비디오 이해 (Video Understanding)라는 주제로 연구를 진행하고 있습니다. 이전에 다니던 연구실은 올해 2월에 석사 학위로 졸업을 하였고, 지금.. 2025. 4. 18. Optimization Theory (Duality) Intro이번 포스팅에서는 최적화 이론에서 굉장히 중요하게 다뤄지는 쌍대성(duality)에 대해서 알아보도록 하겠습니다. 최적화 문제에서 쌍대성(duality)은 주어진 원 문제(primal problem)와 이 문제에 대응하는 쌍대 문제(dual problem) 사이의 관계를 의미합니다 쌍대 문제를 푸는 것은 복잡한 원 문제를 더 쉽게 풀기 위해 사용되며, 특히 비선형 최적화나 제약 조건이 포함된 문제에서 유용하게 쓰입니다. 사실 대부분의 최적화 문제는 non convex problem 일 것이고 정확한 솔루션을 찾는 것이 어려운 경우가 굉장히 많습니다. 그럴 때 이 쌍대 문제 (dual problem)이 우리가 찾고자 하는 global solution의 bound를 제공하기도 하고, 특정한 조건에서.. 2024. 11. 12. [CVPR 2024] EGTR : Extracting Graph from Transformer for Scene Graph Generation IntroductionScene Graph Generation (이하 SGG)는 이미지 내에 존재하는 객체를 node로 표현하고 객체끼리의 관계를 edge로 표현하여 이미지를 설명할 수 있는 Scene Graph를 생성하는 것을 목표로 합니다. 단순히 객체를 탐지하는 object detection 보다 더 어려울 수밖에 없는 것이 객체끼리의 상호 작용을 나타내는 predicate를 동시에 예측해야 하기 때문입니다. 초기의 연구들은 객체를 먼저 검출하고, 관계 (predicate)를 예측하는 two-stage 기반으로 진행 됐습니다. 기본적으로 two-stage 기반의 방식들이 높은 검출 성능을 보여주지만, 연산 복잡도가 높아서 연구자들은 객체와 관계를 동시에 검출하는 one-stage 기반 방법들로 연구.. 2024. 10. 24. [CVPR 2024] LLM4SGG : Large Language Model for Weakly Supervised Scene Graph Generation IntroductionScene Graph Generation (이하 SGG)은 이미지에 존재하는 객체와 객체들 간의 관계를 예측하는 작업으로 High-level Scene Understanding 능력을 요구로 합니다. SGG는 이미지를 설명할 수 있는 로 구성된 triplet을 잘 찾는 것이 최종 목적이라 보시면 됩니다. 객체를 잘 찾는 것도 어려운데, 이 객체들 간의 semantic relationship까지 예측해야 하는 SGG는 아직 학계에서 challenging 한 task로 정의되고 있습니다. 그 높은 난이도 때문에 기존 연구들은 box annotation과 predicate annotation을 같이 활용하는 fully-supervised 환경에서 연구를 진행하였습니다. 이미지 내의 객체들.. 2024. 10. 24. [CVPR 2024] From Pixels to Graphs : Open-Vocabulary Scene Graph Generation with Vision-Language Models IntroductionScene Graph Generation (이하 SGG)은 이미지에 존재하는 객체와 객체들 간의 관계를 예측하는 작업으로 High-level Scene Understanding 능력을 요구로 합니다. Scene Graph의 구성 요소는 크게 세 가지로 구분이 됩니다. 1) Subject, 2) Predicate, 3) Object로 세 가지가 존재하게 됩니다. 즉, 이미지를 설명할 수 있는, 주어, 서술어, 목적어로 구성된, triplet을 잘 찾는 것이 최종 목적이라 보시면 됩니다. 최근 SGG 연구 동향의 경우 학습 때 배운 category만 대응할 수 있는 Closed-Set 시나리오가 아닌, 추론 과정에서 발생할 수 있는 새로운 category에도 대응할 수 있는 Open-V.. 2024. 10. 24. 이전 1 2 3 4 ··· 12 다음