본문 바로가기
Diary

[컴퓨터 비전 / 인공지능 대학원생] 연구실 회고 2부 (연구 시작)

by TaekGeun 2025. 4. 19.

들어가며

안녕하세요 이번 글에서는 1부에 이어 

 

본격적으로 인공지능 연구실에서는 무슨 일을 하는지 적어 보도록 하겠습니다.

 

연구란 무엇이고, R&D 사이클은 무엇이고 어떻게 돌아가는지 얘기해 보도록 하겠습니다.

 

지난 글은 저에 대한 소개와 인공지능을 공부함에 있어 무엇이 중요한지 다뤘다면

 

이번 포스팅에서는 조금 더 대학원 진학을 고민하는 분들에게 있어

 

인공지능 연구실에서는 무슨 일을 하는가라는 질문에 답변을 드릴 수 있는 내용으로 준비해 보았습니다.

연구란?

당연히 연구실에서는 연구 (Research)를 합니다. 사실 제가 지난 포스팅에서 다뤘던 중점 내용은 공부 (Study)였구요.

 

공부는 문제와 답이 있습니다.

 

연구는 문제를 스스로 찾아야 하고 답도 스스로 제안해야 합니다.

 

공부의 과정은 기존의 잘 정리된 이론들을 적절하게 서적이나 강의등을 활용하여 관련 내용을 학습하는 과정입니다.

 

연구의 과정은 기본적으로 공부의 과정을 포함하며 그 너머의 지적 활동을 의미한다고 볼 수 있습니다.

 

관련하여 좋은 영상이 있어 링크를 첨부합니다. (꼭 한번 보세요!)

 

그래서 연구는

 

기본적으로 해당 도메인에 해당 공부 및 학습이 잘 선행된 상태에서 (Introduction, Related Work)

 

그 누구도 제기하지 않았던 문제를 발견하고 (Problem Definition)

 

내가 정의한 문제를 해결할 수 있는 설루션을 제안하고 (Method)

 

내가 제안한 설루션이 효과적인지 검증 (Experiment/Evaluation)

 

의 과정을 의미한다고 볼 수 있습니다.

 

핵심은 이 모든 과정을 자기 주도적으로 내가 제안하고 검증하고 설득해야 한다는 점입니다.

 

이것이 공부와는 확연히 다른 점이라 볼 수 있죠.

 

비단 인공지능 대학원뿐 아니라 위의 내용은 어느 연구실을 가든 일맥상통 할 것이라 생각합니다. 

 

관련하여 굉장히 좋은 포스팅을 공유합니다.

 

저도 이 책을 읽고 마음을 다잡았던 것 같아요. 대학원생 때 알았더라면 좋았을 것들

 

대학원생 때 알았더라면 좋았을 것들

대학원에 진학하여 박사과정을 마치는 동안 겪을 수 있는 여러가지 어려운 점에 대해 이야기해보고자 합니다. 엄태웅, 최윤섭, 권창현이 이야기를 진행합니다. 댓글을 통해 자유롭게 의견을 나

gradschoolstory.chkwon.net

 

무튼 정리하면, 연구라는 과정은 공부와 비교했을 때 훨씬 더 어려운 작업이다 정도로 정리할 수 있습니다. 

 

(당연한 얘기지만 저는 처음에는 모르고 그냥 진학했습니다..ㅎㅎ)

 

이러한 배경을 알고 내가 연구실을 진학하는 것과 모르고 진학하는 것은 마음 가짐부터 달라질 수 있다고 생각해요.

인공지능 연구 시작

저는 비교적 연구 경험을 조금 빨리 시작할 수 있었습니다. 

 

학부 3학년부터 연구 개발 과제에 투입이 되었는데, 덕분에 이른 시기에 많은 경험을 얻을 수 있었습니다.

 

보통의 연구실은 연구비를 수주하기 위해 정부 및 기업 과제를 수행합니다.

 

(돈이 많으면 안 할 수 있겠지만 거의 없다고 보시면 됩니다.)

 

저희 연구실의 경우는 관심 연구 주제와 맞춰서 연구 개발 과제를 수주하였기 때문에

 

연구 개발 과제를 수행하면서 동시에 연구도 같이 진행하였습니다.

 

(연구 개발 과제와 개인 연구 주제가 맞지 않으면 조금 곤란해지는 상황도 발생합니다.)

 

저희 비디오 팀이 맡은 과제의 연구 주제는 비디오 특징 표현량 개선이었습니다.

 

자세한 내용을 말씀드리기는 어렵지만 이 과제를 수행하면서 느낀 연구의 큰 줄기를 정리해 보면

 

1. 문제 정의

출처 : how-do-we-define-problem-rahul-sharma/

 

저희가 해결하려고 했던 문제는 비디오의 길이가 길어질 때 인공 신경망이 데이터를 제대로 표현하지 못하는 문제였습니다.

 

직관적으로 생각해 봐도 당연히 길이가 길어지면 처리하고 이해해야 하는 데이터가 많아지니 인공 신경망이 이를 다루는 데 있어 어려움이 있을 것 같습니다.

 

하지만 이렇게 추상적으로만 문제를 정의하는 것이 아니라 실제로 데이터 통계별로 (비디오 시간마다) 특정 작업에서의 성능을 평가해 보면 길이가 길어질수록 성능이 떨어지는 문제가 (long-range dependency) 발견되었습니다. 

 

2. 가설 수립 및 변인 통제

그렇다면 무엇이 문제인지를 정밀하게 확인해 볼 필요가 있습니다. 보통 이것을 변인통제라고 일컫습니다. 

 

논문에서는 ablation study로 보통 표현을 하는데,

 

실험에서 조작변인을 변화시키고, 나머지 변인은 일정하게 유지시키는 것을 말합니다.

 

관측된 실험 결과가 어떤 조건 때문에 나타난 것인지 확인하기 위해 실험과 관련된 조건을 확인하고 통제하는 것이죠.

 

저희는 앞서 정의한 비디오 길이 별 성능이 떨어지는 문제에 대한 원인을 찾기 위해

 

Q1. 특정 인공 신경망 모델에서 발생하는 문제인가? 

 

Q2. 특정 데이터에서 발생하는 문제인가?

 

Q3. 특정 Down stream task에서 발생하는 문제인가?

 

등등 여러 가지 질문을 가정하고 각 질문의 답을 확인하기 위해 필요한 변인들을 (model, data, task) 바꿔가면서 결과를 확인하는 것이죠.

출처 : https://www.baeldung.com/cs/ml-ablation-study

 

변인 통제 과정을 세밀하게 진행할수록 내가 정의한 문제에서 정확히 어떤 부분을 개선해야 하는지 그 insight를 얻을 수 있게 됩니다.

 

앞선 변인 통제를 통해

 

1. 신경망 종류에 따라 성능 차이가 발생할 수 있다는 것을 확인하였고 (Convolution과 Transformer 구조의 차이)

 

2. 비디오 데이터가 길어도 잘 편집된 영상이라면 performance drop 정도가 낮다는 사실 (관련 없는 배경 프레임의 유무 차이)

 

을 확인할 수 있었습니다.

 

3. 무수한 시행착오

앞선 관찰을 통해 문제 정의 (Problem Definition)를 조금 더 구체화시킬 수 있었고

 

나름의 간단한 설루션 방향도 얻을 수 있게 됩니다.

 

Convolution 보다는 더 넓은 receptive field를 제공하는 attention 연산을 활용해 보고 배경 프레임을 억제해 보자

 

이렇게 되면 이제 할 일을 attention 연산을 어떻게 설계할 것인지, 그리고 배경 프레임을 어떻게 식별하고 억제할 것인지에 대한 

 

방법을 계속 제안해 보며 이렇게 실험해 보고, 저렇게 실험해보고 하는 식의 무수한 시행착오를 경험하게 됩니다.

출처 : Machine Learning. The Basics (Alexander Jung)

 

이 과정에서 중요한 것은 주먹구구 식의 실험을 하는 것이 아니라 이전 연구의 근거 (이전 연구의 주장, 레퍼런스) 혹은 논리적인 설명을 토대로 실험을 설계해야 다른 연구자들을 설득하기 수월하다는 점을 아셔야 합니다.

 

대다수의 좋은 연구들은 우리가 제안하는 방법이 이렇게 설계된 명확한 근거와 이유가 있다는 점 있는 것 같습니다.

 

보통의 기계학습 알고리즘을 확장하기 위해서는 Regularization을 어떻게 줄 것인지 또한 Inductive Bias를 어떻게 줄 것인지를 고민하는 것 같습니다. 

 

저 또한 이러한 논리적 연결고리를 찾는 과정이 어렵지만 주니어 연구자로서 부단히 노력하고 있는 부분입니다.

 

4. 평가 및 분석

앞선 시행착오를 통해 문제를 해결할 수 있는 나름의 논리적인 방법을 찾았다면 이제는 학계에서 혹은 목표로 하는 평가 환경에서 평가를 진행해야 합니다. 

 

이 과정에서도 변인 통제의 과정을 거쳐

 

기존 알고리즘 대비 특정한 환경에서 xx%의 개선이 이루어졌다를 먼저 확인하고,

 

특정한 환경이 아닌 다양한 환경에서도 강인하게 동작하는지 확인하고,

 

특정한 작업이 아닌 다양한 작업에서도 강인하게 동작하는지 확인하고,

 

등등 자신이 제안한 방법이 목표로 하는 평가 환경에서 작동함에 있어 1) 우수함, 2) 일반성, 3) 확장성 등등 어떠한 장점을 가지는지 평가를 진행해야 합니다.

 

그리고 왜 이러한 현상 (우수하고, 일반성 있고 확장성 있는지)이 발생하는지 설명할 수 있는 분석 결과를 내놓으면 더욱 완성도 있는 방법이 되겠죠.

 

5. 정리

인공지능 분야의 연구는 귀납적 탐구 과정과 비슷하다고 생각합니다. (core ML 이론 분야는 제외하겠습니다.)

출처 : The Inductive Bias of ML Models, and Why You Should Care About It

 

애초에 적은 표본 데이터로 모집단의 분포를 설명하려고 하는 기계학습이 귀납적 과정과 비슷한 부분이 있기 때문이라 생각해요.

 

따라서 누군가는 너무 논리적 비약이 심한 거 아니냐라는 비판 섞인 목소리를 내곤 합니다. (어느 정도 동의합니다.)

 

왜냐하면 왜 잘되는지는 정확히 설명하지 못한 채 그럴듯한 이유로 설명을 마무리하는 연구들이 적지 않게 존재하기 때문입니다.

 

그럼에도 이쪽 분야에 발을 들였다면 현재 이러한 인공지능 학계의 스탠다드를 부정하는 것은 옳지 않다고 생각합니다.

 

(부정하려면 최소한 탑티어 콘퍼런스에 무수히 많은 페이퍼를 게재하고 난 다음에 해도 늦지 않을 것 같습니다.)

 

따라서 인공지능 분야의 연구에서 중요한 것은 귀납적 과정으로 문제 정의 및 설루션을 도출하는 과정에서 최대한 논리와 근거를 완성도 있게 만들어내는 것이라 볼 수 있습니다. 

 

이 부분은 저도 아직 부족한 부분이 많은 관계로 더욱더 노력하고 보완하려고 하고 있습니다.

 

이제 박사과정을 시작하는 주니어이지만, 인공지능 연구의 큰 흐름에 대해서 저 나름대로의 생각을 정리해 보았습니다.

 

댓글로 또 좋은 의견 주시면 반영하여 더욱 완성도 있는 글로 보완하도록 하겠습니다.

R&D 사이클

국내 연구실에 있으면 또한 R&D 생태계에 대해서 알게 되는 순간이 찾아옵니다.

 

저도 주니어 연구자인 만큼 R&D 생태계에 대해서는 자세하게 알지 못하기 때문에

 

일단 저의 경험을 바탕으로 아는 선에서만 오류 없이 내용을 정리하려고 합니다.

 

1. 연구 과제 사이클

기본적으로 연구실을 운영하기 위해서는 돈이 필요하고 이러한 돈은 기본적으로 학교에서 나오지 않습니다.

 

과기원이나 상위권 대학은 사정이 조금은 다른 것으로 알고 있지만, 평균적인 관점으로 보면 지도 교수님 (연구 책임자)이 정부/기업 과제를 수주하여 연구비를 타오고 이 돈으로 인건비와 장비 구매 등 연구실 운영을 한다고 볼 수 있습니다.

 

어떻게 보면 연구실은 작은 스타트업이라고도 볼 수 있습니다. 

 

제가 몸담았던 연구실은 기업 과제를 많이 하지는 않았고 국가 정부 R&D 과제를 중점적으로 수행하였습니다.

 

그래서 국가 R&D 공고가 올라오는 2~5월에는 연구 과제 제안서 작업을 하게 됩니다.

 

연구 과제 공고의 경우는 특정 산학 문제를 해결하기 위한 요구 조건 및 기술 역량에 대한 안내를 담고 있고

IITP 과제 공고

 

연구실에서는 연구실에서 관심 있는 주제와 맞는 연구 과제를 선정하여 제안서 작업을 준비하게 됩니다.

 

제안서 작업 준비 과정에서는

 

1. 공고 주제와 관련하여 현재의 sota (state-of-the-arts)의 방법들은 무엇이 있는지

2. 우리 연구실이 해당 주제로 제안서를 작성한다면 어떤 기술적 차별성을 가져갈 것인지

3. 해당 과제를 해결함에 있어 적합한 컨소시엄은 어떻게 구성할 것인지

 

물론 뭐 제가 위에서 열거한 내용 말고도 검토한 내용이 더 많겠지만 제가 느끼기에 중요한 내용만 정리해 보았습니다.

 

이렇게 몇 가지 사항을 검토하고 나서 뭔가 도전해 볼 만하다 결론이 나면 제안서 작업을 시작하는 것 같습니다.

 

(사실 돈 없으면 fit이 안 맞아도 도전하는 경우도 있습니다.)

 

연구실마다 사정은 다르겠지만

 

어떤 연구실은 지도 교수가 온전히 작성할 수도 있고

 

어떤 연구실은 박사과정 고년차들이 주도적으로 작성할 수도 있고

 

어떤 연구실은 지도 교수 (거시적 관점) + 대학원생 (디테일 채우기) 이렇게 작성할 수도 있을 것 같습니다.

 

개인적으로는 인건비를 받는 사람이라면 제안서 작업을 할 때는 최선을 다해 지도 교수님을 도와 과제 수주에 노력을 다하는 것이 맞다 생각하며

 

이 과정에서도 단순히 이를 잡무라 생각하지 않고 문제 정의 및 설루션을 제안하는 훈련의 과정이라 생각하는 것이 서로에게 좋을 것이라 생각합니다.

 

무튼 정리해 보면

  1. 인공지능 연구실의 경우는 내부적으로 연구 과제를 수행하며, 연초에는 과제를 수주하기 위해 시간을 보낼 수 있으며 제안서 작업을 피할 수 없다면 최선을 다해 마무리하는 것이 좋습니다.
  2. 연말에는 보통 과제를 마무리하는 연차 보고서 작성으로 시간을 보낼 수 있습니다. (연초-제안서, 연말-보고서 사이클을 알고 있으면 좋습니다.)

제일 좋은 건 돈 걱정 없이 개인 연구만 할 수 있는 연구실에 가면 좋겠지만 흔한 케이스는 아니기에 논외로 두고

 

대신에 연구 과제에 매몰되어 개인 연구를 할 시간이 부족한 연구실은 미리 파악하여 피하는 것이 좋습니다.

 

(해당 연구실 고년차 구성원에게 커피 챗을 요청하는 것이 가장 좋습니다.)

 

최소한의 이러한 사이클을 알고 연구실에 진학한다면 소위 MZ스러운 (개인주의적인) 행동과 발언을 피할 수 있을 것이라 생각합니다.

 

2. 인공지능 논문 사이클

 

인공지능 학계 커뮤니티의 메인 스트림은 탑티어 콘퍼런스를 통해 진행된다고 보시면 됩니다.

 

이것도 하나하나 열거하면 많지만 나름 인지도가 높은 것들만 좀 소개를 하면 아래와 같습니다.

 

(더욱 자세한 학회를 확인해보고 싶으면 구글에 BK CS/AI 우수 학회 키워드로 검색하면 더욱 다양한 리스트를 확인할 수 있습니다.)

 

컴퓨터 비전 : CVPR, ICCV, ECCV 

 

기계학습 : NIPS, ICLR, ICML, AAAI

 

자연어 처리 : EMNLP, NACCL, ACL

 

국내에도 나름 중요한 학회 (KCCV, IPIU)가 있으니 참고하면 좋을 것 같네요.

 

그래서 연구실마다 목표로 하는 학회 사이클에 맞춰 전체적인 스케쥴링이 진행되게 됩니다.

 

ICML (매년 1월 투고)

 

ICCV, ECCV (번갈아가며 매년 3월 투고)

 

NIPS (매년 5월 투고)

 

ICLR (매년 8~9월 투고)

 

CVPR (매년 11월 투고)

 

그런데 이 말은 즉, 매년 다양한 탑티어 학회에서 논문이 쏟아진다는 얘기이며

 

이렇게 폭발적으로 변화하는 사이클에서 빠르게 빠르게 대응하고 결과를 내놓는 훈련이 되어 있어야 합니다.

 

저도 아직 정신을 못 차리고 있고 매일 같이 올라오는 arXiv 논문을 따라가는 것도 벅찬 상황입니다.

 

즉, 인공지능 커뮤니티에서는 빠르게 변화하는 생태계 속에서 나름 본인만의 주제를 견고하게 잘 잡고 어느 학회에 투고할 것인지 데드라인을 정한 다음에 가능하면 빠르게 빠르게 작업을 진행하는 것이 중요하다고 볼 수 있습니다.

마치며

이번 포스팅에서는 인공지능 연구실 대학원생이라면 모두가 알법한 내용이지만

 

경험을 해보지 않았다면 알기 어려운 내용으로 연구와 R&D 생태계에 대한 내용을 정리해 보았습니다.

 

다음 포스팅에서는 논문 작성기 그리고 학회 참관기 주제로 회고를 작성해 보도록 하겠습니다.

 

감사합니다.