레볼루션 카지노

[ET단상]생성형 AI, 언어를 넘어 시각으로

김승환 LG AI연구원 비전랩장
김승환 LG AI연구원 비전랩장

최근 오픈AI의 GPT, 구글의 PaLM, 메타의 LLaMA 등과 같은 대규모 언어모델(LLM) 생성형 인공지능(AI) 연구가 큰 인기를 끌고 있다. 이에 따라 컴퓨터 비전 분야에서도 주목할 만한 발전이 이뤄지고 있다. 오픈AI의 DALL·E 같은 초거대 컴퓨터 비전 모델은 대량의 데이터와 딥러닝 알고리즘으로 텍스트 묘사를 이미지로 생성하는 능력을 보여주며 주목받고 있다. 뿐만 아니라 딥마인드와 메타 등이 초거대 비전 모델을 소개하면서 컴퓨터 비전 분야 진정한 혁신 기회가 열렸다.

2015년 이미지넷 챌린지에선 AI 기술이 인간의 시각 능력을 뛰어넘었다는 열광적 반응이 있었다. 그러나 이는 사전 정의된 한정된 범위에서의 성능 평가였으며, 이미지 내 객체들의 관계와 상황을 이해하는 능력은 제한이 있었다. 최근 소개된 AI 모델들은 기존과 달리 객체 인식을 넘어 이미지 내 객체들의 관계, 상황, 문맥 등을 이해하는 능력을 갖춰 AI 시각이해 능력이 인간을 뛰어넘을 수 있다는 가능성을 제시하고 있다. 이러한 발전은 이미지 분석과 이해의 영역에서 전례 없는 혁신과 성과를 기대하게 한다.

LG AI연구원은 텍스트로부터 이미지를 생성하는 연구와 함께 기존 단순 사물 인식 수준을 넘어 이미지 내 객체들의 관계부터 상황과 문맥까지 이해하여 인간의 언어로 표현하고 전문가 수준으로 설명해 줄 수 있는 이미지 이해 기술에 주목하고 있다. 이미지 캡셔닝이라고 하는 이 기술은 이미지와 이를 묘사하는 텍스트 쌍 데이터를 학습해 객체들의 관계부터 상황과 문맥까지 이해해 표현하고 설명한다. 이는 AI가 사람의 시각 인지·이해 능력에 얼마나 가까워졌는지 보여주는 하나의 척도다. 단순히 객체를 인지하는 기술 수준을 넘어 인간 수준으로 이미지를 이해하는 AI 기술인 엑사원(EXAONE) 멀티모달을 제공하고자 한다.

LG AI연구원은 엑사원 멀티모달을 활용해 의료 영상 분야 연구도 진행하고 있다. 의료영상과 기록 데이터를 학습해 멀티모달 기술의 가능성을 확인했으며, 이러한 연구들은 “초거대 모델을 다양한 분야에 확장할 수 있다”는 모티브가 되고 있다. AI가 컴퓨터 비전 분야 연구와 발전을 지속적으로 이끌어 나갈 것으로 기대되는 이유다. 이미지 이해 기술 발전은 이미지 검색 분야에서도 혁신을 가져올 것으로 예상된다. 이미지 캡셔닝을 통해 이미지에 대한 자연어 검색과 키워드 생성이 가능해지면, 수작업으로 수행하던 작업들은 자동화되고 효율성이 높아질 것이다. 챗GPT가 자연어 검색 분야에 일으킨 반향과 혁신을 이미지 검색 분야에서도 기대하는 바다.

LG AI연구원은 컴퓨터 비전 분야 세계 최고 권위 학회인 ‘CVPR 2023’에서 챌린지앤드워크샵을 개최했다. ‘AI가 처음 본 이미지를 얼마나 정확하게 이해하고 설명하는지 평가’하는 챌린지를 2월부터 진행했고, 6월 워크샵에서는 AI 챌린지 최종 수상팀의 성과 발표를 포함해 글로벌 기업에서 AI를 연구하는 전문가들과 이미지 캡셔닝 기술의 진화 방향, 확장성과 AI 윤리 문제 등을 논의했다. 컴퓨터 비전 기술 발전과 함께 이미지 분석과 이해의 영역에서 전례 없는 혁신과 성과를 기대해 본다.

김승환 LG AI연구원 비전랩장 [email protected]