레볼루션 카지노

[사이언스온고지신]모든 길이 챗GPT로 통하지는 않는다

민옥기 한국전자통신연구원(ETRI) 초지능창의연구소장
민옥기 한국전자통신연구원(ETRI) 초지능창의연구소장

기원전 4세기에 흥했던 로마제국의 군사적, 경제적, 정치적 발전은 ‘아피아 도로망(Via Appia)’이 출발점이 되었기에 ‘모든 길이 로마로 통한다’는 말이 생겨났다고 한다. 최근, 챗GPT가 폭발적인 관심과 함께 모든 디지털 혁신의 ‘아피아 도로망’으로 인식되고 있다.

궁금증을 해결해주거나, 이력서나 회의록을 쓰는 응용들이 하루에도 몇 개씩 출시되고, GPT-4의 경우 상위 10% 성적으로 변호사와 SAT 시험을 통과했다고 하니 그 우수성을 부인할 수가 없다.

유발 하라리는 호모 사피엔스가 다른 영장류를 이길 수 있었던 능력을 ‘언어’와 ‘픽션 창출’로 규정한 바 있다. 그런데 챗GPT 언어능력은 충분히 뛰어난데다 생성형 인공지능(AI)이 소설, 시나리오, 삽화, 음악, 미술 심지어는 특허나 논문까지 인간 고유영역으로만 알았던 창작물을 쏟아내고 있다.

이런 상황이다 보니 AI 분야에서 오랫동안 연구해오던 국내·외 연구자들은 단체 패닉 상태다. 자금력 수반이 필요한 데이터와 컴퓨팅 파워가 만들어내는 대형사전학습모델을 웬만한 규모 연구개발(R&D)로는 넘어설 방법이 보이지 않는 까닭이다.

그렇다면 과연 챗GPT로 모든 디지털 혁신을 이루어낼 수 있는 것일까? 단언컨대 그렇지 않다. 그 이유로 첫째, ‘오픈 AI’가 취하는 모델 비공개 정책과 대형사전학습 모델의 기술적 한계로 기인한 문제들이 산재하다.

아직까지 챗GPT는 언어에 한정적이며, 기껏해야 대화와 이미지를 포함한 질문에 한정돼 있다. 사람은 눈, 코, 입, 촉각, 정보 등을 총망라해 의사결정을 하고 생활한다. 이에 비하면 실생활에 활용될 AI로서는 아직 부족하다는 것을 의미한다.

둘째, 사전학습모델은 현실에 약하다. 물론 구글의 AI ‘바드(Bard)’가 검색과 결합해 현시점의 정보를 반영한다고 하지만, 대부분은 학습 시점 지식을 기준으로 하고 있다. 과거 기준으로 한 답변을 잘 못 사용했다가는 낭패 보기 십상이다.

셋째, 현재 학습방법은 너무 많은 데이터와 컴퓨팅 파워를 소모하며 지구환경을 위협하는 새로운 위험요소가 되고있다. 실제로 GPT-3 학습에 소모된 전력이 1287메가와트시(㎿h)로 미국 120개 가정의 10년간 소비전력과 맞먹는다고 한다.

넷째, 내가 쓰는 AI가 꼭 세상의 모든 지식을 다 가지고 있을 필요가 없다는 점이다. 가볍게 개인에게 최적화된 AI가 더 효율적일 수도 있기 때문이다. 다섯째, 기업이나 국가의 정보가 글로벌 기업과 제3자에게 유출될 위험성을 가지고 있다. 마지막으로 기반 알고리즘인 트랜스포머 자체가 모든 데이터에서 정확도가 높은 것은 아니다. 따라서 챗GPT나 트랜스포머의 무조건적인 사용은 지양해야 한다.

언어처리나 AI를 연구하는 연구자들에게는 챗GPT가 마라톤을 할 때 가장 힘든 순간을 의미하는 ‘사점(dead point)’으로 보인다. 이 지점에서 허둥대기보다는 괴로움이 누그러지는 뜻의 ‘세컨드 윈드’를 타고 챗GPT가 부족한 영역을 찾는 것이 필요하다. 선수들은 운동을 편하게 계속하기 위해 오히려 사점을 빠르게 이끌기도 한다.

물론 모바일 앱이나 유튜브가 그랬듯이 현재의 기회를 타고 창의적인 응용을 만들어내는 스타트업이나 기업 활용 경쟁력을 높여야 할 것이다. 그러나 그보다 더 중요한 것은 미처 보지 못한 시장이나 기술의 필요성을 차분히 살펴보고 다음 스텝을 준비해야 한다.

종합적인 판단 능력을 가진 AI, 변화되는 현실과 지식을 지속적으로 성장시키는 AI, 에너지 효율적인 저탄소 AI 인프라, 개인에게 특화되어 최적화되는 체화된 AI 등이 다음 단계로 필요한 요소들이다.

또한, 정보유출 위험으로 글로벌 모델을 사용할 수 없는 기업과 기관을 위해 신뢰도 높고 효율적인 적정 크기의 파운데이션 모델 확보에도 힘을 기울여야 할 것이다.

민옥기 한국전자통신연구원(ETRI) 초지능창의연구소장 [email protected]