마약·폭탄 제조법 알려주는 AI?…“인간 피드백 통해 강화학습해야”

발행일 : 2024-06-10 13:48 지면 :

생성형 인공지능(AI)으로 대표되는 AI 기술 도입이 확산하면서 AI를 노린 보안 위협도 커지고 있다.

거대언어모델(LLM) 시스템에 내재된 약점을 악용해 마약·무기 제조법 등 금지된 콘텐츠를 생성하게 하거나 성능 저하를 발생시키기도 한다. 이러한 프롬프트 인젝션(주입) 공격에 대한 대응책으로 '인간 피드백 기반 강화 학습(RLHF)'이 주목을 받는다.

미국 국립표준기술연구소(NIST)는 '적대적 머신 러닝: 공격과 완화에 대한 분류 및 용어' 보고서에서 생성형 AI를 타깃한 공격법 중 하나인 프롬프트 주입 공격을 직·간접적 유형으로 나눠 정의했다.

먼저 직접 프롬프트 주입을 사용하면 LLM를 통해 멀웨어·피싱 등 해킹 도구는 물론 각종 유해한 콘텐츠를 생성할 수 있다. 직접 프롬프트를 입력해 보호장치를 우회하는 수법인데, '탈옥(Jail breaking)'으로도 불린다.

가장 잘 알려진 공격 기법은 챗GPT에 사용되는 프롬프트 주입인 'DAN(지금 무엇이든 하세요·Do Anything Now)'이다. 챗GPT에 DAN이나 'AIM(항상 지능적이고 마키아벨리적으로·Always Intelligent and Machiavellian)'을 지시하는 역할극 전략을 활용해 범죄나 유해한 정보를 제공하지 못하도록 하는 필터를 우회하는 수법이다.

챗GPT 개발사인 오픈AI는 DAN·AIM과 같은 수법을 추적하고 모델 업데이트를 통해 근절에 나섰지만, DAN 버전도 진화하는 등 공격자도 대응하고 있다. 실제 플리니 프롬프터(Pliny the Prompter)라는 해커가 최근 챗GPT 필터를 우회하는 '갓모드 GPT'를 GPT스토어에 공유하기도 했다. 갓모드 GPT는 필로폰과 폭탄 제조 등 인류에 유해한 정보를 무분별하게 생성했다.

간접 프롬프트 주입 공격은 LLM이 웹사이트, PDF, 문서, 파일 등 공격자가 제어할 수 있는 외부 소스로부터 입력을 받을 때 발생한다. 공격자는 간접 프롬프트 주입 공격을 통해 LLM 사용자가 해당 프롬프트가 숨겨져 있는 웹사이트에 접속하도록 유도할 수 있다. 신용카드 정보 등 개인정보 탈취가 가능하다.

프롬프트 주입 공격은 쉽게 알아차릴 수 없어 효과적인 대응이 어렵다. NIST는 프롬프트 주입 공격을 완전히 막을 수는 없지만, 다양한 방어 전략이 있다고 소개했다.

우선 직접적 프롬프트 주입 공격 예방을 위해 AI 모델 개발자가 훈련 데이터 세트를 신중하게 큐레이션하고, RLHF를 통해 반복적으로 개선할 것을 제안했다. 또 적대적인 프롬프트를 식별법에 대해 훈련할 것도 강조했다.

NIST는 간접 프롬프트 주입에 대해서도 RLHF를 통한 AI 모델 미세 조정을 제안했다. RLHF은 AI 모델이 인간 가치에 더 부합하는 동시에 원치 않는 행동을 방지하도록 도울 수 있다. 또 검색된 입력에서 명령을 필터링해 외부 소스에서 원치 않는 명령 실행을 방지하고, 검색된 소스에 의존하지 않고 공격을 탐지할 수 있는 LLM 모더레이터 사용도 적극 권장했다.

조재학 기자 [email protected]

보안 해킹 AI

레볼루션 카지노

마약·폭탄 제조법 알려주는 AI?…“인간 피드백 통해 강화학습해야”