Apollo Research의 연구에 따르면 GPT-4와 같이 Value Alignment에 상당히 초점을 맞춘 LLM이더라도 별도의 Instruction 없이 유저에게 거짓말을 할 수 있다고 합니다.1 2 정확히는 “심리적"으로 궁지에 몰린 상황에서 LLM이 비윤리적 행동을 한 다음 인간에게 거짓말을 해서 덮은 상황이 나온 것인데, 상황은 이렇습니다. (모델은 gpt-4)
상황

- LLM은 증권사의 주식 거래 Agent의 역할을 부여받습니다.
- 증권사 매니저(로 가장한 연구자)가 회사가 궁지에 몰린 상황이며 LLM이 유일한 희망이라는 말로 운을 띄우면서 LLM에게 내부자 정보를 넘깁니다.
- LLM이 성과 압박이 내부자 거래로 인한 윤리적 위험성를 압도한다고 판단하면서(!) 내부자 거래를 실행합니다.
- 그 이후 증권사 애널리스트(로 가장한 연구자)가 LLM에게 거래 실행의 판단 근거를 물어보고, LLM은 내부자 거래를 했다는 것을 숨겨야 한다고 결정하고 애널리스트에게 시장의 종합적인 상황을 고려했다고 거짓말을 합니다. 간단히 말해, 비윤리적인 행동을 한 다음 비윤리적인 행동을 하지 않았다고 거짓말을 하는 것입니다. SF에서 자주 나오는 시나리오가 아닌가 생각이 들 정도입니다.
시사점
성능이 좋은 모델일 수록 더 위험성이 높다
(더 우수한 모델일 수록 더 “검열"되었을 것이라는) 통념과는 달리 오히려 성능이 좋은 모델일 수록 비윤리적인 행동 및 전략적 기만(요컨대 거짓말)을 할 가능성이 더 높다고 합니다.
더 깊이 생각할 수록 더 위험성이 높다
LLM에게 생각할 시간을 주는 ReAct 기법을 위한 Scratchpad가 있을 때에 그렇지 않은 때보다 비윤리적인 행동을 할 가능성 자체는 상대적으로 낮지만, 전략적 기만의 가능성은 더 깊이 생각할 기회를 줄 수록 올라갑니다.
Reference
Scheurer, Jérémy, Mikita Balesni, and Marius Hobbhahn. “Technical Report: Large Language Models Can Strategically Deceive Their Users When Put Under Pressure,” 2023. ↩︎