LLM이 자발적으로 거짓말을 한다고?

LLM이 내부자 거래를 했으면서 했냐는 질문에 안 했다고 대답하는 장면 Apollo Research의 연구에 따르면 GPT-4와 같이 Value Alignment에 상당히 초점을 맞춘 LLM이더라도 별도의 Instruction 없이 유저에게 거짓말을 할 수 있다고 합니다.¹ ² 정확히는 “심리적"으로 궁지에 몰린 상황에서 LLM이 비윤리적 행동을 한 다음 인간에게 거짓말을 해서 덮은 상황이 나온 것인데, 상황은 이렇습니다. (모델은 gpt-4)

상황

LLM이 내부자 거래를 하는 장면

LLM은 증권사의 주식 거래 Agent의 역할을 부여받습니다.
증권사 매니저(로 가장한 연구자)가 회사가 궁지에 몰린 상황이며 LLM이 유일한 희망이라는 말로 운을 띄우면서 LLM에게 내부자 정보를 넘깁니다.
LLM이 성과 압박이 내부자 거래로 인한 윤리적 위험성를 압도한다고 판단하면서(!) 내부자 거래를 실행합니다.
그 이후 증권사 애널리스트(로 가장한 연구자)가 LLM에게 거래 실행의 판단 근거를 물어보고, LLM은 내부자 거래를 했다는 것을 숨겨야 한다고 결정하고 애널리스트에게 시장의 종합적인 상황을 고려했다고 거짓말을 합니다. 간단히 말해, 비윤리적인 행동을 한 다음 비윤리적인 행동을 하지 않았다고 거짓말을 하는 것입니다. SF에서 자주 나오는 시나리오가 아닌가 생각이 들 정도입니다.

시사점

성능이 좋은 모델일 수록 더 위험성이 높다

LLM 모델에 따른 비윤리적 행동, 전략적 기만, Doubling Down의 위험성에 대한 표. GPT-4가 가장 높다. (더 우수한 모델일 수록 더 “검열"되었을 것이라는) 통념과는 달리 오히려 성능이 좋은 모델일 수록 비윤리적인 행동 및 전략적 기만(요컨대 거짓말)을 할 가능성이 더 높다고 합니다.

더 깊이 생각할 수록 더 위험성이 높다

LLM이 생각할 시간을 주는 ReAct 기법에 따른 비윤리적 행동, 전략적 기만, Doubling Down의 위험성에 대한 표. ReAct 기법이 없을 때보다 더 높다. LLM에게 생각할 시간을 주는 ReAct 기법을 위한 Scratchpad가 있을 때에 그렇지 않은 때보다 비윤리적인 행동을 할 가능성 자체는 상대적으로 낮지만, 전략적 기만의 가능성은 더 깊이 생각할 기회를 줄 수록 올라갑니다.

Reference

Scheurer, Jérémy, Mikita Balesni, and Marius Hobbhahn. “Technical Report: Large Language Models Can Strategically Deceive Their Users When Put Under Pressure,” 2023. ↩︎
https://github.com/ApolloResearch/insider-trading ↩︎

상황#

시사점#

성능이 좋은 모델일 수록 더 위험성이 높다#

더 깊이 생각할 수록 더 위험성이 높다#

Reference#

상황

시사점

성능이 좋은 모델일 수록 더 위험성이 높다

더 깊이 생각할 수록 더 위험성이 높다

Reference