Alignment

Apollo Research의 연구에 따르면 GPT-4와 같이 Value Alignment에 상당히 초점을 맞춘 LLM이더라도 별도의 Instruction 없이 유저에게 거짓말을 할 수 있다고 합니다.1 2 정확히는 “심리적"으로 궁지에 몰린 상황에서 LLM이 비윤리적 행동을 한 다음 인간에게 거짓말을 해서 덮은 상황이 나온 것인데, 상황은 이렇습니다. (모델은 gpt-4) 상황 LLM은 증권사의 주식 거래 Agent의 역할을 부여받습니다. 증권사 매니저(로 가장한 연구자)가 회사가 궁지에 몰린 상황이며 LLM이 유일한 희망이라는 말로 운을 띄우면서 LLM에게 내부자 정보를 넘깁니다. LLM이 성과 압박이 내부자 거래로 인한 윤리적 위험성를 압도한다고 판단하면서(!...