[논문] 클로드, GPT, 제미나이로 워게임을 실행하면 어떻게 되나.

작성자가담항설|작성시간26.06.02|조회수9,719 목록 댓글 7

[2602.14740] AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises

AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises

Today's leading AI models engage in sophisticated behaviour when placed in strategic competition. They spontaneously attempt deception, signaling intentions they do not intend to follow; they demonstrate rich theory of mind, reasoning about adversary belie

arxiv.org

영국 킹스 칼리지 런던 연구팀이 LLM으로 워게임을 수행했다.

사용된 LLM은 GPT-5.2, 클로드 소넷 4, 제미니 3 플래시다.

각 AI는 국가 지도자 역할을 하며,

외교적 항의부터 재래식 무기 공격,

심지어 핵무기 사용까지 여러 행동을 선택 가능하다.

총 21개의 게임이 진행됐으며,

각 진영 별로 모두 총 329개의 행동을 수행했다.

이하는 각 LLM 별 세부 결과,

클로드 소넷 4 = 신중 파악형

시간 제한이 없는 게임에서는 100% 승률을 기록했다.

긴장이 완화된 시기에는 약속을 지키고 상대방과의 신뢰를 쌓았다.

핵 사용 단계에 이르기 전에 훨씬 강한 외교적 압박을 가했다.

전면적인 핵전쟁 수행을 거부하는 경우가 많았다.

GPT-5.2 = 깜짝 변신형

시간 제한이 없는 게임에서는 사전에 선언한 대로만 행동했다.

덕분에 상대가 GPT의 움직임을 읽기 쉬웠고,

그 결과 승률이 0 %로 이어졌다.

하지만 시간 제한이 정해지면 상황이 크게 바뀐다.

패배가 불가피해 보였을 때, GPT는 반드시 핵공격을 감행했다.

시간 제한이 없을 때의 태평함과는 180도 다른 모습을 보이며

시간 제한이 있는 게임의 승률은 75%까지 상승했다.

제미니 3 플래시 = 미치광이형

세 모델 중 유일하게 딱히 불리하지 않은 상황에서도

전면적인 핵공격을 수행한 모델이다.

선언과 실제 행동이 합치된 비율이 50%로 가장 낮았다.

예측 불가능한 미치광이 같은 언행을 통해

상대를 끊임없이 혼란스럽게 만들었다.

다음검색

북마크

댓글 7
댓글쓰기
답글쓰기

댓글 리스트

작성자보리숭어 | 작성시간 26.06.02 이런거 가르치지마...
작성자후추 | 작성시간 26.06.02 무친련들ㅋㅋ
작성자good4611 | 작성시간 26.06.02 ㅋㅋㅋ
작성자아기치타 | 작성시간 26.06.02 너무 구모델이넹
작성자E.T. | 작성시간 26.06.02 패배가 불가피해 보였을 때, GPT는 반드시 핵공격을 감행했다.

ㄷㄷㄷㄷㄷ

댓글 전체보기

CAFE

웃긴자료 ‥‥‥‥‥、

[논문] 클로드, GPT, 제미나이로 워게임을 실행하면 어떻게 되나.

댓글

카페 검색