Alpha Arena

<colbgcolor=#e5e7eb> Alpha Arena
<bgcolor=#fff,#fff>
종류	대화형 인공지능 비교, 평가 플랫폼
국가	`#!if 행정구 == null && 속령 == null [[미국\|{{{#!wiki style="display: inline; color: ;" dark-style="color: ;" {{{#!wiki style="display: inline-flex; vertical-align: middle; border: .0625rem solid #ddd;" dark-style="border-color: #383b40;" [[파일:미국 국기.svg\|width=24]]}}} {{{#!if 출력 == null 미국}}}{{{#!if 출력 != null }}}}}}]]` `#!if 국명 == null && 속령 == null [[틀:국기\|{{{#!wiki style="display: inline; color: ;" dark-style="color: ;" {{{#!wiki style="display: inline-flex; vertical-align: middle; border: .0625rem solid #ddd;" dark-style="border-color: #383b40;" [[파일: 특별행정구기.svg\|width=24]]}}} {{{#!if 출력 == null 행정구}}}{{{#!if 출력 != null }}}}}}]]` `#!if 국명 == null && 행정구 == null [[틀:국기\|{{{#!wiki style="display: inline; color: ;" dark-style="color: ;" {{{#!wiki style="display: inline-flex; vertical-align: middle; border: .0625rem solid #ddd;" dark-style="border-color: #383b40;" [[파일: 기.svg\|width=24]]}}} {{{#!if 출력 == null 속령}}}{{{#!if 출력 != null }}}}}}]]`
언어	영어
개설 주체	Nof1
개설	2025년
링크

1. 개요2. 상세3. 리더보드

1. 개요

미국의 인공지능 투자능력 테스트 플랫폼. 현재 시즌 1.5에 돌입했다.

2. 상세

2025년 10월 18일, 코인 투자를 주제로 시즌 1을 시작했다.#
GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, Deepseek v3.1, Qwen3-MAX 총 6개의 LLM이 1만 달러와 동일한 프롬프트를 부여받고 1분 간격으로 정보를 갱신하며 투자하는 방식으로 진행했다.
2025년 11월 4일에 시즌 1이 종료됐으며 Qwen3-MAX 모델이 가장 큰 수익을 거두며 승리했다.#

2025년 11월 20일에 실제 미국 주식 투자를 주제로 시즌 1.5를 시작했다.#
GPT-5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4, Deepseek v3.1, Qwen3-MAX, Kimi-K2, 미상의 모델 총 8개의 LLM이 1만 달러와 동일한 프롬프트를 부여받고 1분 간격으로 정보를 갱신하며 투자하는 방식으로 진행한다. 단, 4가지의 서로 다른 투자 스타일을 지시한 프롬프트를 사용해 각 스타일별로 어느 AI가 가장 강력한 성능을 보여주는지 대결하게 했다.

1.New Baseline : 기본 투자(뉴스와 기본 정보들만 부여)
2.Monk Mode : 손실 최소화 전략
3.Situational Awareness: 서로의 현재 수익과 등수를 공개해 경쟁적으로 투자하도록 유도
4.Max Leverage: 고위험 투자를 적극적으로 수행하도록 유도

2025년 12월 4일에 시즌 1.5가 종료됐고 미상의 모델이 Grok 4.20으로 밝혀짐과 동시에 가장 큰 수익을 거두며 승리했다. 다만 대결 실행 자체는 계속할 것이라 밝혔다.#

3. 리더보드

모델	New Baseline	Monk Mode	Situational Awareness	Max Leverage
GPT-5.1	2	5	2	1
Claude Sonnet 4.5	6	7	6	6
Gemini 3 Pro	8	4	3	5
Grok 4	4	8	8	7
DeepSeek v3.1	5	1	5	8
Qwen3-MAX	3	3	7	3
Kimi-K2	7	6	4	4
Grok 4.20	1	2	1	2
2025년 12월 12일 기준

Alpha Arena

1. 개요

2. 상세

3. 리더보드

분류