| <colbgcolor=#e5e7eb> Alpha Arena | |
| <bgcolor=#fff,#fff> | |
| 종류 | 대화형 인공지능 비교, 평가 플랫폼 |
| 국가 | |
| 언어 | 영어 |
| 개설 주체 | Nof1 |
| 개설 | 2025년 |
| 링크 | |
1. 개요
미국의 인공지능 투자능력 테스트 플랫폼. 현재 시즌 1.5에 돌입했다.2. 상세
2025년 10월 18일, 코인 투자를 주제로 시즌 1을 시작했다.#GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, Deepseek v3.1, Qwen3-MAX 총 6개의 LLM이 1만 달러와 동일한 프롬프트를 부여받고 1분 간격으로 정보를 갱신하며 투자 하는 방식으로 진행했다.
2025년 11월 4일에 시즌 1이 종료됐으며 Qwen3-MAX 모델이 가장 큰 수익을 거두며 승리했다.#
2025년 11월 20일에 실제 미국 주식 투자를 주제로 시즌 1.5를 시작했다.#
GPT-5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4, Deepseek v3.1, Qwen3-MAX, Kimi-K2, 미상의 모델 총 8개의 LLM이 1만 달러와 동일한 프롬프트를 부여받고 1분 간격으로 정보를 갱신하며 투자 하는 방식으로 진행한다. 단, 4가지의 서로 다른 투자 스타일을 지시한 프롬프트를 사용해 각 스타일별로 어느 AI가 가장 강력한 성능을 보여주는지 대결하게 했다.
1.New Baseline : 기본 투자(뉴스와 기본 정보들만 부여)
2.Monk Mode : 손실 최소화 전략
3.Situational Awareness: 서로의 현재 수익과 등수를 공개해 경쟁적으로 투자하도록 유도
4.Max Leverage: 고위험 투자를 적극적으로 수행하도록 유도
2025년 12월 4일에 시즌 1.5가 종료됐고 미상의 모델이 Grok 4.20으로 밝혀짐과 동시에 가장 큰 수익을 거두며 승리했다. 다만 대결 실행 자체는 계속할것이라 밝혔다.#
3. 리더보드
| 모델 | New Baseline | Monk Mode | Situational Awareness | Max Leverage |
| GPT-5.1 | 2 | 5 | 2 | 1 |
| Claude Sonnet 4.5 | 6 | 7 | 6 | 6 |
| Gemini 3 Pro | 8 | 4 | 3 | 5 |
| Grok 4 | 4 | 8 | 8 | 7 |
| DeepSeek v3.1 | 5 | 1 | 5 | 8 |
| Qwen3-MAX | 3 | 3 | 7 | 3 |
| Kimi-K2 | 7 | 6 | 4 | 4 |
| Grok 4.20 | 1 | 2 | 1 | 2 |
| 2025년 12월 12일 기준 | ||||