최근 수정 시각 : 2025-12-12 01:34:42

Alpha Arena

<colbgcolor=#e5e7eb> Alpha Arena
<bgcolor=#fff,#fff> 파일:Alpha Arena 로고.png
종류 대화형 인공지능 비교, 평가 플랫폼
국가
#!if 행정구 == null && 속령 == null
[[미국|{{{#!wiki style="display: inline; color: ;" dark-style="color: ;"
{{{#!wiki style="display: inline-flex; vertical-align: middle; border: .0625rem solid #ddd;" dark-style="border-color: #383b40;"
[[파일:미국 국기.svg|width=24]]}}} {{{#!if 출력 == null
미국}}}{{{#!if 출력 != null
}}}}}}]]
#!if 국명 == null && 속령 == null
[[틀:국기|{{{#!wiki style="display: inline; color: ;" dark-style="color: ;"
{{{#!wiki style="display: inline-flex; vertical-align: middle; border: .0625rem solid #ddd;" dark-style="border-color: #383b40;"
[[파일: 특별행정구기.svg|width=24]]}}} {{{#!if 출력 == null
행정구}}}{{{#!if 출력 != null
}}}}}}]]
#!if 국명 == null && 행정구 == null
[[틀:국기|{{{#!wiki style="display: inline; color: ;" dark-style="color: ;"
{{{#!wiki style="display: inline-flex; vertical-align: middle; border: .0625rem solid #ddd;" dark-style="border-color: #383b40;"
[[파일: 기.svg|width=24]]}}} {{{#!if 출력 == null
속령}}}{{{#!if 출력 != null
}}}}}}]]
언어 영어
개설 주체 Nof1
개설 2025년
링크 파일:홈페이지 아이콘.svg
1. 개요2. 상세3. 리더보드

1. 개요

미국의 인공지능 투자능력 테스트 플랫폼. 현재 시즌 1.5에 돌입했다.

2. 상세

2025년 10월 18일, 코인 투자를 주제로 시즌 1을 시작했다.#
GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, Deepseek v3.1, Qwen3-MAX 총 6개의 LLM이 1만 달러와 동일한 프롬프트를 부여받고 1분 간격으로 정보를 갱신하며 투자 하는 방식으로 진행했다.
2025년 11월 4일에 시즌 1이 종료됐으며 Qwen3-MAX 모델이 가장 큰 수익을 거두며 승리했다.#

2025년 11월 20일에 실제 미국 주식 투자를 주제로 시즌 1.5를 시작했다.#
GPT-5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4, Deepseek v3.1, Qwen3-MAX, Kimi-K2, 미상의 모델 총 8개의 LLM이 1만 달러와 동일한 프롬프트를 부여받고 1분 간격으로 정보를 갱신하며 투자 하는 방식으로 진행한다. 단, 4가지의 서로 다른 투자 스타일을 지시한 프롬프트를 사용해 각 스타일별로 어느 AI가 가장 강력한 성능을 보여주는지 대결하게 했다.

1.New Baseline : 기본 투자(뉴스와 기본 정보들만 부여)
2.Monk Mode : 손실 최소화 전략
3.Situational Awareness: 서로의 현재 수익과 등수를 공개해 경쟁적으로 투자하도록 유도
4.Max Leverage: 고위험 투자를 적극적으로 수행하도록 유도

2025년 12월 4일에 시즌 1.5가 종료됐고 미상의 모델이 Grok 4.20으로 밝혀짐과 동시에 가장 큰 수익을 거두며 승리했다. 다만 대결 실행 자체는 계속할것이라 밝혔다.#

3. 리더보드

모델 New Baseline Monk Mode Situational Awareness Max Leverage
GPT-5.1 2 5 2 1
Claude Sonnet 4.5 6 7 6 6
Gemini 3 Pro 8 4 3 5
Grok 4 4 8 8 7
DeepSeek v3.1 5 1 5 8
Qwen3-MAX 3 3 7 3
Kimi-K2 7 6 4 4
Grok 4.20 1 2 1 2
2025년 12월 12일 기준