Code Arena 是什么？

AI 编程界的“大众点评”，通过匿名盲测对决来评测各大模型的编码能力并生成权威排行榜。

Code Arena 有哪些主要功能？

Code Arena 的主要功能包括：Battle 盲测对决模式、实时代码预览与交互、编码模型权威排行榜、企业级定制评测服务。

Code Arena 如何收费？

个人用户完全免费；企业级评测服务需定制付费。

Code Arena 适合谁使用？

开发者、产品经理、AI 模型研发团队、企业技术负责人。

Code Arena 有哪些竞品？

Code Arena 的主要竞品包括：Windsurf Arena Mode, Copilot Arena, OpenRouter Rankings。。

Code Arena：AI 编程界的"大众点评"，从学生项目到 $17 亿独角兽

2026-02-14 | ProductHunt | 官网

Code Arena 产品界面

Code Arena 的核心体验：输入一个 prompt，两个匿名 AI 模型同时构建应用，你来投票决定谁更强。左边是旅行网站 TravelEase，右边是摄影师作品集 —— 都是 AI 实时生成的完整可运行网页。

30秒快速判断

这产品是做什么的：你输入一句话描述（比如"做一个带暗黑模式的 Markdown 编辑器"），Code Arena 让两个匿名 AI 模型同时构建完整的 Web 应用，你可以实时看到代码生成过程、试用成品、然后投票选出更好的那个。所有投票汇总成排行榜，告诉你哪个 AI 模型写代码最强。

值不值得关注：非常值得。这不是又一个 AI 编码工具 —— 它是评判所有 AI 编码工具的"裁判"。背后公司刚融了 $2.5 亿，估值 $17 亿，500 万月活，而且完全免费用。如果你在用任何 AI 编码工具，你应该参考 Code Arena 的排行榜。

与我有关三问

与我有关吗？

目标用户是谁：

开发者 —— 想知道"到底用 Claude 还是 GPT 写代码更好"
产品经理 —— 想了解 AI 编码能力的最新格局
AI 模型团队 —— 想让自己的模型被公平评测
企业技术负责人 —— 想选对 AI 编码工具

我是吗？ 如果你写代码（或管理写代码的人），而且你面临"这么多 AI 工具该选哪个"的困惑，你就是目标用户。

什么场景会用到：

你在 Claude、GPT、Gemini 之间纠结 --> 去 Code Arena Battle 模式试一把，亲眼看看谁做得好
你听说某个新模型很厉害 --> 看看它在 Code Arena 排行榜的真实位置
你想快速做个 Demo 原型 --> 顺便用 Code Arena 免费让顶级模型帮你做
你不需要这个 --> 如果你已经有固定的 AI 工具而且对选择非常满意

对我有用吗？

维度	收益	代价
时间	不用自己一个个测模型，5 分钟就能看到对比结果	几乎零学习成本，打开网页就能用
金钱	完全免费，省下各家 API 的测试费用	零
精力	排行榜直接给你"答案"，减少选择焦虑	排名每周更新，想跟进需要偶尔看看

ROI 判断：投入零成本，收获对 AI 编码格局的清晰认知。说白了就是 —— 不用的理由几乎不存在。唯一需要注意的是，排行榜上的"最佳"不一定是你具体场景的最佳，还是要结合自己的需求验证。

喜闻乐见吗？

爽点在哪：

实时看 AI 对决：两个模型同时写代码，你看着它们一步步构建应用，像看一场编程比赛
直接试用成品：不是看代码片段，而是一个能点击、能交互的完整网页应用
匿名盲测：投票前不知道是哪个模型，投完票才揭晓，公平又刺激

用户怎么说：

"LMArena 是一个出色的发现和筛选工具：盲测和公开排行榜为常见工作流提供了强大的真实信号" —— Comparateur-IA

"搞清楚哪个模型真正适合你，而不仅仅是看谁的营销做得好" —— Justin Keoninh, Arena 团队

但也有人吐槽：

一项研究发现，只要混入 10% 的随意投票者，排名就可能偏移 5 位。开放式投票的质量控制是个老问题。

给独立开发者

技术栈

前端：CodeMirror 6（源码查看器）+ 实时预览渲染引擎
后端：Python（FastChat 框架），分布式架构 = Web 服务器 + 模型 Workers + 控制器
存储：Cloudflare R2（代码快照版本化存储）
安全：Cloudflare bot protection + Google reCAPTCHA v3 + IP 投票限制
排名算法：Bradley-Terry 统计模型（类似 Elo 评分）
支持模型：41+ 个，包括 Claude 全家桶、GPT 系列、Gemini、DeepSeek、Qwen、GLM 等

核心功能实现

Code Arena 的精髓在于"Agentic 评测" —— 模型不只是输出代码，而是像真正的开发者一样工作：规划文件结构、创建文件、编辑修改、调试运行，整个过程都被记录。每个 action（create_file、edit_file、run_command）都有日志，快照存储在 Cloudflare R2，支持回放和分享。

两个模型在隔离沙箱里同时工作，互不干扰。生成的应用直接渲染成可交互的网页，评测者可以点击、输入、测试功能。

开源情况

FastChat：核心框架完全开源，30K+ GitHub stars，200+ contributors
Copilot Arena：VSCode 代码补全对比扩展，开源（349 stars）
Search Arena：搜索评测模块开源，ICLR 2026 论文代码
Arena-Rank：排名方法论开源，Apache License 2.0
自己做难度：中高。核心代码开源可以复用，但规模化运营（41个模型、500万月活、沙箱隔离）需要大量基础设施投入。估计 3-5 人团队需要 6+ 个月。

商业模式

消费者端：完全免费（这是产品的核心增长引擎）
企业端：AI Evaluations 付费服务（2025 年 9 月推出），企业可以花钱让 Arena 帮忙评测自家模型
ARR：$3000 万（截至 2025 年 12 月，推出仅 4 个月）
数据变现：用户对话数据用于研究，匿名化后公开发布数据集

巨头风险

短期风险不大。Arena 的核心护城河是"社区驱动的真实评测数据" —— 这不是技术壁垒，而是网络效应。Google 有 AI Test Kitchen，OpenAI 有内部 Eval，但都没有 Arena 的 500 万月活和 1.5 亿+ 投票数据。

但要注意：Windsurf 已经在 IDE 里内置了 Arena Mode，如果各大 IDE 都这么干，流量可能会被分流。另外 OpenRouter 基于真实 API 使用数据的排名，从方法论上可能比"投票"更可靠。

给产品经理

痛点分析

解决什么问题：2026 年市面上有 41+ 个 AI 编码模型，开发者和技术管理者面临严重的"选择困难症"
痛点有多痛：高频刚需。每个月都有新模型发布、旧模型更新，选择焦虑是持续性的。传统基准测试（HumanEval、MBPP）只测代码片段，完全跟不上"AI 构建完整应用"的新范式

用户画像

核心用户：技术决策者 —— 需要数据支撑"用哪个模型"的决策
高频用户：AI 模型团队 —— 持续追踪自家模型的排名变化
偶尔用户：普通开发者 —— 看看排行榜，试试新模型
使用场景：选型决策、模型发布评测、竞品追踪

功能拆解

功能	类型	说明
Battle 模式（盲测对比）	核心	两个匿名模型同时构建，用户投票
Code Leaderboard	核心	基于 15 万+ 票的编码模型排行榜
实时代码预览	核心	生成的应用直接可交互试用
持久化会话	核心	代码会话可保存、恢复、分享
企业评测服务	核心（商业化）	付费帮企业评测模型
多模态评测（图片/视频）	扩展中	已支持 Image Arena、Video Arena
多文件 React 项目	即将推出	支持生成完整项目仓库

竞品差异

vs	Code Arena	Windsurf Arena Mode	Copilot Arena	OpenRouter Rankings
核心差异	Web 平台，构建完整应用对比	IDE 内嵌，开发时随手对比	VSCode 扩展，代码补全对比	基于真实 API 调用数据
规模	15万+ 票，41 模型	新推出	2.5万+ battles	海量 API 调用数据
价格	免费	Windsurf 订阅内含	免费 VSCode 扩展	免费查看
优势	数据量大，品牌强，全球社区	贴近真实开发场景	集成开发流程	数据最真实，难以刷榜

可借鉴的点

"先免费做社区，再用数据变现"的模式：500 万月活的免费社区 -> $3000 万 ARR 的企业服务，这个路径值得学习
学术背景转商业化：从 UC Berkeley 学生项目到 $17 亿独角兽，仅用了不到 3 年
盲测 + 投票的评测范式：消除品牌偏见，让产品本身说话

给科技博主

创始人故事

这是一个经典的"学生项目变独角兽"的故事。

2023 年，UC Berkeley 的两个博士生 Anastasios Angelopoulos 和 Wei-Lin Chiang 搞了个"Chatbot Arena"的副项目 —— 让用户给两个匿名 AI 聊天机器人投票，看谁更强。他们的导师之一是 Ion Stoica，Berkeley 的明星教授，Databricks、Anyscale 的联合创始人。

没想到这个"副项目"火了。到 2024 年，Chatbot Arena 已经成为 AI 行业最具影响力的排行榜之一，"几十亿美元的投资决策都在参考这个排名"。

2025 年 4 月公司化，5 月拿到 $1 亿种子轮（估值 $6 亿），a16z 领投。9 月推出企业服务，4 个月做到 $3000 万 ARR。2026 年 1 月完成 $1.5 亿 A 轮，估值 $17 亿，正式成为独角兽。

29 个人，$17 亿估值。每人平均"值" $5800 万。

争议点/讨论角度

"Vibes-based evaluation" 之争：2025 年一篇 68 页的论文《The Leaderboard Illusion》系统性批评了 Arena 的方法论 —— 投票质量参差不齐，10% 的乱投就能改变排名 5 位。Arena 回应说已经有多重防刷机制。这场争论还在继续。
大公司是否占便宜：资源丰富的公司可以提交大量模型变体（比如 GPT-5.2、GPT-5.2-high、GPT-5.2-codex...），通过"人海战术"提升曝光率和排名概率。
学术 vs 商业的身份转换：从开源学术项目到 $17 亿商业公司，社区信任如何维系？

热度数据

PH 排名：249 票（上线当天）
平台规模：500 万+ 月活，150 个国家，6000 万+ 月对话
Code Arena 投票：151,146 票，41 个模型
Twitter/X：@arena 账号活跃，每次排行榜变动都引发讨论
媒体曝光：TechCrunch、InfoQ、The Information 等主流科技媒体均有报道

内容建议

适合写的角度：
- "29 人公司估值 $17 亿 —— AI 评测赛道有多火？"
- "你用的 AI 编码工具到底有多强？Code Arena 实测揭秘"
- "从学生项目到独角兽：Arena 的 3 年逆袭之路"
蹭热点机会：每次有新模型发布（Claude、GPT 更新），Arena 排名变动都是热点

给早期采用者

定价分析

层级	价格	包含功能	够用吗？
免费（个人）	$0	Battle 模式、排行榜查看、代码生成、会话保存分享	完全够用
企业评测	付费（定制）	专属模型评测、私有数据集、定制报告	面向 AI 公司

说白了，个人用户完全不花钱。Code Arena 的商业模式是"先用免费服务圈用户和数据，再向企业收费"。

上手指南

上手时间：2 分钟
学习曲线：极低
步骤：
1. 打开 arena.ai，选择 Code 模式
2. 输入你想构建的应用描述（比如"Build a todo app with drag and drop"）
3. 等待两个匿名模型同时生成代码和应用
4. 试用两个生成的应用，点击"选择更好的"投票
5. 投票后揭晓模型身份，查看排行榜

坑和吐槽

排名不等于你的最优选择：排行榜反映的是"平均水平"，你具体的使用场景可能跟平均情况不一样。Claude 排第一不代表它对你的 Python 后端项目最好
数据隐私要注意：你输入的 prompt 会被存储，可能被用于研究数据集（匿名化处理）。别在里面写公司机密代码或敏感信息
投票质量争议：有研究表明排名可能被低质量投票者影响，建议把排行榜作为"参考"而非"答案"

安全和隐私

数据存储：云端（Cloudflare R2）
隐私政策：用户对话可能与 AI 模型提供商共享；部分数据匿名化后公开用于研究
安全措施：TLS A 级加密、Cloudflare 防护、reCAPTCHA、IP 投票限制
第三方评分：Gecko Advisor 隐私评分 62/100（中等风险）
建议：不要输入包含个人信息或商业机密的 prompt

替代方案

替代品	优势	劣势
Windsurf Arena Mode	IDE 内直接对比，不离开开发环境	需要 Windsurf 订阅，模型选择有限
Copilot Arena	VSCode 扩展，专注代码补全场景	只测补全，不测完整应用构建
OpenRouter Rankings	基于真实 API 使用数据，最难刷榜	还在早期，数据量和覆盖度不够
LLM Code Arena	更简洁的界面	规模远小于 Arena

给投资人

市场分析

AI 代码工具市场：2026 年 $345.8 亿 --> 2032 年 $913 亿（CAGR 17.5%）
AI 编码助手子赛道：2030 年预计 $260.3 亿（CAGR 27.1%）
全球 AI 总支出：2026 年 $2 万亿+（Gartner）
驱动因素：AI 模型数量爆炸（41+ 编码模型）、企业选型需求急切、"vibe coding" 成为主流开发方式

竞争格局

层级	玩家	定位
头部	Arena (Code Arena)	全球最大的 AI 模型评测平台，$17 亿估值
腰部	Windsurf Arena Mode, Copilot Arena	IDE 内嵌评测，场景更垂直
新进入者	OpenRouter Rankings, LLM Code Arena	数据驱动 / 轻量化替代
潜在威胁	Google AI Test Kitchen, OpenAI Evals	大厂自建评测，但缺乏中立性

Timing 分析

为什么是现在：2025-2026 年 AI 编码从"代码补全"升级到"Agentic 应用构建"，市面上模型数量从 10 个暴增到 41+，选型焦虑达到顶峰。Code Arena 恰好在这个拐点推出"完整应用构建"评测
技术成熟度：LLM 已具备构建完整 Web 应用的能力，沙箱隔离和实时渲染技术也已成熟
市场准备度：2026 年 AI 编码工具从"尝鲜"变成"生产工具"，选对工具的 ROI 显著增大

团队背景

Anastasios N. Angelopoulos (CEO)：UC Berkeley EECS 博士
Wei-Lin Chiang (CTO)：UC Berkeley EECS 博士，FastChat (30K stars) 和 Vicuna (800万+ 下载) 核心作者
Ion Stoica (Co-founder & Advisor)：Berkeley 教授，连续创业者 —— Databricks ($43B 估值)、Anyscale、Conviva 联合创始人
团队规模：29 人
人均估值：~$5900 万/人 —— 极致的资本效率

融资情况

轮次	金额	估值	时间	领投
种子轮	$1 亿	$6 亿	2025.05	a16z, UC Investments
A 轮	$1.5 亿	$17 亿	2026.01	Felicis, UC Investments
总计	$2.5 亿+	$17 亿

其他投资人：Lightspeed, Kleiner Perkins, The House Fund, LDVP, Laude Ventures

ARR：$3000 万（推出企业服务仅 4 个月）

结论

Code Arena 不是一个 AI 编码工具，而是 AI 编码工具的"裁判"。从学生项目到 $17 亿独角兽，它证明了"评测基础设施"在 AI 爆发时代的巨大价值。

用户类型	建议
开发者	必看。免费用，帮你选对 AI 编码工具。核心框架开源可学习，但复制整个平台难度大
产品经理	必看。"免费社区 -> 企业付费"的变现路径是教科书级别的案例。盲测+投票的评测范式值得借鉴
博主	强烈推荐写。29 人 $17 亿的故事、每次模型排名变动都是流量点，争议话题（vibes-based evaluation）也有讨论空间
早期采用者	直接用。零门槛，零成本，2 分钟上手。但要注意隐私政策和排名局限性
投资人	高度关注。$250M+ 融资、$30M ARR（4个月）、500万月活、29人团队 —— 资本效率惊人。风险在于评测方法论的学术争议和大厂自建评测的潜在威胁

资源链接

资源	链接
官网	arena.ai
Code Arena	arena.ai/code
Code 排行榜	arena.ai/leaderboard/code
GitHub (FastChat)	github.com/lm-sys/FastChat
GitHub (组织)	github.com/lmarena
Twitter/X	@arena
ProductHunt	producthunt.com/products/arena-5
TechCrunch 报道	LMArena lands $1.7B valuation
InfoQ 报道	Code Arena Launches
批评分析	Simon Willison on Chatbot Arena

2026-02-14 | Trend-Tracker v7.3

Code Arena