Code Arena:AI 编程界的"大众点评",从学生项目到 $17 亿独角兽
2026-02-14 | ProductHunt | 官网

Code Arena 的核心体验:输入一个 prompt,两个匿名 AI 模型同时构建应用,你来投票决定谁更强。左边是旅行网站 TravelEase,右边是摄影师作品集 —— 都是 AI 实时生成的完整可运行网页。
30秒快速判断
这产品是做什么的:你输入一句话描述(比如"做一个带暗黑模式的 Markdown 编辑器"),Code Arena 让两个匿名 AI 模型同时构建完整的 Web 应用,你可以实时看到代码生成过程、试用成品、然后投票选出更好的那个。所有投票汇总成排行榜,告诉你哪个 AI 模型写代码最强。
值不值得关注:非常值得。这不是又一个 AI 编码工具 —— 它是评判所有 AI 编码工具的"裁判"。背后公司刚融了 $2.5 亿,估值 $17 亿,500 万月活,而且完全免费用。如果你在用任何 AI 编码工具,你应该参考 Code Arena 的排行榜。
与我有关三问
与我有关吗?
目标用户是谁:
- 开发者 —— 想知道"到底用 Claude 还是 GPT 写代码更好"
- 产品经理 —— 想了解 AI 编码能力的最新格局
- AI 模型团队 —— 想让自己的模型被公平评测
- 企业技术负责人 —— 想选对 AI 编码工具
我是吗? 如果你写代码(或管理写代码的人),而且你面临"这么多 AI 工具该选哪个"的困惑,你就是目标用户。
什么场景会用到:
- 你在 Claude、GPT、Gemini 之间纠结 --> 去 Code Arena Battle 模式试一把,亲眼看看谁做得好
- 你听说某个新模型很厉害 --> 看看它在 Code Arena 排行榜的真实位置
- 你想快速做个 Demo 原型 --> 顺便用 Code Arena 免费让顶级模型帮你做
- 你不需要这个 --> 如果你已经有固定的 AI 工具而且对选择非常满意
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 时间 | 不用自己一个个测模型,5 分钟就能看到对比结果 | 几乎零学习成本,打开网页就能用 |
| 金钱 | 完全免费,省下各家 API 的测试费用 | 零 |
| 精力 | 排行榜直接给你"答案",减少选择焦虑 | 排名每周更新,想跟进需要偶尔看看 |
ROI 判断:投入零成本,收获对 AI 编码格局的清晰认知。说白了就是 —— 不用的理由几乎不存在。唯一需要注意的是,排行榜上的"最佳"不一定是你具体场景的最佳,还是要结合自己的需求验证。
喜闻乐见吗?
爽点在哪:
- 实时看 AI 对决:两个模型同时写代码,你看着它们一步步构建应用,像看一场编程比赛
- 直接试用成品:不是看代码片段,而是一个能点击、能交互的完整网页应用
- 匿名盲测:投票前不知道是哪个模型,投完票才揭晓,公平又刺激
用户怎么说:
"LMArena 是一个出色的发现和筛选工具:盲测和公开排行榜为常见工作流提供了强大的真实信号" —— Comparateur-IA
"搞清楚哪个模型真正适合你,而不仅仅是看谁的营销做得好" —— Justin Keoninh, Arena 团队
但也有人吐槽:
一项研究发现,只要混入 10% 的随意投票者,排名就可能偏移 5 位。开放式投票的质量控制是个老问题。
给独立开发者
技术栈
- 前端:CodeMirror 6(源码查看器)+ 实时预览渲染引擎
- 后端:Python(FastChat 框架),分布式架构 = Web 服务器 + 模型 Workers + 控制器
- 存储:Cloudflare R2(代码快照版本化存储)
- 安全:Cloudflare bot protection + Google reCAPTCHA v3 + IP 投票限制
- 排名算法:Bradley-Terry 统计模型(类似 Elo 评分)
- 支持模型:41+ 个,包括 Claude 全家桶、GPT 系列、Gemini、DeepSeek、Qwen、GLM 等
核心功能实现
Code Arena 的精髓在于"Agentic 评测" —— 模型不只是输出代码,而是像真正的开发者一样工作:规划文件结构、创建文件、编辑修改、调试运行,整个过程都被记录。每个 action(create_file、edit_file、run_command)都有日志,快照存储在 Cloudflare R2,支持回放和分享。
两个模型在隔离沙箱里同时工作,互不干扰。生成的应用直接渲染成可交互的网页,评测者可以点击、输入、测试功能。
开源情况
- FastChat:核心框架完全开源,30K+ GitHub stars,200+ contributors
- Copilot Arena:VSCode 代码补全对比扩展,开源(349 stars)
- Search Arena:搜索评测模块开源,ICLR 2026 论文代码
- Arena-Rank:排名方法论开源,Apache License 2.0
- 自己做难度:中高。核心代码开源可以复用,但规模化运营(41个模型、500万月活、沙箱隔离)需要大量基础设施投入。估计 3-5 人团队需要 6+ 个月。
商业模式
- 消费者端:完全免费(这是产品的核心增长引擎)
- 企业端:AI Evaluations 付费服务(2025 年 9 月推出),企业可以花钱让 Arena 帮忙评测自家模型
- ARR:$3000 万(截至 2025 年 12 月,推出仅 4 个月)
- 数据变现:用户对话数据用于研究,匿名化后公开发布数据集
巨头风险
短期风险不大。Arena 的核心护城河是"社区驱动的真实评测数据" —— 这不是技术壁垒,而是网络效应。Google 有 AI Test Kitchen,OpenAI 有内部 Eval,但都没有 Arena 的 500 万月活和 1.5 亿+ 投票数据。
但要注意:Windsurf 已经在 IDE 里内置了 Arena Mode,如果各大 IDE 都这么干,流量可能会被分流。另外 OpenRouter 基于真实 API 使用数据的排名,从方法论上可能比"投票"更可靠。
给产品经理
痛点分析
- 解决什么问题:2026 年市面上有 41+ 个 AI 编码模型,开发者和技术管理者面临严重的"选择困难症"
- 痛点有多痛:高频刚需。每个月都有新模型发布、旧模型更新,选择焦虑是持续性的。传统基准测试(HumanEval、MBPP)只测代码片段,完全跟不上"AI 构建完整应用"的新范式
用户画像
- 核心用户:技术决策者 —— 需要数据支撑"用哪个模型"的决策
- 高频用户:AI 模型团队 —— 持续追踪自家模型的排名变化
- 偶尔用户:普通开发者 —— 看看排行榜,试试新模型
- 使用场景:选型决策、模型发布评测、竞品追踪
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| Battle 模式(盲测对比) | 核心 | 两个匿名模型同时构建,用户投票 |
| Code Leaderboard | 核心 | 基于 15 万+ 票的编码模型排行榜 |
| 实时代码预览 | 核心 | 生成的应用直接可交互试用 |
| 持久化会话 | 核心 | 代码会话可保存、恢复、分享 |
| 企业评测服务 | 核心(商业化) | 付费帮企业评测模型 |
| 多模态评测(图片/视频) | 扩展中 | 已支持 Image Arena、Video Arena |
| 多文件 React 项目 | 即将推出 | 支持生成完整项目仓库 |
竞品差异
| vs | Code Arena | Windsurf Arena Mode | Copilot Arena | OpenRouter Rankings |
|---|---|---|---|---|
| 核心差异 | Web 平台,构建完整应用对比 | IDE 内嵌,开发时随手对比 | VSCode 扩展,代码补全对比 | 基于真实 API 调用数据 |
| 规模 | 15万+ 票,41 模型 | 新推出 | 2.5万+ battles | 海量 API 调用数据 |
| 价格 | 免费 | Windsurf 订阅内含 | 免费 VSCode 扩展 | 免费查看 |
| 优势 | 数据量大,品牌强,全球社区 | 贴近真实开发场景 | 集成开发流程 | 数据最真实,难以刷榜 |
可借鉴的点
- "先免费做社区,再用数据变现"的模式:500 万月活的免费社区 -> $3000 万 ARR 的企业服务,这个路径值得学习
- 学术背景转商业化:从 UC Berkeley 学生项目到 $17 亿独角兽,仅用了不到 3 年
- 盲测 + 投票的评测范式:消除品牌偏见,让产品本身说话
给科技博主
创始人故事
这是一个经典的"学生项目变独角兽"的故事。
2023 年,UC Berkeley 的两个博士生 Anastasios Angelopoulos 和 Wei-Lin Chiang 搞了个"Chatbot Arena"的副项目 —— 让用户给两个匿名 AI 聊天机器人投票,看谁更强。他们的导师之一是 Ion Stoica,Berkeley 的明星教授,Databricks、Anyscale 的联合创始人。
没想到这个"副项目"火了。到 2024 年,Chatbot Arena 已经成为 AI 行业最具影响力的排行榜之一,"几十亿美元的投资决策都在参考这个排名"。
2025 年 4 月公司化,5 月拿到 $1 亿种子轮(估值 $6 亿),a16z 领投。9 月推出企业服务,4 个月做到 $3000 万 ARR。2026 年 1 月完成 $1.5 亿 A 轮,估值 $17 亿,正式成为独角兽。
29 个人,$17 亿估值。每人平均"值" $5800 万。
争议点/讨论角度
- "Vibes-based evaluation" 之争:2025 年一篇 68 页的论文《The Leaderboard Illusion》系统性批评了 Arena 的方法论 —— 投票质量参差不齐,10% 的乱投就能改变排名 5 位。Arena 回应说已经有多重防刷机制。这场争论还在继续。
- 大公司是否占便宜:资源丰富的公司可以提交大量模型变体(比如 GPT-5.2、GPT-5.2-high、GPT-5.2-codex...),通过"人海战术"提升曝光率和排名概率。
- 学术 vs 商业的身份转换:从开源学术项目到 $17 亿商业公司,社区信任如何维系?
热度数据
- PH 排名:249 票(上线当天)
- 平台规模:500 万+ 月活,150 个国家,6000 万+ 月对话
- Code Arena 投票:151,146 票,41 个模型
- Twitter/X:@arena 账号活跃,每次排行榜变动都引发讨论
- 媒体曝光:TechCrunch、InfoQ、The Information 等主流科技媒体均有报道
内容建议
- 适合写的角度:
- "29 人公司估值 $17 亿 —— AI 评测赛道有多火?"
- "你用的 AI 编码工具到底有多强?Code Arena 实测揭秘"
- "从学生项目到独角兽:Arena 的 3 年逆袭之路"
- 蹭热点机会:每次有新模型发布(Claude、GPT 更新),Arena 排名变动都是热点
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 够用吗? |
|---|---|---|---|
| 免费(个人) | $0 | Battle 模式、排行榜查看、代码生成、会话保存分享 | 完全够用 |
| 企业评测 | 付费(定制) | 专属模型评测、私有数据集、定制报告 | 面向 AI 公司 |
说白了,个人用户完全不花钱。Code Arena 的商业模式是"先用免费服务圈用户和数据,再向企业收费"。
上手指南
- 上手时间:2 分钟
- 学习曲线:极低
- 步骤:
- 打开 arena.ai,选择 Code 模式
- 输入你想构建的应用描述(比如"Build a todo app with drag and drop")
- 等待两个匿名模型同时生成代码和应用
- 试用两个生成的应用,点击"选择更好的"投票
- 投票后揭晓模型身份,查看排行榜
坑和吐槽
- 排名不等于你的最优选择:排行榜反映的是"平均水平",你具体的使用场景可能跟平均情况不一样。Claude 排第一不代表它对你的 Python 后端项目最好
- 数据隐私要注意:你输入的 prompt 会被存储,可能被用于研究数据集(匿名化处理)。别在里面写公司机密代码或敏感信息
- 投票质量争议:有研究表明排名可能被低质量投票者影响,建议把排行榜作为"参考"而非"答案"
安全和隐私
- 数据存储:云端(Cloudflare R2)
- 隐私政策:用户对话可能与 AI 模型提供商共享;部分数据匿名化后公开用于研究
- 安全措施:TLS A 级加密、Cloudflare 防护、reCAPTCHA、IP 投票限制
- 第三方评分:Gecko Advisor 隐私评分 62/100(中等风险)
- 建议:不要输入包含个人信息或商业机密的 prompt
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| Windsurf Arena Mode | IDE 内直接对比,不离开开发环境 | 需要 Windsurf 订阅,模型选择有限 |
| Copilot Arena | VSCode 扩展,专注代码补全场景 | 只测补全,不测完整应用构建 |
| OpenRouter Rankings | 基于真实 API 使用数据,最难刷榜 | 还在早期,数据量和覆盖度不够 |
| LLM Code Arena | 更简洁的界面 | 规模远小于 Arena |
给投资人
市场分析
- AI 代码工具市场:2026 年 $345.8 亿 --> 2032 年 $913 亿(CAGR 17.5%)
- AI 编码助手子赛道:2030 年预计 $260.3 亿(CAGR 27.1%)
- 全球 AI 总支出:2026 年 $2 万亿+(Gartner)
- 驱动因素:AI 模型数量爆炸(41+ 编码模型)、企业选型需求急切、"vibe coding" 成为主流开发方式
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 头部 | Arena (Code Arena) | 全球最大的 AI 模型评测平台,$17 亿估值 |
| 腰部 | Windsurf Arena Mode, Copilot Arena | IDE 内嵌评测,场景更垂直 |
| 新进入者 | OpenRouter Rankings, LLM Code Arena | 数据驱动 / 轻量化替代 |
| 潜在威胁 | Google AI Test Kitchen, OpenAI Evals | 大厂自建评测,但缺乏中立性 |
Timing 分析
- 为什么是现在:2025-2026 年 AI 编码从"代码补全"升级到"Agentic 应用构建",市面上模型数量从 10 个暴增到 41+,选型焦虑达到顶峰。Code Arena 恰好在这个拐点推出"完整应用构建"评测
- 技术成熟度:LLM 已具备构建完整 Web 应用的能力,沙箱隔离和实时渲染技术也已成熟
- 市场准备度:2026 年 AI 编码工具从"尝鲜"变成"生产工具",选对工具的 ROI 显著增大
团队背景
- Anastasios N. Angelopoulos (CEO):UC Berkeley EECS 博士
- Wei-Lin Chiang (CTO):UC Berkeley EECS 博士,FastChat (30K stars) 和 Vicuna (800万+ 下载) 核心作者
- Ion Stoica (Co-founder & Advisor):Berkeley 教授,连续创业者 —— Databricks ($43B 估值)、Anyscale、Conviva 联合创始人
- 团队规模:29 人
- 人均估值:~$5900 万/人 —— 极致的资本效率
融资情况
| 轮次 | 金额 | 估值 | 时间 | 领投 |
|---|---|---|---|---|
| 种子轮 | $1 亿 | $6 亿 | 2025.05 | a16z, UC Investments |
| A 轮 | $1.5 亿 | $17 亿 | 2026.01 | Felicis, UC Investments |
| 总计 | $2.5 亿+ | $17 亿 |
其他投资人:Lightspeed, Kleiner Perkins, The House Fund, LDVP, Laude Ventures
ARR:$3000 万(推出企业服务仅 4 个月)
结论
Code Arena 不是一个 AI 编码工具,而是 AI 编码工具的"裁判"。从学生项目到 $17 亿独角兽,它证明了"评测基础设施"在 AI 爆发时代的巨大价值。
| 用户类型 | 建议 |
|---|---|
| 开发者 | 必看。免费用,帮你选对 AI 编码工具。核心框架开源可学习,但复制整个平台难度大 |
| 产品经理 | 必看。"免费社区 -> 企业付费"的变现路径是教科书级别的案例。盲测+投票的评测范式值得借鉴 |
| 博主 | 强烈推荐写。29 人 $17 亿的故事、每次模型排名变动都是流量点,争议话题(vibes-based evaluation)也有讨论空间 |
| 早期采用者 | 直接用。零门槛,零成本,2 分钟上手。但要注意隐私政策和排名局限性 |
| 投资人 | 高度关注。$250M+ 融资、$30M ARR(4个月)、500万月活、29人团队 —— 资本效率惊人。风险在于评测方法论的学术争议和大厂自建评测的潜在威胁 |
资源链接
| 资源 | 链接 |
|---|---|
| 官网 | arena.ai |
| Code Arena | arena.ai/code |
| Code 排行榜 | arena.ai/leaderboard/code |
| GitHub (FastChat) | github.com/lm-sys/FastChat |
| GitHub (组织) | github.com/lmarena |
| Twitter/X | @arena |
| ProductHunt | producthunt.com/products/arena-5 |
| TechCrunch 报道 | LMArena lands $1.7B valuation |
| InfoQ 报道 | Code Arena Launches |
| 批评分析 | Simon Willison on Chatbot Arena |
2026-02-14 | Trend-Tracker v7.3