HelixDB:两个辍学生用 Rust 写了一个想统一图+向量的数据库,YC 背书,但路还很长
2026-02-28 | Product Hunt | 官网 | GitHub

截图解读:这是 HelixDB 自带的 Dashboard 界面,可以看到图数据库的核心能力 —— 节点(医生、患者)和边(关系连线)的可视化。每个节点展示了详细属性(ID、姓名、病情、费用等),左侧有 Queries、Schema、Visualization 等工具栏。这个 UI 说明 HelixDB 已经不只是命令行工具,还具备了可视化管理界面。
30秒快速判断
这东西干嘛的:一个开源的“图+向量”混合数据库,用 Rust 从头编写。简单来说:你做 RAG 或 AI Agent 的时候,不用再同时跑一个 Neo4j(管关系)加一个 Pinecone(管语义搜索)了,HelixDB 一个就能搞定。
值不值得关注:值得关注,但建议暂时观望。YC Spring 2025 背书、3,840 GitHub Stars、Rust 编写的性能确实很强。但 PH 发布仅 5 票、6 人小团队、AGPL 协议、自研查询语言 HelixQL —— 这些都是需要时间验证的风险点。如果你正在做 RAG/Agent 项目且痛点明确,值得花半天试试;如果只是感兴趣,记住这个名字就行。
与我有关三问
与我有关吗?
目标用户是谁:
- 做 RAG 应用的后端开发者(同时需要语义搜索+关系查询)
- 做 AI Agent 记忆系统的独立开发者
- 厌倦了在向量库和图库之间来回同步数据的工程师
我是吗:如果你正在做以下事情,你就是目标用户 ——
- 用 Pinecone 做语义搜索,但发现还需要 Neo4j 做关系遍历
- 给 AI Agent 搭记忆系统,需要同时存储“谁说了什么”(向量)和“谁跟谁有关系”(图)
- 做知识图谱类产品,需要在关系图上叠加语义搜索
什么场景会用到:
- 法律文档检索:先用向量搜索找相关判例,再用图遍历找到案例之间的引用关系
- Agent 长期记忆:语义存储对话历史 + 图结构追踪实体关系
- 医疗知识库:患者-医生-药物的关系图 + 症状语义匹配(Dashboard 截图就是这个场景)
- 推荐系统:用户偏好向量 + 社交关系图
对我有用吗?
| 维度 | 收益 | 代价 |
|---|---|---|
| 时间 | 无需维护两个数据库 + 胶水代码,预计省下 30-50% 数据层开发时间 | 需学习 HelixQL 新查询语言,预计耗时 1-3 天 |
| 金钱 | 开源免费自托管,硬件需求低(LMDB + Rust = 极省资源) | 如果使用托管服务,价格尚未公开 |
| 精力 | 一个 SDK 搞定图+向量,不用操心数据同步 | 社区小、文档尚在完善中,踩坑成本较高 |
ROI 判断:如果你的项目确实需要图+向量混合查询,而且正处于技术选型阶段,试试 HelixDB 是值得的 —— 最坏情况也就是浪费半天时间。但如果你已经在用 Neo4j + Pinecone 且运行稳定,目前的迁移风险大于收益。
喜闻乐见吗?
爽点在哪:
- 一个查询搞定两件事:在 HelixQL 里可以同时进行图遍历和向量搜索,无需在应用层手动拼接
- 内建 Embedding:直接调用 Embed 函数即可向量化文本,不用自己先跑一遍 embedding 再存入
- MCP 原生支持:AI Agent 可以自主遍历图,不需要生成人类可读的查询语句
- 编译时类型检查:查询在部署前就完成了类型安全验证,不会在生产环境莫名崩溃
用户真实声音:
“我很想试试你们的数据库,但可能大多数 LLM 都不太擅长写 HQL” —— @mike_pavlukhin
这条吐槽很有代表性:HelixQL 是自研的查询语言,LLM 并不认识它。这意味着你不能直接让 GPT/Claude 生成 HelixQL 查询,这在 AI 时代是个不小的障碍。不过 HelixDB 团队试图通过 MCP 来解决 —— 让 Agent 直接遍历图,而不是生成查询语言。
有人问“KuzuDB 凉了,有什么图数据库替代品?”,@JoshPurtell 直接推荐了 @helixdb
给独立开发者
技术栈
- 语言:Rust(从底层构建,非绑定)
- 存储引擎:LMDB (通过 Heed3 封装) —— 极速内存映射数据库,久经考验
- 数据模型:图 + 向量(原生融合),同时支持 KV、文档、关系型
- 查询语言:HelixQL(自研,100% 类型安全,编译时检查)
- 向量索引:HNSW
- SDK:TypeScript + Python
- 协议:AGPL
核心功能实现
HelixDB 的核心思路:向量本质上就是带有坐标的节点,边则代表邻居关系的链接。因此可以将向量搜索和图遍历统一在同一个数据结构中,无需两套系统。
架构上采用编译时优化 —— HQL 查询先编译成优化的 Rust 代码,再部署为 API 端点。这比运行时解析查询要快得多,也更安全。由 5 个 Rust crate 组成工作区,ACID 事务通过 LMDB 保证。
性能数据(官方声称):
- 向量相似度搜索:约 2ms
- 图遍历:小于 1ms
- 比 Neo4j 快 1000 倍,比 TigerGraph 快 100 倍,向量操作性能与 Qdrant 持平
开源情况
- 完全开源:GitHub,3,840 Stars
- 协议:AGPL —— 注意!如果你打算用 HelixDB 构建 SaaS 产品对外提供服务,你的相关代码可能也需要开源。Google 内部明确禁止使用 AGPL 软件。如果仅限内部使用,则不受影响
- 自研难度:极高,预计需要 3-5 人年。图数据库 + 向量引擎 + 查询语言编译器,任何一个模块单独拿出来都不简单
商业模式
- 变现方式:开源核心 + 托管云服务(Managed Service)
- 定价:未公开,托管服务目前仅对选定用户开放,需联系团队
- 收入:据 Getlatka 数据显示约 55 万美元(5人团队)
- 融资:50 万美元种子轮(YC + Pioneer Fund)
巨头风险
中等偏高。Neo4j 已经在增加向量能力,Weaviate 拥有图式 schema,ArangoDB 正在向 AI 平台转型。但 HelixDB 的差异点在于“原生融合”而非“后期插件”。短期内巨头不太可能做一个从头设计的图+向量混合数据库,但如果这个品类被验证成功,被收购的可能性大于被碾压的可能性。
给产品经理
痛点分析
- 解决什么问题:AI 应用需要同时进行语义搜索和关系查询,目前必须部署两个数据库并编写大量胶水代码,维护成本高、数据同步难、跨库查询性能差
- 痛点有多痛:高频刚需。几乎每个 RAG 和 Agent 应用都面临这个问题,GraphRAG 已成为主流架构模式
用户画像
- 主力用户:后端开发者 / 基础设施工程师,正在开发 AI/RAG/Agent 项目
- 次级用户:独立开发者,希望用最少的基础设施搭建 AI 应用
- 使用场景:知识图谱 + 语义搜索、Agent 记忆系统、推荐引擎、医疗/法律文档检索
功能拆解
| 功能 | 类型 | 说明 |
|---|---|---|
| 图遍历 | 核心 | 节点、边、关系查询 |
| 向量搜索 | 核心 | HNSW 索引,约 2ms 查询延迟 |
| HelixQL | 核心 | 自研类型安全查询语言 |
| 内建 Embedding | 核心 | 文本自动向量化 |
| MCP 支持 | 核心 | Agent 原生集成 |
| Dashboard | 锦上添花 | Web 可视化管理界面 |
| 关键词搜索 | 锦上添花 | BM25 全文检索 |
竞品差异
| 维度 | HelixDB | Neo4j | Weaviate | Pinecone |
|---|---|---|---|---|
| 核心能力 | 图+向量原生融合 | 图为主,向量是扩展 | 向量为主,图式 schema | 纯向量,无图能力 |
| 开发语言 | Rust | Java | Go | 闭源 |
| 开源协议 | AGPL | 社区版 GPL | BSD-3 | 否 |
| RAG 场景 | 一站式解决 | 需配合向量库 | 混合搜索能力强 | 需配合图库 |
| 成熟度 | 极早期 | 非常成熟 | 中等 | 非常成熟 |
可借鉴的点
- “把两个工具合成一个”的产品思路 —— 当一个工作流需要两个工具频繁配合时,做一个统一的工具就是巨大的机会
- 编译时查询优化 —— 将安全检查前移到编译阶段,减少运行时错误,这个思路适用于任何需要查询语言的产品
- MCP 原生支持 —— 在 AI Agent 时代,数据库不只是给人用的,还要方便 Agent 调用。这个方向值得所有数据库产品关注
给科技博主
创始人故事
两位英国大学生 Xavier Cochran 和 George Curtis 在布里斯托大学读书时,一起做了一个图数据库的课外项目。Xavier 是 Rust 狂热爱好者,George 此前曾在 Mercury 等公司工作过。
他们在阅读了 RAG 架构的论文后发现:要跑通一个 RAG 系统,得搭自己的服务器、一个图数据库、一个向量数据库,还有一堆连接它们的中间件。他们灵光一闪 —— 向量其实就是带有坐标的节点,边就是邻居链接,干嘛不直接合在一起?
于是他们辍学了。搬到旧金山,入选了 YC Spring 2025。在 YC 期间吸引了 United Healthcare 等企业客户,GitHub Star 数涨到了 4k,声称已执行了数十亿次查询。目前团队 6 人,刚在 2026 年初宣布正式商用(GA)。
争议点 / 讨论角度
- AGPL 协议之争:AGPL 是数据库领域最有争议的开源协议。Google 直接禁用,MongoDB 曾因为 AGPL 最终转向了更激进的 SSPL。HelixDB 使用 AGPL 是为了防止被云厂商白嫖,但也可能劝退部分企业用户
- 自研查询语言的豪赌:HelixQL vs SQL/Cypher/Gremlin —— 自研语言意味着学习成本高、LLM 不认识、社区迁移难。但好处是能做到 100% 类型安全和编译时检查
- 性能数据可信度:声称比 Neo4j 快 1000 倍 —— 这种数量级的差距通常意味着测试场景经过了特殊设计,并非完全的对等对比
热度数据
- PH 投票:5 票(非常低,说明 PH 不是他们的主阵地)
- GitHub Stars:3,840(对于一个 2025 年成立的数据库项目,表现相当不错)
- HN:3 次登上 Show HN,最高获得 95 分 / 48 条评论
- Twitter:主要是创始人和机器人在讨论,真实用户声音尚少
- YC 背书:Spring 2025 批次
内容建议
- 适合写的角度:“两个大学辍学生挑战数据库巨头”的叙事 + “图和向量为什么要合在一起”的技术科普
- 蹭热点机会:GraphRAG 话题持续火热,HelixDB 可以作为“GraphRAG 时代的基础设施”来切入
给早期采用者
定价分析
| 层级 | 价格 | 包含功能 | 够用吗? |
|---|---|---|---|
| 开源自托管 | 免费 | 全部核心功能 | 对技术人员来说足够了 |
| 托管云服务 | 未公开 | 托管 + 自动化运维 | 需联系团队咨询 |
| 企业支持 | 未公开 | SLA 保证 + 技术支持 | 需联系团队咨询 |
上手指南
- 上手时间:1-3 小时(完成安装并跑通第一个 Demo)
- 学习曲线:中高(需要学习 HelixQL,而非传统的 SQL)
- 步骤:
- 从 GitHub clone 仓库或使用 CLI 安装
- 定义 Schema(图节点和边的类型)
- 编写 HelixQL 查询语句
- 编译部署(查询会变成 API 端点)
- 使用 TypeScript/Python SDK 进行调用
- 教程:官方文档、Blog 教程(包含 Docker 部署、MCP 集成、推荐系统示例等)
- IDE 支持:提供 Cursor 的 HelixQL 语法高亮插件
坑和吐槽
- LLM 不认识 HelixQL:这是目前最大的坑。你不能直接让 GPT/Claude 帮你写查询,必须自己学。不过 MCP 集成可以部分绕过这个问题
- 社区规模极小:GitHub Issues 是主要的交流渠道,目前还没有成熟的 Stack Overflow 社区支持
- AGPL 协议限制:如果你打算做 SaaS 对外提供服务,要非常小心这个协议的传染性
- 文档尚不完善:核心功能文档虽然有,但缺乏边界情况的处理说明和最佳实践指南
安全和隐私
- 数据存储:本地 LMDB 存储,自托管时数据完全掌握在你自己手中
- 隐私设计:HelixDB 默认私有,只能通过编译好的 HelixQL 查询访问数据,没有万能的 admin 入口
- 安全审计:尚未见到公开的安全审计报告(项目太新)
替代方案
| 替代品 | 优势 | 劣势 |
|---|---|---|
| Neo4j + Pinecone | 两者都非常成熟、社区大、文档全 | 需要维护两套系统 + 复杂的胶水代码 |
| Weaviate | 混合搜索能力强、BSD-3 协议更友好 | 并非真正意义上的原生图数据库 |
| ArangoDB | 最成熟的多模型数据库、企业级支持 | 向量能力不如原生向量库强悍 |
| SurrealDB | 最全面的多模型支持、SQL-like 语法 | 图能力不如原生图数据库专业 |
| Qdrant + 自建图 | 向量性能极强、同样是 Rust 编写 | 需要自己处理复杂的图结构逻辑 |
给投资人
市场分析
- 向量数据库市场:2025 年约 25.5 亿美元,预计 2030 年达 89.5 亿美元(CAGR 27.5%)
- 图数据库市场:2025 年约 28.5 亿美元,预计 2034 年达 202.9 亿美元(CAGR 24.1%)
- 交叉市场:HelixDB 处于图+向量的交叉地带,随着 GraphRAG 成为主流架构,这个细分市场的增速可能更快
- 驱动因素:AI Agent 需要“记忆+推理”能力,图+向量融合是最自然的数据模型
竞争格局
| 层级 | 玩家 | 定位 |
|---|---|---|
| 头部 | Neo4j, AWS Neptune, Pinecone | 单一能力成熟的行业玩家 |
| 腰部 | Weaviate, Qdrant, ArangoDB, SurrealDB | 各有侧重的有力挑战者 |
| 新进入者 | HelixDB | 原生图+向量融合的先行者 |
Timing 分析
- 为什么是现在:GraphRAG 在 2025-2026 年从学术走向工业界,微软发布了 GraphRAG 框架,Agent 记忆系统成为热门话题。“图+向量合一”从“学术概念”变成了迫切的“工程需求”
- 技术成熟度:Rust 生态已趋于成熟、LMDB 久经考验、HNSW 算法已成为向量搜索标准。技术组件都已就绪,缺的就是一个高效的整合者
- 市场准备度:开发者已经在痛苦地管理多数据库架构了,但大多数还在观望统一方案是否足够可靠
团队背景
- Xavier Cochran (创始人):Rust 专家,负责技术核心构建
- George Curtis (CEO & 联合创始人):布里斯托大学辍学,此前曾在 Mercury 和 Twilight Zone Engineering 任职
- 核心团队:6 人,包含具备 ML 和数据科学背景的成员(如 Lukas Nitzsche, Gahn Wuwong)
- 已知客户:United Healthcare
融资情况
- 已融资:约 50 万美元 (种子轮)
- 投资人:Y Combinator (Spring 2025), Pioneer Fund
- 收入:约 55 万美元(据 Getlatka 数据)
- 估值:尚未公开
结论
HelixDB 在做一件正确的事 —— 将图和向量原生融合,这是 AI 时代数据库的必然进化方向。但 6 人团队、AGPL 协议、自研查询语言这三座大山,决定了它需要更多时间来证明自己。
| 用户类型 | 建议 |
|---|---|
| 独立开发者 | 值得一试 —— 如果你正在做 RAG/Agent 项目,花半天跑个 Demo 感受一下图向量合一的快感。但不建议在生产环境重度依赖 |
| 产品经理 | 关注趋势 —— “图+向量融合”是明确的行业方向,记住 HelixDB 的产品思路(合二为一),但不急于推动团队立即采用 |
| 科技博主 | 可以写 —— “两个辍学生 + YC + 图向量融合”的叙事非常完整,GraphRAG 热度正高。但 PH 5 票说明大众认知度还很低 |
| 早期采用者 | 谨慎乐观 —— 开源免费可以玩玩,但 HelixQL 学习成本 + 社区规模小 = 踩坑成本极高 |
| 投资人 | 值得跟踪 —— 处于图+向量交叉赛道、有 YC 背书、55 万美元收入/6 人团队的效率不错。但 AGPL 协议可能限制其在大型企业的广泛采用 |
资源链接
| 资源 | 链接 |
|---|---|
| 官网 | helix-db.com |
| GitHub | HelixDB/helix-db |
| 文档 | docs.helix-db.com |
| YC 页面 | ycombinator.com/companies/helixdb |
| Blog | helix-db.com/blog |
| HN 讨论 | Show HN #1 / #2 / #3 |
| @helixdb | |
| Product Hunt | producthunt.com/products/helixdb |
| Crunchbase | crunchbase.com/organization/helixdb |
2026-02-28 | Trend-Tracker v7.3