Crowd-Sourced Alpha with Numerai

Richard Craib (Numerai CEO & Founder) × Flirting with Models · S7E28 · 2026 年 2 月 · 56 分钟

为什么这期值得听

如果你对 Numerai 的印象还停留在"数据科学 + 加密货币的有趣实验",是时候更新这个认知了。过去几年,Numerai 悄然从约 $60M 资产增长到超过 $600M,JPMorgan 投资并锁定了 $500M 容量,顶级大学捐赠基金领投了 Series C,估值 $500M。这不再是一个玩具项目,而是一个真实的、机构级别的 market-neutral 对冲基金,它有着极其非传统的 alpha 引擎。

$60M → $600M 的隐秘增长JPMorgan 投资、顶级大学捐赠基金领投 Series C,Numerai 已从实验成长为真正的对冲基金。
Staking 如何消灭 overfitting不是发奖金,而是让数据科学家押上真金白银——从根本上改变了激励结构。
MMC:超越 meta model 才算数光预测股价不够,你得能提供 Numerai 已有信号之外的增量——这是全球最难的数据科学竞赛。
2023 年回撤的教训-16% 年回报逼出风险系统升级:crowding 才是真正的杀手,Barra 中性还不够。
AI Agent 自动化研究skills.md + MCP server → AI 科学家跑 10,000 个并行实验,三天无人值守出模型。
Portable Alpha 新基金Numerai Singularity:long 全球股票 + long Numerai alpha,return stacking 理念。

从 8 岁开始的旅程

Richard Craib 与金融的缘分始于童年。他回忆道:

"I guess when I was eight years old, my dad gave me stock to track. I would watch the stocks move, and it's very seductive." — Richard Craib

他很快发现了一个悖论:一只股票可以因为好的财报一天涨 20%,但全世界最好的投资者——比如 Warren Buffett——年化回报却不到 20%。这个矛盾让年幼的 Richard 开始思考金融的本质。

但他很快对主流的金融媒体失望了。在他看来,看 CNBC、读报纸——这些都是金融的"junk diet version",全部在 miss the point。真正让他看清方向的是 Renaissance Technologies:金融本质上是一个数学问题、一个机器学习问题。于是他开始专攻数学和机器学习。

2011 到 2013 年间,深度学习革命爆发——计算机视觉突破、Google 收购 DeepMind——同时 Kaggle 这个竞技数据科学平台也诞生了。Richard 看到的模式是:在 Kaggle 上,竞赛主办方常常被参赛者模型的表现震撼,你永远不知道 state of the art 的上限在哪里。如果能把全世界最优秀的数据科学家聚集起来、用同一份数据建模,结果会是什么?

Numerai 是什么

Numerai 的核心理念简洁而大胆:如果全世界的数据科学家都能访问同一份数据,他们就可以在上面建机器学习模型。Numerai 释放了这份数据集,说——把全世界的模型结合起来,这就是最前沿的 alpha 生成系统。

$600M+
AUM(从 $60M 增长)
$500M
JPMorgan 获得的容量
$500M
Series C 估值
~20
团队人数

这是一个极度精简的团队在管理一套复杂系统。Richard 的运作哲学是保持团队小巧("我们不想变成 300、400 人"),大量依赖自动化——包括用 AI agents 来 onboard 数据供应商。

混淆数据的艺术

Numerai 提供给数据科学家的数据是经过混淆的——所有特征都被匿名化,你看到的只是 X1、X2、X3……像 Richard 2012 年那堂机器学习课上的作业一样。

这个决定有三重逻辑。第一,消除人类偏见:如果你能看到模型想做多 Apple,但担心 Apple 会"错过 AI 浪潮",你会被 human story 左右,偏离数据科学。第二,防止数据外泄:不让任何人带着数据去建自己的对冲基金——"你不如提交给我们,通过 staking 分享收益"。第三,机器学习本来就不需要领域知识——学习的本质就是从数据中发现规律,而非依靠先验。

技术上讲,这类似于 PCA 转换——保留了方差结构,但彻底摧毁了可解释性。这和在传统量化中对变量做 z-score 或 rank normalization 并没有本质区别——那些变换本来就是要做的。

Staking:从失败到突破

Numerai 一开始吸引了大量优秀数据科学家,但结果令人失望。Richard 回忆:

"It was like, wait, we have three hundred amazing data scientists here, but we can internally build a model that's better than the data scientists. It's catastrophic news for a company that's nine months old." — Richard Craib

解决之道来自 Richard 对 Ethereum 的早期投资。他想到创建自己的加密货币——NMR(Numeraire)——来实现 staking。Staking 的本质是 skin in the game,是资本主义最基本的元素:让某人有东西可以失去,而不只是有东西可以赢得。

在引入 staking 之前,有人会注册 1,000 个账号,每个提交随机噪声——总有一个表现好。Staking 彻底消灭了这种攻击:你必须选择一个来押上真金白银。这让数据科学家对 overfitting 变得极度谨慎,因为他们押注的是未来的 live 表现,而不是测试集或验证集上的回测结果。Richard 称之为"我们创造的最难的数据科学竞赛"。

Core + MMC:双层评估体系

Numerai 的奖励机制有两个维度。Core 衡量你的信号是否与未来 20 天的残差收益有相关性——这是基础预测能力。MMC(Meta Model Contribution) 才是真正的难点:你的信号是否对 Numerai 已有的 meta model 产生增量价值。

meta model 本身就是所有用户信号的平均——它经常是平台上"最好的用户"。要产生 MMC,你必须提供整个社区都还没有捕捉到的信号。这意味着你不能做一个更好的 XGBoost——你必须做别人没想到的事情。Staking 回报由 Core 和 MMC 共同决定,两者缺一不可。

Richard 还指出,MMC 天然地构建了反 crowding 的机制。当每个贡献者都在努力与众不同,整个系统就能更好地抵御市场压力——这在 2023 年之后成为了 Numerai 最核心的风险管理工具。

为什么 Numerai 活下来而 Quantopian 没有

Quantopian(已关停)

时代:pre-blockchain, pre-machine learning
模型方式:手写规则算法——"在日本做多科技股 overnight"
激励机制:没有 staking,没有 skin in the game
结果:自己写论文说 99% 的社区在 overfitting

Numerai($600M AUM)

时代:post-blockchain, deep learning era
模型方式:从混淆数据中学习——任何方法都可以
激励机制:NMR staking = 真金白银的后果
结果:staking 从结构上解决了 overfitting

Richard 一针见血地指出:Quantopian 太早了——pre-blockchain 意味着没有 staking 这个工具,pre-machine learning 意味着模型是手写规则而非从数据中学习。而 Numerai 的社区和 Quantopian 的用户几乎没有重叠——Quantopian 吸引的是看传统量化因子的人,Numerai 吸引的是纯粹的机器学习工程师。

他还补充了一个有趣的类比:Millennium 本质上就是一个成功的"crowdsourced hedge fund"——它的 pod 结构就是一种分布式投资决策系统。问题的关键从来不是 crowdsourcing 这个概念本身,而是激励机制的设计

Stake-Weighted Meta Model:最简单的方案赢了

一个非平凡的设计决策:如何把所有信号组合成 meta model?很多人问为什么不只用最好的模型——但"最好"是用什么指标衡量?过去 12 个月最好?那下 12 个月可能就是最差的。

Stake-weighting 的巧妙之处在于:它始终是前瞻的。它反映的是当前参与者对 live 表现的信心。而且它有自我纠正的特性——如果有人 stake 了不应该 stake 的 10 倍,几个月后他的 stake 就会被烧掉,回到正确的水平。那些积累了 $1M NMR 的人——他们已经通过持续的正向表现证明了自己的能力。

"That's the thinking with stake weighting and it's very hard to beat. We have tried. We didn't think the easiest thing would be the one that worked, but it definitely beats everything else." — Richard Craib

2023 年回撤:当 Barra 中性还不够

2023 年值得特别关注。在 COVID(2020)、meme stock(2021)、市场暴跌(2022)中都表现良好的 Numerai,却在市场平静上涨的 2023 年亏了约 16%。波动率 15%,不算疯狂——但依旧令人失望。

问题出在集中度。当时 Numerai 的持仓有时只有约 600 只股票——对量化基金来说太少了。仓位规模很高。而更扎心的是:Numerai 当时完全是 Barra 中性的。一位投资人要了持仓去看,看完说"我简直不敢相信你们亏了这么多"。

答案是一个词:crowding。你持有的东西别人也在持有,这让投资组合比风险模型预测的更危险。回调会比波动率所暗示的更大。Numerai 的应对是在 MMC 上加倍下注——激励每个贡献者去构建 anti-crowding 的模型。如果数千名数据科学家都在努力变得与众不同,整个系统在市场承压时就会更有韧性。

2023 年的教训也带来了系统性的升级。Richard 说道:

"Is it about the models? Was it about the data? Was it about the risk? And it's always be world-class at everything." — Richard Craib

2024 年成为了 Numerai 有史以来表现最好的一年。

从纸上 Alpha 到可交易 Alpha

理论 alpha 和可实现的 alpha 之间存在鸿沟。早期 Numerai 也踩过坑——小盘股、不能做空的标的、流动性不足都会让信号无法捕获。解决办法是年复一年的精细化工程。

一个具体的例子:Numerai 的股票 universe 从 8,000 只缩减到 6,000 只。在获得更好的做空可得性数据和流动性数据后,他们发现最底部的 2,000 只股票根本不可能建立有意义仓位——于是直接从 universe 中删除。当 universe 被清理后,模型自己会照顾好自己——它根本学不到那些不可交易的信号。Richard 强调"细节真的重要,但你可以让你的 alpha 真正转移到投资组合中。"

AI Agents:每个用户的 IQ +100

在 NumeraCon 上,Richard 宣布了两个重要的发布:一个 MCP server 和一个 skills.md 文件。后者定义了 Numerai 内部做研究的方法——包含所有关于如何在 Numerai 数据上做好数据科学的知识。

问题是这样的:如果你直接把 Claude 或 GPT 指向 Numerai 的数据,它会犯错。它不知道数据是时间序列,以为所有行可以互换使用。这不是因为它"笨"——只是它不了解这个特定的问题。skills.md 解决了这个问题:它将领域知识编码到 agent 可以理解的形式中。三行代码,agent 就能正确理解问题并开始工作。

"We see it as a gift from God that Anthropic is investing so much money into their models and OpenAI investing so much in their models and basically giving it to all of Numerai users for below cost. Every Numerai user is now like a hundred IQ points higher." — Richard Craib

Agent 可以连续运行约三天,执行 10,000 个并行实验——特征工程、模型选择、超参调优——然后输出一个可能在 leaderboard 上表现很强的模型。你什么都不用做,三天后模型就出来了。Richard 称之为"Numerai 的 singularity moment"。

Numerai Predictive LLM

除了让用户用 agent 建模,Numerai 自己也在用 AI 开拓新的数据源。Numerai Predictive LLM 项目取一个开源 LLM——它本来能写诗、做数学、写代码——然后重新改造它的大脑:输入新闻,输出股票未来回报的预测。

这产生了完全新颖且正交的特征——来自互联网文本数据,与 Numerai 传统的结构化数据完全不同。LLM 阅读整个互联网来产生交易信号。加上 agent 写内部代码、用户用 agent 建模——Richard 形容这是"三重 agent 化",正是他"一直希望的样子"。

Numerai Singularity:Portable Alpha 的新方向

在 NumeraCon 上发布的另一个重要产品是 Numerai Singularity 基金:Long 全球股票 + Long Numerai alpha——也就是 return stacking(回报叠加)/ portable alpha。Richard 是第一个投资人。

这个基金的动机很直接:人们总说"你们去年 alpha 只有 9%,跑输了 S&P"。Richard 的回应是——那 9% 全部是超过 S&P 的超额收益,你只需要把它跟 beta 包装在一起。而且,Numerai 的 alpha 与市场正交并不意味着不相信市场——恰恰相反,Richard 认为市场组合是"科幻级别的 amazing":

"One of the things I don't like is that people call buying the S&P passive investing because it really hides the ball. In reality, it's actually you got five hundred of the world's best CEOs to actively manage your capital all day, every day, and by the way, they have like hundreds and hundreds of thousands of the top talent in the world working for them." — Richard Craib

而且 Numerai alpha 和市场 beta 有天然的对冲关系:2023 年 alpha 表现差时,市场涨了很多。把两者叠加在一起,回报路径会更平滑。

时间的谜题

在被问到"当下最让你执迷的是什么"时,Richard 给出了一个出乎意料的答案:时间本身

作为一个投资人,你总是在谈论 return over time。但他开始质疑更深层的东西。2015 年,他在想 Ethereum 和 AI——现在美国总统每天都在谈 Ethereum 和 AI。"这很诡异,像是在挑战《随机漫步的傻瓜》——你是真的擅长预测未来,还是只是运气好?"

他谈到了 hyperstition 这个概念——一种"命运思维":也许一切都已经发生了,我们只是被拉向一个可以事先知道的未来。就像 Elon Musk 的"天命"——人类想象一个未来,然后把它变成现实。"这是一个 quant 最不该说的话",Richard 笑着补充。

核心金句

"And what staking is, is it's skin in the game. It's the most fundamental element of capitalism, you might say." — Richard Craib 解释 Numerai 代币的核心设计哲学
"The biggest problem in data science is overfitting, and the biggest criticism of quant is you are just going to overfit the past." — 为什么 staking 不是锦上添花,而是根本性的解决方案
"We see it as a gift from God that Anthropic is investing so much money into their models and OpenAI investing so much in their models and basically giving it to all of Numerai users for below cost." — 谈 AI labs 的巨额投资如何惠及 Numerai 生态
"Is it about the models? Was it about the data? Was it about the risk? And it's always be world-class at everything." — 2023 年回撤后的核心教训
"One of the things I don't like is that people call buying the S&P passive investing because it really hides the ball." — 市场组合不是"被动"的——500 位全球最佳 CEO 在为你工作