DeepSeek r1存在重要技术细节需要澄清。
值得注意的是地缘政治因素,该模型恰好在川普"星际之门"计划后发布并非巧合。5000亿美元市值的泡沫或将破灭。
真实情况:
1) 在应用商店相关类别下载量第一,超越ChatGPT,这是Gemini和Claude未能做到的
2) 质量与o1相当,但落后于o3
3) 算法突破带来训练和推理效率革命: FP8训练、MLA架构和多token预测技术是关键
4) 6百万美元训练成本虽属实,但具有严重误导性
5) 硬件架构创新,使用PCI-Express进行扩展
最关键的是r1的推理成本比o1低93%,这并非基于6百万美元训练成本的数字,而是实际API使用成本。r1可在高端工作站本地运行且未遇速率限制,这很惊人。简单计算显示FP8精度下每10亿活跃参数需1GB内存,因此r1需要37GB内存。批量处理可大幅降低成本,更多算力可提升token/秒,云端推理仍有优势。
技术细节:
1) 6百万美元不包含"前期架构研究、算法验证和数据实验成本"(技术文件原话)。这相当于说"只要实验室已投入数亿美元前期研究并拥有超大规模集群(DeepSeek早期论文提及10,000块A100集群),就能用6百万复现r1"。普通团队无法仅凭2000块GPU和6百万获得相同成果
2) 大量依赖模型蒸馏技术,必须借助GPT-4o和o1才能完成训练。这暴露了美国GPU出口管制的漏洞:限制先进GPU却放任中国通过蒸馏获取顶尖模型能力,无异于自毁管制措施
结论:
1) 降低训练成本将提升AI投资回报率
2) 短期内对训练资本支出和"电力需求"主题不利
3) 最大风险在于:经蒸馏的r1可在高端工作站(如Mac Studio Pro)本地运行,预示两年内超级手机将具备同等能力。若边缘计算成为主流,将引发史上最大PC/手机升级潮,重塑行业格局
4) 人工超级智能(ASI)已近在咫尺,但其经济回报尚不明确。若耗资千亿的o5/Gemini3/Grok4能治愈癌症甚至发明曲速引擎,ASI将带来超高回报,训练支出和能耗将持续增长
5) 利好AI应用层企业:软件、互联网等
6) 提升独特数据和分发渠道价值:YouTube、Facebook等平台受益
7) 美国实验室可能停止发布尖端模型防止被蒸馏,但可能为时已晚(r1已可训练r2)
关于Grok-3的潜在影响:
作为GPT-4以来首个验证扩展定律的模型,其表现至关重要。Grok-3已展示超越o1的能力(如Tesseract演示),其强化学习后的推理能力提升程度将决定行业走向。正如《双塔奇兵》中半兽人所言:"肉或许很快会重回菜单"。最终结论将随事实演变而调整。

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com