1月27日,一家中国人工智能(AI)初创公司DeepSeek(“深度求索”)横空出世般震惊了全球AI界。铺天盖地的DeepSeek媒体报道成为了中国农历新年里的重磅头条,掀起全球AI科创界的热议。DeepSeek究竟是一家什么样的公司?它为何与众不同?它对全球AI下一步的发展又可能产生什么样的影响?对中国的AI发展有什么特殊意义?中欧国际工商学院亿纬锂能经济学与决策科学教席教授、中欧AI与管理创新研究中心主任方跃分享了他的洞见。
DeepSeek在DeepSeek V3的基础上发布了推理模型DeepSeek R1,其表现被认为可以与其更知名的竞争对手——OpenAI最新的o1等相媲美。DeepSeek模型的质量和成本效益受到行业包括硅谷高管和美国科技公司工程师在内的行业人士的好评。DeepSeek R1发布的当天,其下载量旋升,登顶苹果中国地区和美国地区应用商店免费App下载排行榜。
同一天,美国科技股遭受重创。AI芯片供应商英伟达(NVDA)股价下跌近17%,市值损失5888亿美元。Meta(META)和Alphabet(GOOGL),以及Marvell、Broadcom、Palantir、Oracle等科技巨头的股价也出现大幅下挫,导致以科技股为主的纳斯达克指数暴跌3.1%。
由于投资者担心DeepSeek带来的新技术可能使AI模型需要更少的能源来运行,一些能源相关股票也出现暴跌,生产风能和燃气轮机的GE Vernova股价暴跌21%,而发电商Vistra股价暴跌28%。之后几个交易日,英伟达等公司的股价继续呈现大幅波动,市场仍在评估DeepSeek对美股相关股票和AI行业发展的潜在影响。
同时,DeepSeek也引发了投资者质疑对美国公司在AI领域的领先优势的质疑,围绕大型科技公司在构建AI模型和数据中心上的巨额支出是否可以避免展开了激烈讨论。
DeepSeek是一家什么样的公司?
DeepSeek成立于2023年7月,总部位于中国杭州,创始人梁文锋是浙江大学信息和电子工程专业的校友。DeepSeek由梁文锋于2015年创立的对冲基金High-Flyer孵化。
High-Flyer于2023年3月在其官方微信公众号上宣布“重新出发”,超越交易,集中资源打造“全新的独立研究小组,探索AGI(人工智能通用智能)的本质”。
DeepSeek于同年晚些时候创建。目前尚不清楚High-Flyer向DeepSeek投资了多少。根据公司的公开信息,High-Flyer与DeepSeek位于同一栋大楼内,它还拥有与用于训练AI模型的芯片集群相关的专利。
对技术公司来讲,企业的愿景至关重要。DeepSeek同OpenAI的萨姆·奥尔特曼(Sam Altman)一样,也是希望构建AGI。与包括Anthropic和Perplexity在内的其他著名AI初创公司相似,DeepSeek在过去一年中发布了各种有竞争力的AI模型。但相比Anthropic和Perplexity,DeepSeek此前并未广泛为世人所知,行业关注度不高。
此次DeepSeek发布的DeepSeek R1,由于其出色的表现,加上公司来自中国,且“鲜为人知”,给全球AI社区带来了不小的“惊讶”,这也是美股市场出现“恐慌”的重要原因之一。
DeepSeek哪里与众不同?
DeepSeek采用了创新的架框,在AI算法方面取得了重大突破,模型表现出很强的竞争性,其产品达到了GPT-4的级别。迄今为止,DeepSeek研究论文中所描述的性能基本被其他公司的不同基准测试所验证。
DeepSeek并非采用“蒸馏”(多被形容小型AI开发团队,利用有限的资金,基于他人大模型来构建擅长某个领域的专业模型)的简单进化,而是以一种开创性的通用的方式,将模型分解成多个子专家模型,通过专家混用模型系统不断迭代。
另外,对推理层面的任务,DeepSeek的架构不需要做SFT(监督微调Supervised Fine-Tuning,一种重要的模型优化技术,是指在已经预训练模型的基础上,通过使用有标注的特定任务数据进一步训练,以提升模型的性能和遵循指令的能力)。
DeepSeek R1的出色表现表明,这种基于算法优化和新架构的方法可以有效突破计算能力不足的束缚,甚至有可能提高数据的利用效率和迭代速度,最终直接带来了模型开发成本的大幅下降。
坦率地讲,DeepSeek R1并非硅谷最尖端的前沿模型,但其较低的成本和极为高效的探索速度,成功尝试了行业尚未探索的技术路径,是“一项出色的人工智能进步”(英伟达发言人1月27日的评价)。才能非凡的团队、优质的训练数据和出色的创新工作——DeepSeek向我们展示了如何用更少的资金和资源实现更多的可能性的新AI技术路径。
正如Perplexicy CEO阿尔文·斯里尼瓦斯(Arvind Srinivas)近日在接受美国媒体采访时所表示的:“之所以它(DeepSeek R1)如此令人大开眼界,而且众多研究者被DeepSeek所取得的成就所吸引,原因在于这是一个非常有趣的进展,它展示了在如此少的资本投入下,能够以多快的速度接近或达到技术前沿。”
最后,AI大语言模型训练成本的不断降低符合行业发展趋势。DeepSeek通过一系列工程效率的创新,相比全球目前能力相媲美的模型,成本要低得多。但值得注意的是,DeepSeek的V3模型总训练成本尚不清楚,同样广受赞誉的R1模型的训练成本没有披露。AI训练成本每年都在大幅下降,简单将DeepSeek的训练成本同一些科技巨头早期前沿探路的巨额开发成本相比不一定合理。
DeepSeek对全球AI下一步的发展可能产生什么样的影响?
- 首先是扩展定律(Scaling Law)
Scaling Law在大模型发展中起着非常重要的作用,是OpenAI研究人员在2020年提出的AI开发概念,即通过大幅增加构建新模型所需的计算量和数据量,可以开发出更好的AI系统,而这需要越来越多的芯片和大量高质量的数据。
OpenAI首席执行官萨姆·奥尔特曼去年曾表示,AI行业将需要数万亿美元的投资来支持高需求芯片的开发。当DeepSeek用如此小的成本,而且在功能较差的芯片上实现强大的AI模型功能,人们不禁要问:Scaling Law是否不成立了?我们是否还需要投资昂贵的AI基础设施?
我认为,AI的发展方向一定是消耗更少的能源且更具成本效益,但对算力和数据的需求不会降低。DeepSeek R1的成功会导致华尔街开始重新评估AI行业,比如,英伟达的股价是否有泡沫?是否不需要如此多的AI数据中心?
DeepSeek创新的算法路径一定会对AI行业的供应链产生影响。不过,虽然DeepSeek可能会挑战OpenAI等美国公司的主导地位,但强大的芯片和计算能力仍然是未来AI发展的一个重要且不可缺少的优势,多路径发展可能成为未来趋势。
- AI开源社区受到鼓舞
与OpenAI的ChatGPT等闭源的模型不同,DeepSeek是开源的。不夸张地说,DeepSeek的成功是一项意义非凡的“平等突破”,是开源社区相对闭源的一次胜利。
过去两年,越来越多的中国公司加入AI开源社区。阿里云发布了100多个新的开源AI模型,支持29种语言,可满足各种应用程序的需求,包括编码和数学。
同样,Minimax和01.AI等初创公司也开源了自己的模型。DeepSeek的成功有可能在一定程度上改变目前开闭源的AI发展格局。
当然,DeepSeek在让整个AI社区感到兴奋的同时,也吸引了开源社区内各竞争对手的关注。据The Information报道,Meta已经建立了许多“作战室”来弄清楚DeepSeek是如何变得如此高效的。这将有助于“众人拾柴火焰高”,进一步推动开源模型的繁荣,导致与闭源模型基本同步发展。
- 对应用落地的影响
目前还不确定DeepSeek的发展将在多大程度上影响AI行业,但我认为会对AI的对应用落地产生积极的促进作用。我也相信,AI大模型相关的长期收入和成本可能会降低。
需要提醒的是,用更少的钱训练一个大型语言模型是一回事,大规模应用落地、对社会产生价值是另外一回事,满足AI技术消费的巨大需求仍然需要大量的基础设施和时间。
DeepSeek对中国的AI发展有什么特殊意义?
根据中国信息通信研究院2024年发布的白皮书,在全球1328个AI个大语言模型中,36%源自中国,这使中国成为仅次于美国的第二大AI贡献者。
但过去两年,国内公司陆续发布了不少中国版的ChatGPT类产品,总体表现多少让市场有些失望。DeepSeek的发展可能会激发中国AI公司的“斗志“,提升AI创新公司和行业的信心。
除了非常耗费资源外,构建AI大语言基础模型是一个复杂的工程项目。
在2024年7月接受中国媒体36氪采访时,梁文锋表示,除了芯片制裁之外,中国公司面临的另一个挑战是AI工程技术往往效率较低。“我们(大多数中国公司)必须消耗两倍的计算能力才能获得相同的结果。再加上数据效率差距,这可能意味着需要高达4倍的计算能力。我们的目标是不断缩小这些差距。”DeepSeek的实践,在工程效率的创新等很多方面为其他AI公司提供了有益的经验。
我相信,同OpenAI的ChatGPT等一样,DeepSeek的DeepSeek R1也只是AI时代拉开序幕的又一重要“预热节目”。“他们(DeepSeek)构建的模型很棒,但也不是奇迹,”Bernstein分析师斯泰西·拉斯贡(Stacy Rasgon)在评论DeepSeek时说道,“他们没有使用任何未知或秘密或类似的东西,这些是每个人都在试验的东西。但DeepSeek以更少的资源做更多的事情,风靡了市场。”
正是因为人类在不断追求用更少的资源做更多的事情,AI未来几年的惊喜将不断出现!
教授简介
方跃教授是中欧国际工商学院经济学与决策科学教授、经济学和决策科学系系主任、中欧AI与企业管理研究领域主任。方跃教授于2018年在中欧创办大数据研究中心,并担任研究中心首届主任,并于2024年初在中欧成立并负责AI与管理创新研究中心,重点关注AI对企业管理及产业发展的影响和如何打造AI驱动型组织,致力于构建具有商学院特色的AI产学研平台,及AI与管理创新的高端智库。
加入中欧之前,他作为终身教授曾执教于美国多所大学,并担任麻省理工学院国际金融服务研究中心(IFSRC)、麻省理工学院制造业领袖项目(LFM)以及美国能源部能源信息管理局(EIA)研究员。方跃教授自2005年到2018年长期担任美国一家能源对冲基金的执行董事,并为包括AT&T、GE Capital、Intel Capital在内的多家跨国公司和中国企业提供人工智能、数智化转型、大数据和金融科技等方面的咨询服务。
创意图片已获视觉中国授权。
编辑 | 李钰婷
责编 | 岳顶军
友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com