DeepSeek引发的AI狂潮热度不减。
凭借低成本、高性能、开源等特点,DeepSeek-R1“爆火”之后,国内多个云平台宣布上线DeepSeek旗下模型。2月4日,字节跳动旗下的云服务平台火山引擎宣布,将支持V3、R1 等不同尺寸的DeepSeek开源模型;腾讯云继2日宣布其高性能应用服务HAI支持DeepSeek-R1一键部署之后,4日又宣布腾讯云TI上架DeepSeek系列模型;百度智能云则于3日晚宣布,百度智能云千帆平台已正式上架DeepSeek-R1和 DeepSeek-V3模型;阿里云PAI Model Gallery目前也已支持DeepSeek-V3、DeepSeek-R1以及所有蒸馏小参数模型(DeepSeek-R1-Distill)的一键部署。
在这背后,是云厂商们不愿在DeepSeek的火爆中缺席,卖起了自身的产品、服务以及算力。而更深层次的行业变化是,大模型的算力需求正在经历变迁。DeepSeek曾公开DeepSeek-V3的训练预算为“2048个GPU、2个月、近600万美元”,外界认为DeepSeek-R1训练成本可能也偏低。这或许意味着,大模型训练不一定能为云厂商持续带来大量算力需求,但开发者部署偏重推理的大模型,可能会为云厂商带来更多算力需求。
在海外市场,蛇年春节期间,DeepSeek的优异表现以及不及OpenAI近1/20的算力成本令英伟达(Nasdaq:NVDA)股价一夜暴跌17%。英伟达等科技巨头股价在后续几天有所反弹,华尔街亦开始对“中国AI冲击”进行更理性的分析。DeepSeek的问世意味着更多新进入者,算力的需求将有增无减,不过,未来的热点可能会从“铲子”向应用端切换,更多AI公司将会受益。
多个云平台上线相关模型背后 DeepSeek-R1是一款开源模型,也提供了API(接口)调用方式。据DeepSeek介绍,DeepSeek-R1后训练阶段大规模使用了强化学习技术,在只有极少标注数据的情况下提升了模型推理能力,该模型性能对标OpenAl o1正式版。DeepSeek-R1推出后,该模型热度持续攀升。1月27日,DeepSeek应用曾登顶苹果中国地区和美国地区应用商店免费APP下载排行榜。
面向潜在的算力需求,腾讯云TI平台上架了“满血”的 V3、R1原版模型,这两个模型参数量都达到671B(B即十亿),并上架了基于DeepSeek-R1蒸馏得到的系列模型,参数规模从1.5B到70B不等。腾讯云TI平台还提供模型服务管理、监控运营、资源伸缩等能力,帮助企业和开发者将DeepSeek模型接入实际业务。
尽管DeepSeek-R1是开源模型,但云厂商们在各自平台提供的适配服务,可以让用户更轻松地实现从训练到部署再到推理的全过程,简化模型开发流程,“收拢”部分DeepSeek用户的需求。目前,百度智能云千帆平台上架的DeepSeek-R1和 DeepSeek-V3模型则已全面融合千帆推理链路,集成百度独家内容安全算子,实现模型安全增强与企业级高可用保障,同时支持完善的BLS日志分析和BCM告警。
阿里云也面向开发者提供了蒸馏过后的DeepSeek-R1-Distill-Qwen-7B模型,基于DeepSeek-R1的推理能力,通过蒸馏技术将推理模式迁移到较小的Qwen(通义)模型上,以便更高性价比地实现DeepSeek系列模型与现有业务的高效融合。阿里云相关人士对记者表示,部署DeepSeek-R1-Distill-Qwen-7B模型的价格约为11.1元/小时(以A10机型为例,其余机型的价格参考阿里云官网);部署DeepSeek-R1模型的价格约为316元/小时。
同时,不少云厂商都给出了低于DeepSeek官方刊例价的折扣。目前,DeepSeek-R1的官方刊例价为输入4元/M tokens,输出16元/M tokens,DeepSeek-V3的官方刊例价为输入2元/M tokens,输出8元/M tokens。
记者从百度云了解到,百度云上架的对应模型调用价格为DeepSeek-V3官方刊例价的3折、DeepSeek-R1官方刊例价的5折,并提供限时2周的免费服务。阿里云百炼上架的DeepSeek-R1和DeepSeek-V3也宣布限时免费。火山引擎也在公开信息中表示,通过全栈自研推理系统对 DeepSeek 的优化和降本,火山引擎为通过方舟调用 DeepSeek 模型 API 的企业提供有竞争力的价格,并提供全网最高的限流。
2024年,DeepSeek-V2的发布曾引发了一轮大模型价格战,字节、百度、腾讯、阿里等大模型厂商都曾跟进降价。如今,有“AI界拼多多”之称的DeepSeek是否会掀起大模型的下一轮价格战受到业界关注。
业界对大模型价格竞争已有预期。今年1月,腾讯集团副总裁、政企业务总裁李强在接受第一财经等媒体采访时表示,价格变化如果不是基于技术创新就很难长期持续,腾讯对低效率的纯粹价格竞争未必完全认同,预计2025年传统云计算领域的价格竞争会趋缓,但与大模型相关的部分还是会有价格竞争。李强表示,大模型本身带来的收入占整体市场的规模还比较小,但长期看,大模型行业化应用将更多带来推理相关的计算需求。随着越来越多企业用户和创业公司转向大模型应用,预计应用爆发将带来大量推理需求。
焦点将从“铲子”转向应用层 在蛇年春节期间,“DeepSeek”是主导海外市场的关键词,一度令美股“科技七巨头”股价大幅跳水,英伟达股价一度创下美国上市公司单日市值损失纪录,科技股普遍重挫,目前这段大幅波动似乎已经告一段落。
某AI相关科研人士对记者称:“DeepSeek的原理和OpenAI o1不太一样,训练模式区别很大,而且更直观、可解释。DeepSeek因预算或高端芯片有限,因此必须优化训练流程,这就是中国‘卷王’登场的地方了。”
英伟达被称为“AI淘金潮”下那个“卖铲子的人”,不过未来的热点可能会继续向中下游切换,更多AI公司将会受益。
高盛科技分析师Eric Sheridan和他的团队强调,AI主题的下一阶段演进可能会从基础设施层转向应用层(如AI智能体、企业应用场景、消费者实用性提升和计算习惯的改变)。这些将成为未来2025年及以后的可识别关键
驱动力,从而带来更线性、可理解的资本回报。
在科技巨头中,投行认为,谷歌和Meta相对处于特别有利的位置,因为它们在AI的“应用层”推进方面走得最远。不过更多中小企业也将迎来更多机会。富兰克林股票团队首席投资官柯蒂斯(Jonathan Curtis)此前对记者称,在应用端将有更多使用案例出现,好比5G主题从上游基站向下游手机应用扩散一样,也会有更多科技公司运用生成式AI技术来提高产品或服务的价值。在转型过程中,将有更多市值较低的企业受惠,特别是软件和互联网服务等行业。
中国AI主题受关注 近两年来,中国AI企业的发展大超预期,DeepSeek的爆红无疑增加了相关主题的吸引力。OpenAI原全球市场应用负责人、人工智能与商业战略专家Zack Kass近期对记者表示,早在两年前他就认为,在未来AI竞赛中,中国不一定会落后,中国可以用更少的GPU构建模型。
在他看来,2025年,人工智能的发展可能会进入一个新的阶段,人们将开始真正认同“模型即商品”的理念,即使模型将越来越便宜和可触达。这并不意味着不再投资于模型,而是强调多样性和选择的重要性。特别是中国可能不会再纠结于“本土人工智能落后”的观念,因为前沿模型之间的性能差距正在缩小,使用户在体验上几乎感受不到太大区别。随着模型逐步趋同,人们的关注点将从“谁的模型更强”转向如何更有效地采用和应用这些模型。
高盛则认为,未来AI推理与后训练环节受到更多重视,推理计算资源需求低于预训练,将成为下阶段增长重点。中国AI企业具备全球竞争力。
尤其是在To C应用方面,中国企业具备先发优势,核心盈利模式则是广告、订阅等增量收入,最终实现AI应用可持续变现。
在云计算和数据中心领域,围绕芯片、算力限制的地缘政治不确定性依然存在,但训练、推理成本优化的进展也在提速,机构预计,互联网巨头的云业务和数据中心将受益于持续增长的公共云和AI计算需求,特别是在AI采用加速的背景下。
(文章来源:第一财经)