AI大模型的推理门槛究竟降低了多少?中美技术竞争格局是否迎来了转折点?开源模型能否颠覆闭源巨头的技术霸权?企业级AI应用呈现什么趋势?……近日,斯坦福大学“以人为本智能研究院”(HAI)发布了《人工智能指数2025年度报告》(AI Index Report 2025,以下简称《AI指数报告》),或许能给业界关注的这些问题提供一些参考。
《AI指数报告》指出,中美两国在AI领域的差距显著缩小。2024年,美国发布了40个值得关注的模型,远超中国的15个和欧洲的3个,中、美、欧仍是顶尖AI模型的“生产大户”。不过从关键基准测试来看,中美顶尖模型之间的性能差距在2024年近乎持平,这表明中国AI模型的质量在快速追赶。
中国AI模型性能与美国几近持平 《中国经营报》记者注意到,《AI指数报告》长达456页,全面介绍了AI模型性能、投融资趋势、开源模型、科研范式、政策与治理、社会情绪等维度的数据研究结果。值得一提的是,在年初凭借低成本、高性能火爆“出圈”的中国开源模型DeepSeek在报告中被提及了45次之多。
“AI的采用速度以前所未有的速度加快,数以百万计的人正在日常工作和休闲活动中使用AI。随着高性能、低成本和公开可用的模型不断涌现,AI的可能性和影响力预计将进一步扩大。”《AI指数报告》联合主编约兰达·吉尔和雷蒙德·佩罗如是写道。
《AI指数报告》显示,全球AI出版物和专利申请均呈现上升趋势,全球计算机科学领域AI出版物在2013年至2023年间增加了24.2万份;AI专利总数则从2013年的0.38万个增加到了12.25万个。在过去的2024年,AI专利数量同比增加了29%。从地区分布来看,中国在全球2023年AI论文发表数量位居第一位,占总量的23.2%,而欧洲占15.2%,印度则为9.2%。全球授予的AI专利中,69.7%来自中国,美国占比为14.2%,美国AI专利的份额自2015年达到峰值 42.8%以来持续下降。
需要指出的是,《AI指数报告》中将来自清华大学、北京智源研究院的数十篇科研成果纳入全球前100位;而在中国2024年产生的15款重要AI模型中纳入了阿里、字节、DeepSeek、腾讯、智谱等企业的多款主流模型。
“美国在人工智能研究和模型开发方面一直占据主导地位,中国位居第二。然而,近期证据表明,这一格局正在迅速变化。中国模型正在赶上美国同行。”《AI指数报告》指出,在MMLU、MMMU、MATH和HumanEval等多项基准测试中,2024年年底,中国模型与美国模型的数据差值分别为0.3、8.1、1.6和3.7个百分点,而在2023年其相应的性能数值差距则分别是17.5、13.5、24.3 和 31.6个百分点。除此之外,在“LMSYS Chatbot竞技场”测试中,2024年1月时,顶尖的美国模型比最佳的中国模型高出9.26%,而到了2025年2月,这一差距已缩小至仅1.70%。
值得关注的是,《AI指数报告》显示,全球各个国家和政府大规模加大AI投资,而从私有投资来看,全球AI总投资(包括并购)在经历了短暂回调后,去年实现强劲反弹,达到2523亿美元,创下新纪录,其中私有投资额达1508亿美元,同比增长44.5%。美国依然是全球AI投资的中心,2024年共吸引了1091亿美元的私有投资。排在其后的包括中国的93亿美元、英国的45亿美元。在生成式AI领域,美国2024年的总投资额为290.4亿美元,远超中国、欧盟和英国。
中国社会科学院数量经济与技术经济研究所信息化与网络经济研究室主任彭绪庶认为,中美都已将AI发展视为应对新科技革命和产业变革的重要国家战略。从国家创新能力理论的不同维度来看,中美两国在人工智能政策上存在显著差异,但都日益趋同于创新导向。与美国相比,中国人工智能创新有差距、有短板,但也有相对优势,有突破超越的机会。
AI推理成本骤降企业应用空前繁荣 关于业界关注的模型成本问题,《AI指数报告》指出,从2024年的三款选定AI模型——xAI的Grok-2、Meta的LLma3.1-405B、Mistral大型模型来看,预估它们分别花费1.07亿美元、1.70亿美元、0.41亿美元。另据公开报道,OpenAI首席执行官山姆·奥特曼透露训练GPT-4的成本超过了1亿美元;Anthropic首席执行官达里奥·阿莫迪去年7月时表示,已有模型训练运行成本约10亿美元。尽管DeepSeek-V3的训练成本已降至600万美元,但总体而言,训练成本仍非常昂贵。
记者注意到,《AI指数报告》首次对推理成本进行了追踪分析。结果显示,达到GPT-3.5性能水平的AI模型,其推理成本从2022年11月的每百万token 20美元,骤降至2024年10月的仅0.07美元(以谷歌的Gemini-1.5-Flash-8B模型为例),即在不到两年时间里,AI模型的推理成本骤降99.65%。而在硬件层面,成本每年下降约30%,而能效每年提升约40%。
与此同时,开源模型与闭源模型的差距也在迅速缩小。《AI指数报告》引用Chatbot Arena竞技场测试结果称,排名前两名的开源模型与闭源模型的性能差距从4.9%骤降至0.7%,这意味着高质量的模型不再是少数巨头的“专利”,AI应用的门槛大幅降低。
基于此,各个行业领域对AI的应用不再仅停留在实验阶段,企业应用AI空前繁荣。麦肯锡的调查显示,2024年报告在其组织中至少一个业务功能中使用AI的受访者比例从2023年的55%跃升至78%。同样,报告使用生成式AI的比例也从33%翻倍增长至71%。AI正从企业的边缘工具转变为核心
驱动力。值得一提的是,AI Agent(智能体)崭露头角,《AI指数报告》显示,2024年推出的RE-Bench为评估AI智能体的复杂任务提供了严格的基准测试。在短时间范围内(两小时),顶级AI系统的得分是人类专家的四倍,但当给予更多时间完成任务时,人类表现优于AI,在3小时时间框架内领先AI两倍。尽管如此,AI智能体在特定任务上已经能与人类专业知识相匹配,例如编写特定类型的代码,同时提供更快的结果。
这一趋势从国内的DeepSeek接入热潮中也可见一斑,记者近期在走访能源化工、教育、生物医药、汽车制造等多个行业的企业时也观察到,基于算力基础设施与通用大模型底的各类行业大模型已纷纷“上岗”,融入实体企业的业务管理环节或全链条中,还由此开发出面向不同业务场景的AI工具应用。
不过需要指出的是,尽管越来越多的研究证实了AI对生产力的积极影响,尤其是在缩小低技能和高技能工人之间的差距方面。但《AI指数报告》也指出,多数公司运用AI仍处于价值实现的早期阶段。在报告AI带来财务影响的企业中,大部分表示效益仍处于较低水平。例如,49%在服务运营中使用AI的企业报告了成本节约,但多数节约幅度低于10%。同样,71%在市场营销中使用AI的企业报告了收入增长,但最常见的增长幅度也低于5%。
(文章来源:中国经营网)