2025农历蛇年春节前后,源自中国的DeepSeek发布了系列大模型,一时风靡国内外,成为全球特别是美国科技界追随的“热点”,其影响力远远跨越了人工智能领域。饶毅教授更认为在“科学和技术方面,DeepSeek是鸦片战争以来中国出现的对人类最大的科技震撼。”谷歌前董事长兼CEO,Eric Schmidt则认为“DeepSeek的横空出世是全球AI竞赛的转折点,证明了中国公司可以用更少的资源与大型科技公司开展竞争。”
本期ISCM动态报告在ISCM专业大模型数据以及在人工智能和汽车双领域的知识储备的基础上增加了专家团队分析,深度解读DeepSeek的特点、多重价值和伟大意义的同时,特别研究其对汽车行业的影响,认为DeepSeek将引发智能应用大爆发,并将开启中国智能汽车2.0时代,即“从造智能车到智能地造车”。
摘要:
DeepSeek打破了美国对AI的全球垄断,让其布局数十年耗费巨资构建的金融资本-软硬件生态体系-数据与算力优势被“釜底抽薪”。DeepSeek以开源的方式打破了美国的封闭,用Eric Schmidt的话说,“目前全球AI领域的竞争格局似乎正在围绕两个关键维度发生变化:一是中美之间的竞争,二是封闭与开源模式的较量。”在当前大模型商业化极为困难的情况下,DeepSeek击穿了大模型训练与部署的成本,并带来了“能听懂人话和说人话”的基础大模型,为日后智能应用大爆发提供了基础支撑。
01 DeepSeek 打破美国AI壁垒
▌打破了大模型是“算力和金钱游戏”的传统认知
人工智能技术每一次闪亮登场都伴随着一个雄心勃勃的资本故事,从Deepmind发布的Alpha GO,再到Openai的 ChatGPT系列,人们在惊叹于科技进步的同时,也被其夸张的训练成本惊掉下巴,自此形成了一个普遍的共识:搞人工智能必须有无尽的资金和算力。
而DeepSeek的崛起让人们突然惊醒,原来仅用2000多块性能较弱的Nvidia H800芯片花费仅558万美元就能达到比肩ChatGPT O1的效果。相比之下,ChatGPT-4的训练成本已高达7800万美元,占用多达25,000个顶级的Nvidia A100GPU,Meta的Llama 训练成本3超过1个亿美元,Gemini Ultra差不多花了2亿美元。
用 OpenAI创始团队成员Andrej Karpathy的话来说,这简直是“可笑的预算joke of a budget”,刷新了全球人工智能行业的认知。
▌打破垄断格局,建立开源生态
在DeepSeek之前,美国构建的闭源模型(如 OpenAI的O3和Anthropic的Claude3 Opus)被认为是领先的行业标准,而开源模型(尤其是中国的开源模型)通常被认为要落后美国几个月。
Eric Schmidt在专栏中写道,“这是一个颇具戏剧性的时刻:中国公司已经真正成为开源领导者,而大多数美国科技公司(除了Meta之外)仍然严格保密其技术方法。”
更为讽刺的是OpenAI已从致力于实现通用人工智能(AGI)的非营利性组织转变成了一家公司,并从2023年11月开始不再公开自己的研究成果、代码和资源,在2024年10月完成了460亿美元的融资,估值高达1570亿美元。
DeepSeek选择开源路线,把技术慷慨地分享给全球开发者。开发人员可以使用这些模型构建第三方应用程序,初创公司也可以使用这些模型创建自己的应用。这样的策略不仅为自己赢得了技术口碑,还推动了一场AI行业的降价潮。
Eric Schmidt认为目前全球AI领域的竞争格局似乎正在围绕两个关键维度发生变化:一是中美之间的竞争,二是封闭与开源模式的较量。美国已经拥有全球最好的封闭AI模型,要保持竞争力,美国还必须支持强大的开源生态发展。
支持闭源模型的企业押注于通过保护模型权重和训练方法来捍卫技术领先优势。而开源支持者则认为,透明度可以让更多人基于现有成果进行创新,从而加速系统的发展,使其迅速赶上甚至超越封闭模型。如果这一理论成立,AI生态系统将被彻底颠覆。
▌AI星际之门可能被釜底抽薪
DeepSeek的崛起将美国近十年来重金布局的金融资本(美股)- 硬件技术生态(智能芯片)- 软件技术生态(ChatGPT、Gemini、Claude基础大模型)- 算力资源(亚马逊、微软、谷歌、英伟达、特斯拉的云计算)的闭环垄断彻底颠覆。
“英伟达 + OpenAI”组合作为智能时代的软硬件基础生态,再加上苹果和安卓作为上层应用的生态圈结构将面对前所未有的挑战,特朗普政府希望集全球资金打造的价值5000亿美元的AI星际之门项目面临被“釜底抽薪”。
▌大幅降低大模型部署的门槛,将催生人工智能应用市场
开源模型正在开源促成了基础模型计算token价格的迅速下降。现在OpenAI的o1每百万输出token定价60美元,而DeepSeekR1以2.19美元的价格断崖式击穿了行业认知。
与此同时,目前AI大模型依然没有找到明确的盈利路径,也没有关键性、革命性的技术突破,单纯依靠训练基础模型并向外销售 API 访问的商业模式要实现盈利难度极大,即便强如OpenAI仍在寻找收回巨额研发投入的方法。
而真正的金矿,正蕴藏在应用层的熔岩之中:当他人已经在模型训练上投入了数十亿资金时,只需花费少量成本,就能把这些模型用来开发客服机器人、邮件摘要、 AI+医疗、AI+法律、AI+汽车、AI+各行各业等多种服务,AI应用将如火山爆发一般喷涌出迅速进入人们的生活。
就像安卓系统为开发者提供了一套支撑各类应用的生态环境,真正在用户端发挥价值的是运行在安卓系统之上的各类APP。未来围绕封闭大模型和开源大模型都将形成各自的生态系统,就像塞班系统被历史淘汰一样,未来大模型的竞争将从现在的数据、算法、算力等资源型的竞争转向生态完善程度以及在其之上的智能应用产品之间的竞争。
一般来讲,开源模型、训练成本和模型的性能表现这三个特性构建了一个“不可能三角”, 即一款模型产品通常只能满足两个特性,过高的训练成本和不尽如人意的性能表现成为了大模型进入商用领域发挥更大价值的最大障碍。
DeepSeek打破了这个“不可能三角”,同时具备了开源模型、性能表现优异和训练成本低三个特性,因此说DeepSeek的横空出示将开启智能应用爆发新时代。
02 DeepSeek的技术特点
▌DeepSeek与ChatGPT的差异
在使用这两款大模型产品时会有截然不同的体验。以往用ChatGPT时会提前准备提示词(prompt),例如,要求ChatGPT对中国汽车市场格局按照市场规模、车型情况、价格维度、使用的能源情况、未来技术发展趋势,撰写一篇不少于2000字报告,并引用中国汽车工业协会以及新华社等可靠信息源的数据。结果得到的大概率会是一篇一眼看去就是AI文章的“干巴报告”。
而使用DeepSeek时则要明确地告诉Ta你的目的,使用场景,甚至包括要做到什么程度。这一小小的变化不仅是使用方法的差异,更反映出两个模型产品设计思路的不同与智能程度的高低。
出现上述巨大差异的核心是ChatGPT属于指令型大模型,是个“记忆力”超群的学生,你问什么Ta答什么,只有一些“模式化”的推理和联想能力,是一个不错的“工具人”;而DeepSeek R1是“推理型”大模型,不但能听懂人话,还能按人的方式思考问题并用“人话”回答问题,是个能做到“听话听音儿”,推断用户真实意图的小机灵鬼。
▌DeepSeek的技术特点
与传统大模型将算力集中用于模型的预训练上的训练方法不同,DeepSeek- R1模型的推理能力是增加模型在推理时的思考时间来实现。DeepSeek-R1 zero模型采用纯强化学习的方式,让大模型在没有任何监督数据介入的情况下自己发展出推理能力,在此基础上R1模型融合了GRPO算法和规则化奖励机制。
GRPO群体策略优化(Group Relative Policy Optimization)算法简单来说就是让多个学生同时解题,做错的同学直接学习做对同学的方法,从而大幅降低了计算资源的消耗。
规则化奖励是指不仅要求模型给出答案正确,解题过程也必须正确。这样就为模型提供了优秀的可解释性和优化的空间。DeepSeek的实验结果表明这样的学习方法非常成功,R1模型通过这套机制获得了“思考能力”。
此外,DeepSeek在预训练R1模型时使用了SFT(Supervised Fine-Tuning)监督微调技术,通俗讲就是让模型提前学习了标准解题思路,并通过模拟考试的方式让模型熟悉了试卷,再让模型进行强化学习,弥补了R1zero模型的短板最终让R1模型达到了比肩ChatGPT O1模型的成绩。
对于大模型来说,跑分只是客观评价的一面,在实际使用过程中,用户会深刻感受到DeepSeek R1要比ChatGPT有更好的深度思考能力,也更符合与人交流的行为模式,这才是人工智能该有的样子。
▌V3、R1与Janus三个大模型的差异
DeepSeek V3是2024年12月26日发布的,本质上是一个有671B参数的通用领域的大模型,也是R1系列大模型的基础,更适用于一些内容生成场景,比如文字创作和回答问题等。V3没能火起来的主要原因是太大了,671B的参数一般企业用户部署不了。
让DeepSeek名声大噪的是R1模型,有1.5B、7B、8B、14B、32B、70B和671B多个版本,最小的1.5B版本可以在高性能电脑上运行,大大降低了部署门槛。
而且,R1模型本质上是一个推理的模型,更适用于一些垂直的场景,并且更注重对问题的分析,背后利用的是思维链模式,像人一样思考,给出推理过程,提升了回答的准确性。DeepSeek在2025年1月28日凌晨发布的Janus-Pro本质上是一个多模态大模型,可以完成生成文字与图片等工作。
由此可见,DeepSeek一口气发布了三个大模型,覆盖了主流的文字理解与生成、图片生成,再结合强大的推理能力和容易部署的特性为其进入商用市场奠定了基础。
DeepSeek的横空出世确实让世人感到震撼,其代表的中国力量与开源生态打破了美国封闭生态对AI技术的垄断,其更重要的意义在于大幅降低了基础大模型的训练和部署成本,让大模型可以部署到手机、汽车、电脑等越来越多的智能设备上,避免了数据传输产生的额外风险;让越来越多的组织甚至个人可以打造满足各类需求的AI创新应用,AI应用大爆发的时代即将到来。
下一期ISCM动态报告我们将为您剖析DeepSeek将对汽车行业产生什么影响,敬请关注。
ISCM智慧供应链管理
龚淑娟
李峥
本期ISCM动态报告在ISCM专业大模型根据数据和在人工智能和汽车双领域的知识储备上增加了专家团队分析,用实例剖析其对汽车行业的影响。DeepSeek引发的智能应用大爆发将开启中国智能汽车2.0时代,即“从造智能车到智能地造车”。
2025-02-24
2025-05-07
2025-05-07
2025-05-08
2025-05-07
2025-05-08
2025-05-12
2025-05-06
博世集团于2025年5月8日举行年度新闻发布会,在发布会中,博世集团董事会主席史蒂凡·哈通博士表示仍对中期目标坚定不移,根据博世的2030战略,博世计划到 2030 年,实现至少 6%的年均销售额增长和至少 7%的利润率。
作者:史仲阳
评论 0
正在获取数据......