AI行业发展历史沿革与前沿情况

浩然学长说：作为一枚从大二就开始折腾深度学习的老狗，我真的见过太多同学被AI的发展速度搞得焦虑到头秃。这节课我不整虚的，直接从技术底层给大家捋一捋——AI到底是怎么一步步走到今天的，以及现在最前沿的技术栈是什么。如果你是个理工科同学，这节课可能是你整个大学期间听过最硬核的技术分享。

先泼一盆冷水：别无脑冲AI专业

说实话，每次看到高考志愿填报季家长们挤破头要让孩子报”人工智能”专业，我就着急。

为什么？因为AI专业学的东西，基本都是十年前的老黄历了——神经网络、深度学习基础，这些都是2015年之前的技术。而真正改变世界的大模型（GPT、Claude、Gemini这些），靠的是Transformer架构、RLHF、海量算力，这些东西本科课程里基本不教。

更残酷的现实是：国内真正有能力训练基座大模型的公司，掰手指头数都不超过10家。字节、阿里、百度、腾讯、华为，再加上DeepSeek这种新锐——岗位少得可怜，而且清一色要博士。

所以我的建议是：选一个你真正喜欢的专业，然后做”AI+“的应用。AI的真正金矿在上层应用层，不是基座层。基座模型训练完了，这方面人才需求反而会萎缩，但上层应用的人才缺口会持续爆发。

2024-2026：AI军备竞赛白热化阶段

说回正题。如果把AI发展比作一场游戏，那2024年到现在的版本更新速度，简直是开了加速器。

OpenAI的连续出击

2024年2月，Sora炸场——视频生成模型，直接让影视行业抖三抖。你输入”一个毛绒玩具在冰面上跳舞”，它给你生成一段电影级镜头。什么光影、景深、物理逻辑，一应俱全。

紧接着5月，GPT-4o登场——多模态、极速响应，成本降低，直接把行业标准又拉高了一档。

9月的GPT-o1才是真正的王炸——思维链强化版，推理能力直接拉满。我当时测试了一道IMO竞赛题，o1的解法比大多数本科生写的都漂亮。

然后是GPT-o3，推理+搜索+记忆三合一，简直是模型能力的全面进化。

谷歌的反击

谷歌这边也没闲着：Gemini 1.5 Pro、Gemini 1.5 Flash，然后是2025年3月的Gemini 2.5 Pro——官方宣称”谷歌史上最聪明的AI”，具备”思维模型”架构，对标GPT-o1/o3。

说实话，Gemini的多模态能力是真的强，特别是长上下文处理，200万token的上下文窗口，学术论文、法律文档直接往里怼。

DeepSeek：国产力量的逆袭

最让我惊喜的是DeepSeek。

2024年中，DeepSeek-V2发布，核心创新是MoE架构（混合专家模型）——不是让整个模型都参与计算，而是让”专家”模块按需激活。这就像一个团队，有人负责翻译，有人负责数学，有人负责代码，需要什么能力就调用什么模块。

结果就是：训练成本骤降，性能却不输GPT-4。

而DeepSeek-R1才是真正引爆行业的产品。它证明了——用强化学习（RL）就能让模型能力自动涌现，不需要大量人工标注数据。

这意味着什么？意味着以后训练大模型，不再需要堆人海战术标注数据了，小团队也有机会搞出顶级模型。

技术解读： 传统方式是监督学习（SFT），相当于把题目和答案都喂给你，让你死记硬背。而DeepSeek的RL路线是——让你先做题，打分，然后自己摸索怎么得高分，反复迭代。模型自己”顿悟”出来的能力，往往比硬灌的更强泛化。

阿里通义的进化

阿里通义这两年也是真的拼了。

通义千问刚出来的时候，说实话，体验一般。但经过两年多的迭代，现在已经相当能打。特别是多模态能力——视觉、语言、语音，一个平台全搞定。

而且阿里走的是平台化路线——开放API、工具链，方便企业接入。这套打法跟阿里云的经验强相关，他知道怎么把AI能力变成”别人可以拿来赚钱的东西”。

字节豆包：接地气路线

豆包走的是另一条路——轻量、便宜、响应快。

不跟你讲参数，不堆配置，就是把用户体验打磨到极致。很多中小企业用它做客服、文案生成，成本低、门槛低、适配快。

字节的优势是内容生态强，他知道什么样的表达用户爱看，什么样的句式更吸引人。所以在”懂人、会说话”这块，豆包做得相当细腻。

技术流派三分天下

如果把AI江湖比作武侠门派，现在大致可以分成三派：

闭源派（代表：OpenAI）

技术护城河，模型捏在手里不开源。GPT系列一路迭代，ChatGPT横空出世，直接把AI推向全球数亿用户。

开源派（代表：Meta LLaMA）

开源、开源、再开源。LLaMA 2直接允许商用，全球开发者嗨翻，各种魔改版本层出不穷。Meta的策略是用开源”以退为进”，靠社区力量对抗闭源巨头。

多模态融合派（代表：谷歌Gemini、阿里通义）

图文音视频一体化，什么都要、什么都会。不追求单一能力的极致，而是追求全方位的覆盖。

里程碑事件回顾

2017年：Transformer横空出世

谷歌发表那篇”Attention is All You Need”，提出了Transformer架构——这相当于AI领域的”内燃机发明”。之后所有的GPT、BERT、Gemini，都是在这个架构上长出来的。

2020年：GPT-3震撼登场

1750亿参数，让全世界第一次真切感受到大模型的潜力。虽然还有各种问题，但已经证明：大模型这条路走得通。

2022年：ChatGPT引爆全民AI时代

基于GPT-3.5，加了对话系统、记忆机制、人类反馈微调。AI不再只是能写字，还能”对话”、理解问题。这是大模型第一次真正进入大众生活。

2023-2024年：百模大战

百度文心、阿里通义、字节豆包、DeepSeek、智谱GLM、MiniMax、月之暗面…国内大模型如雨后春笋。现在你打开任何一个AI导航站，工具多到你根本用不过来。

为什么是OpenAI而不是谷歌？

这是个值得深思的问题。

谷歌有Transformer的”配方”，有DeepMind、Google Brain两支顶尖团队，有全球最强的算力资源——但做出”核弹”并扔出去震撼世界的，是OpenAI。

原因很现实：谷歌太稳了，太保守了。

谷歌不是没能力，是不敢赌，它的商业模式依赖搜索广告，如果AI直接给答案，谁还点搜索结果页的广告？这可是谷歌的命脉。

而OpenAI当时还是个初创团队，资源不如谷歌，但它选择了一条不同的路——直接做成产品，推给大众。不收费，开放注册，让全球数亿人第一次亲手感受到AI的力量。

这就是勇敢尝试、不怕失败的创业精神。有时候，成功就是在关键时刻做出果断的选择。

浩然学长的技术观察

作为一个写了五年Python、跑了三年模型的程序员，我有几点观察：

1. 2026年是AI应用爆发年

基座模型的竞争基本尘埃落定了，接下来是应用层的战争。谁能把AI能力落地到具体场景，谁就能赢。

2. 多模态是标配

纯文字模型已经不够看了。能看图、能听声音、能生成视频的模型，才是未来的主流。

3. 推理能力决定上限

o1、o3、R1这些推理模型证明了——让模型”慢一点、想清楚”，效果远比”快但胡说八道”好得多。

4. 强化学习可能是下一个王炸

DeepSeek已经证明了RL的潜力，接下来会有更多团队跟进这条路线。

给想学AI的同学们

如果你真的想进入AI行业，我的建议是：

打好数学基础：线性代数、概率论、优化理论，这些才是AI的底层逻辑
多动手实践：去Kaggle打个比赛，去GitHub提个PR，比你刷多少网课都管用
选一个方向深耕：NLP、CV、Speech、Agent…不要什么都学，什么都不精
关注开源社区：Hugging Face、GitHub、arXiv，这些才是AI技术的最前沿

浪尖大学四年知识库

探索

1000「高价值」AI行业发展历史沿革与前沿情况_【浩然学长】