文科生 | 饼哥

2022年底，ChatGPT上线。打开网页，一个空白的对话框。一道墙塌了。在此之前，AI是代码的领地。在此之后，AI能说人话了。而说人话——是文科生的主场。技术该面对的当然要面对，短板该补的还是要补。但主场不在这里。主场在语言，在表达，在判断力——在那些代码算不出来、但人能感受到的东西。这是一张地图。是文科生画给文科生的。 AI概念地图回望过去：从代码到语言 AI不是突然涌现的。它走了七十多年，才从一个哲学问题，变成一个打开就能聊天的对话框。在这条路上，每一次快要走不通的时候，都有人重新推开了一扇门。图灵测试机器能思考吗？ 1950年，图灵没有直接回答这个问题。他换了一种问法：如果一个人分不清跟自己对谈的是人还是机器，那么能不能说，这台机器在思考？他没有给出技术方案。他给出的是一个命题。这是AI的起点：不是一段代码，是一个问题。人工智能使计算机执行通常需要人类智能才能完成的任务的科学。 1956年，达特茅斯会议正式确立了“人工智能”这门学科。早期的方法很简单：写规则。人把知识编成一条条“如果……那么……”——如果图片里有胡须和尖耳朵，那么这是猫。机器只是忠实地执行人写的脚本。世界太复杂了。永远有下一个例外等着人去补充新的规则。这条路线走了二三十年，两次陷入低谷——史称“AI寒冬”。算力不够、数据不够、方法不够。人们对AI失望了两次，每次都觉得这条路走不通了。但每次低温之后，又有人重新点燃了火。机器学习计算机从数据中自动学习规律、无须显式编程的算法体系。这是一次翻转。不再告诉机器猫长什么样。给它看一万张猫的照片，让它自己总结。不再写“如果……那么……”，而是喂数据、跑算法、得规律。从“人教机器”到“机器自己学”——这个转变，是AI从代码的领地向外迈出的第一步。机器学习有三种主要类型。监督学习：给数据，也给标签——一万张照片，每张标注”猫”或”不是猫”，模型学会分类。无监督学习：给数据，不给标签，模型自己发现数据里的分组和结构。强化学习：不给数据，给规则——告诉AI”赢了加一分，输了扣一分”，让它反复尝试，自己摸索出最优策略。深度学习使用深层神经网络学习数据层次化表征的机器学习方法。如果说机器学习是”从数据中找规律”，深度学习就是”用更复杂的结构找更深的规律”。三者不是并列关系：深度学习是机器学习的一种方法，机器学习是AI的一个子集。 2006年，辛顿解决了神经网络的训练难题。2012年，AlexNet在图像识别竞赛中碾压传统方法。从此深度学习成为主流。人脸识别、语音识别、机器翻译——这些以前做不好的事，深度学习做到了。自然语言处理这个原本靠规则和统计的领域，也被深度学习彻底革新了。此时，AI越来越强。但它仍然是一堆代码——需要程序员来调用，它的输出是数字、分类、概率，不是人能直接看懂的东西。 Transformer 基于自注意力机制、并行处理序列中所有位置关系的神经网络架构。 2017年，Google研究团队发表了一篇叫《Attention Is All You Need》的论文，提出了一种新的架构——Transformer。以前的AI读句子，一个字一个字顺着来。Transformer不一样——它可以一眼看完整个句子，同时理解每个词跟所有其他词的关系。 “他踢了它一脚，因为它挡路”——Transformer能瞬间锁定“它”指的是谁。这个能力叫“注意力机制”。它是一切现代大语言模型的地基。没有Transformer，就没有后来的ChatGPT。到这里，AI还是程序员的AI。接下来，它开始说话了。生成式人工智能学习数据分布、生成新内容（文本、图像、音频等）的AI系统。 Transformer之后，研究者发现了一件惊人的事：把模型做得足够大、喂进去足够多的数据，它会涌现出超出预期的能力。不仅能分类、判断，还能生成。给它一个开头，它续写一篇文章。给它一句描述，它画出一张图。给它一段文字，它生成一段视频。生成文本的主力是大语言模型。生成图像的主力是扩散模型——给它一段文字描述，它从随机噪声开始，一步步”降噪”，最终浮现出清晰的画面。两种模型各司其职，共同撑起了”生成式AI”这个名称。 AI从”分析工具”变成了”创作工具”。 2020年，GPT-3展示了这种能力。2000多亿参数的大模型，能写诗、写代码、做摘要——虽然还不够精准，但已经让人看到了可能性。然后是2022年底。 OpenAI把生成式人工智能装进了一个对话框，叫它ChatGPT。不需要安装。不需要写代码。不需要理解任何技术概念。打开网页，打字，回车。然后AI说人话了。七十多年的技术积累——从图灵的哲学问题，到机器学习的范式翻转，到深度学习的神经网络，到Transformer的注意力机制——所有这一切，被封装进了一个所有人都能用的界面。墙塌了。 AI从代码的领地，走入了语言的领地。聚焦眼前：从碎片到框架回望过去，看到了AI怎么从代码的领地走向语言的领地。现在，站在这里。打开一个AI对话框——ChatGPT、DeepSeek，都一样。空空荡荡，等着一行字。跟AI说话的这一刻，真正需要知道的东西并不多。下面这些概念，按接触的顺序排开，都是打开AI之后绕不开的东西。明白与谁对话大语言模型（LLM）基于大规模文本数据训练、具备语言理解与生成能力的深度学习模型。大语言模型的本质是什么？下一词预测机。给它上文，它猜下一个最可能的词。猜完一个再猜下一个，一个个词接下去，就接出了一段话。它不是搜索引擎——搜索是从已有的信息里翻东西。它是推理引擎——根据上文，生成最可能的下文。 ...