2022年底，ChatGPT上线。打开网页，一个空白的对话框。

一道墙塌了。

在此之前，AI是代码的领地。在此之后，AI能说人话了。

而说人话——是文科生的主场。

技术该面对的当然要面对，短板该补的还是要补。但主场不在这里。

主场在语言，在表达，在判断力——在那些代码算不出来、但人能感受到的东西。

这是一张地图。是文科生画给文科生的。

AI概念地图

回望过去：从代码到语言

AI不是突然涌现的。它走了七十多年，才从一个哲学问题，变成一个打开就能聊天的对话框。

在这条路上，每一次快要走不通的时候，都有人重新推开了一扇门。

图灵测试

机器能思考吗？

1950年，图灵没有直接回答这个问题。

他换了一种问法：如果一个人分不清跟自己对谈的是人还是机器，那么能不能说，这台机器在思考？他没有给出技术方案。他给出的是一个命题。

这是AI的起点：不是一段代码，是一个问题。

人工智能

使计算机执行通常需要人类智能才能完成的任务的科学。

1956年，达特茅斯会议正式确立了“人工智能”这门学科。

早期的方法很简单：写规则。人把知识编成一条条“如果……那么……”——如果图片里有胡须和尖耳朵，那么这是猫。机器只是忠实地执行人写的脚本。

世界太复杂了。永远有下一个例外等着人去补充新的规则。

这条路线走了二三十年，两次陷入低谷——史称“AI寒冬”。算力不够、数据不够、方法不够。人们对AI失望了两次，每次都觉得这条路走不通了。

但每次低温之后，又有人重新点燃了火。

机器学习

计算机从数据中自动学习规律、无须显式编程的算法体系。

这是一次翻转。

不再告诉机器猫长什么样。给它看一万张猫的照片，让它自己总结。不再写“如果……那么……”，而是喂数据、跑算法、得规律。

从“人教机器”到“机器自己学”——这个转变，是AI从代码的领地向外迈出的第一步。

机器学习有三种主要类型。监督学习：给数据，也给标签——一万张照片，每张标注”猫”或”不是猫”，模型学会分类。无监督学习：给数据，不给标签，模型自己发现数据里的分组和结构。强化学习：不给数据，给规则——告诉AI”赢了加一分，输了扣一分”，让它反复尝试，自己摸索出最优策略。

深度学习

使用深层神经网络学习数据层次化表征的机器学习方法。

如果说机器学习是”从数据中找规律”，深度学习就是”用更复杂的结构找更深的规律”。三者不是并列关系：深度学习是机器学习的一种方法，机器学习是AI的一个子集。

2006年，辛顿解决了神经网络的训练难题。2012年，AlexNet在图像识别竞赛中碾压传统方法。从此深度学习成为主流。

人脸识别、语音识别、机器翻译——这些以前做不好的事，深度学习做到了。自然语言处理这个原本靠规则和统计的领域，也被深度学习彻底革新了。

此时，AI越来越强。但它仍然是一堆代码——需要程序员来调用，它的输出是数字、分类、概率，不是人能直接看懂的东西。

Transformer

基于自注意力机制、并行处理序列中所有位置关系的神经网络架构。

2017年，Google研究团队发表了一篇叫《Attention Is All You Need》的论文，提出了一种新的架构——Transformer。

以前的AI读句子，一个字一个字顺着来。Transformer不一样——它可以一眼看完整个句子，同时理解每个词跟所有其他词的关系。

“他踢了它一脚，因为它挡路”——Transformer能瞬间锁定“它”指的是谁。

这个能力叫“注意力机制”。它是一切现代大语言模型的地基。没有Transformer，就没有后来的ChatGPT。

到这里，AI还是程序员的AI。

接下来，它开始说话了。

生成式人工智能

学习数据分布、生成新内容（文本、图像、音频等）的AI系统。

Transformer之后，研究者发现了一件惊人的事：把模型做得足够大、喂进去足够多的数据，它会涌现出超出预期的能力。

不仅能分类、判断，还能生成。

给它一个开头，它续写一篇文章。给它一句描述，它画出一张图。给它一段文字，它生成一段视频。

生成文本的主力是大语言模型。生成图像的主力是扩散模型——给它一段文字描述，它从随机噪声开始，一步步”降噪”，最终浮现出清晰的画面。两种模型各司其职，共同撑起了”生成式AI”这个名称。

AI从”分析工具”变成了”创作工具”。

2020年，GPT-3展示了这种能力。2000多亿参数的大模型，能写诗、写代码、做摘要——虽然还不够精准，但已经让人看到了可能性。

然后是2022年底。

OpenAI把生成式人工智能装进了一个对话框，叫它ChatGPT。

不需要安装。不需要写代码。不需要理解任何技术概念。打开网页，打字，回车。然后AI说人话了。

七十多年的技术积累——从图灵的哲学问题，到机器学习的范式翻转，到深度学习的神经网络，到Transformer的注意力机制——所有这一切，被封装进了一个所有人都能用的界面。

墙塌了。

AI从代码的领地，走入了语言的领地。

聚焦眼前：从碎片到框架

回望过去，看到了AI怎么从代码的领地走向语言的领地。现在，站在这里。

打开一个AI对话框——ChatGPT、DeepSeek，都一样。空空荡荡，等着一行字。

跟AI说话的这一刻，真正需要知道的东西并不多。下面这些概念，按接触的顺序排开，都是打开AI之后绕不开的东西。

明白与谁对话

大语言模型（LLM）

基于大规模文本数据训练、具备语言理解与生成能力的深度学习模型。

大语言模型的本质是什么？下一词预测机。

给它上文，它猜下一个最可能的词。猜完一个再猜下一个，一个个词接下去，就接出了一段话。它不是搜索引擎——搜索是从已有的信息里翻东西。它是推理引擎——根据上文，生成最可能的下文。

可以把它想象成一个读过全世界所有书、但从没出过门的人。知识广博，但没有亲身体验。跟它说“夕阳很美”，它能写出八百字的文章，但它不知道夕阳照在脸上的温度是多少。

参数

模型内部可调节的数值变量，决定模型的容量与复杂度。

7B（70亿参数）：像高中生，够用，但复杂问题吃力
70B：像博士生，深度和广度都上了一个台阶
200B+：像领域专家

B是billion，十亿。但参数不是一切，同一量级的模型各有各的”性格”。

多模态

能够同时处理文本、图像、音频等多种数据类型的AI系统。

模态就是数据的类型——文字、图片、音频、视频。以前AI只能读文字。现在拿一张老照片给它，它能读出年代、场景和情绪。放一段会议录音给它，它能整理出逐字稿和要点。

如何让它理解

Token

AI阅读的最小单位。不是按字读的，是按碎片读的。

中文大约100 token ≈ 60~70个汉字。“我喜欢你”三个字，可能是3个token。一篇600字的文章，大约1000 token。

Token为什么重要？三点：它是计费单位，API按token收费。它是上下文窗口的度量单位。它解释了为什么AI写着写着会断片——token用完了。

上下文窗口

模型单次处理所能接收的最大token数量。

主流模型现在128K~1M token。128K意味着一次能处理大约一本中等厚度的书。

但这是短期记忆。聊天聊久了，前面说的内容会被“挤出去”。不是AI不尊重人，是它的记忆容量有限。就像一个记性有限的朋友——聊到第三个小时，不记得第一小时说了什么。

上下文工程（Context Engineering）

通过设计输入的结构与顺序，在有限token窗口内最大化输出质量的方法。

知道AI有多少记忆空间只是第一步。第二步是管理这个空间——什么时候塞进去新信息，什么旧信息可以忘记，怎么组织材料让AI在有限记忆里做出最好的判断。

这是下一层功夫。不是一次对话的事，是设计对话结构的事。

引导它来回答

提示词（Prompt）

用户向模型输入的指令与描述，明确任务需求、输出格式和风格要求。

说“写一篇关于春天的文章”，AI给的是一篇泛泛的散文。说“用鲁迅的风格，写一篇800字的文章，关于春天的北京，要有一点苍凉感”——输出完全不同。差异不在AI，在描述。

这是文科生最应该打磨的东西。

系统提示词（System Prompt）

对话开始前设定的持久化指令，定义模型的角色、行为边界与输出风格。

对话框里看不到这一层，但用Agent的时候会经常设置。相当于雇一个助手，先跟他说：“你是一个严谨的学术编辑。回答要简洁，不用表情符号，不确定的地方要明确标注。”

提示词工程（Prompt Engineering）

系统性地设计、测试和优化提示词以获得高质量输出的方法论。

同样是让AI总结一篇文章。普通人说“帮我总结一下”。懂提示词工程的人说：“用三百字以内，分三点，每点不超过两句话，用高中生能懂的语言。”

差距不在AI，在描述。

打磨一个提示词，和设计一整套提示词的配合——是两件事。前者靠语感，后者靠体系。后面展开。

温度

控制模型输出随机性的参数。值越低输出越确定，越高越具多样性。

温度高（0.8~1.0）：天马行空，每次回答可能不一样。适合写诗、脑暴、创意。
温度低（0~0.3）：一板一眼，输出稳定可预测。适合写合同、翻译、事实性问答。

为什么同样的提示词问两次，答案不一样？因为温度调高了。

Top-k / Top-p

控制生成时候选词采样范围的参数。Top-k限制候选数量，Top-p限制累积概率阈值。

温度决定“要不要冒险”。Top-k和Top-p决定“冒险的范围有多大”。

Top-k=1：AI永远选概率最高的下一个词。这叫“贪婪解码”——最稳，也最无趣。
Top-p=0.9：AI从累计概率达到90%的词里随机选。保留一定的多样性。

日常使用不用管这两个参数，但理解它们的存在，就不会对AI的“随机性”感到困惑。

了解它的短板

幻觉

AI会自信满满地说出错误信息——编造事实、捏造数据、引用不存在的论文。

这看起来像说谎。但它不是。

它根本不知道“真”和“假”的区别。它只是在猜下一个最可能的词。有时候猜错了，而且错的答案恰好看起来非常合理——这就是幻觉。

重要的事实，自己核实。就这么简单。

知识截止日期

AI的知识来自训练数据，有截止日期。截止之后发生的事，不是不想答，是真的不知道。

截止日期之后发生了什么？需要联网搜索，或者给它提供材料——这种让AI先查资料再回答的技术，有个名字叫RAG，检索增强生成。

对齐

使模型行为与人类意图、价值观和安全要求保持一致的技术过程。

为什么有些问题AI拒绝回答？为什么它不会帮忙写钓鱼邮件？因为被“对齐”过了。对齐不是限制自由，是画边界——这个边界画在哪里，各个模型不一样。同一个敏感话题，GPT直接拒绝，Claude可能给一篇冷静的分析。不是谁更聪明，是谁的边界线划在了不同位置。

展望未来：从对话到协作

回望是七十年。眼前是打开的对话框。再往前——不是对话了。

是协作。

这不是预言，是方向。每一条，都在地基之上看得见轮廓。

工具调用

使模型能够调用外部工具（搜索、API、文件系统等）以扩展能力边界的机制。

现在的AI对话框，像一个只会说话的脑袋。工具调用给这个脑袋装上了手。

给它一个网址，它能读取内容。给它一份PDF，它能提取关键信息。给它一个任务——“帮我查一下明天成都的天气，写进日程备注”——它能自己打开天气网站、查数据、写备注。

AI从“回答问题”变成了“动手做事”。

工作流搭建

将多个AI任务按依赖关系串联为自动化执行序列的方法。

一个任务往往不只一步。写一篇文章，要查资料、列大纲、写初稿、改文字、排版。

工作流就是把这一连串动作串起来——触发A → A的输出喂给B → B的输出喂给C。人负责设计流程，AI负责执行。

像一条流水线。人站在这头，完成品从那头出来。

智能体（Agent）

具备自主感知、规划与执行能力，可独立完成多步骤任务的AI系统。

工具调用和工作流组合在一起，就是智能体的雏形。给它一个目标——“每周整理本周AI领域的重要新闻，写成简报发给我”——它能自己判断去哪搜、搜什么、怎么组织、什么时候发。

不再等指令。它自己跑。

驾驭工程（Harness Engineering）

设计与实施约束机制，确保AI系统在人类可控范围内运行的方法体系。

AI越自主，越需要控制。

驾驭工程研究的是——怎么设边界，怎么写规则，怎么让AI在人类可控的范围内发挥最大能力。像骑马：不是把马拴住不动，是握着缰绳，让它跑得又快又稳。

这是学会用AI之后，最重要的进阶能力。

多智能体协作（Multi-Agent）

多个AI智能体分工协作、协同完成复杂任务的系统架构。

查资料的智能体、写初稿的智能体、审校的智能体——分工合作，各司其职。每个智能体只做自己擅长的那部分，单独执行可能顾此失彼，一个团队可以并行推进。

像一个AI编辑部。

这是一条递进线：从对话到动手，从单步到多步，从执行到自主，从放养到控制，从单兵到团队。每一步都是能力的跃迁——也需要对应的驾驭能力。

路很长。一步一步来。

AI学习路线

基础概念——看清来路与眼前，搭建认知地基 ↓ 提示词工程——学会精准描述，让AI输出想要的 ↓ 上下文工程——管理AI的记忆空间，设计对话结构 ↓ 工具调用——让AI不再只是聊天，能搜索、读文件、操作软件 ↓ 工作流搭建——把多个步骤串成自动化流水线 ↓ 智能体设计——创建有性格、有规则、能自主行动的AI ↓ 缰绳工程——控制AI不跑偏、不说错、不越界 ↓ 多智能体协作——指挥多个AI分工合作

AI时代，懂代码当然加分，但不是必须。必须的是知道要什么、能说清楚、会判断好坏。补上短板很好，但主场在语言。

代码的领地没有消失，但它不再是入场券。语言的领域正在打开，而这是文科生本来的领地。

这篇文章是”文科生学AI”系列的第一篇。接下来，从提示词工程开始，一步一步往前走。

如果这篇文章对你有帮助，欢迎转发给需要的朋友。

如果你对AI感兴趣，欢迎一起交流学习。

AI概念地图#

回望过去：从代码到语言#

聚焦眼前：从碎片到框架#

明白与谁对话#

如何让它理解#

引导它来回答#

了解它的短板#

展望未来：从对话到协作#

AI学习路线#