2022年底,ChatGPT上线。打开网页,一个空白的对话框。

一道墙塌了。

在此之前,AI是代码的领地。在此之后,AI能说人话了。

而说人话——是文科生的主场。

技术该面对的当然要面对,短板该补的还是要补。但主场不在这里。

主场在语言,在表达,在判断力——在那些代码算不出来、但人能感受到的东西。

这是一张地图。是文科生画给文科生的。

AI概念地图

回望过去:从代码到语言

AI不是突然涌现的。它走了七十多年,才从一个哲学问题,变成一个打开就能聊天的对话框。

在这条路上,每一次快要走不通的时候,都有人重新推开了一扇门。


图灵测试

机器能思考吗?

1950年,图灵没有直接回答这个问题。

他换了一种问法:如果一个人分不清跟自己对谈的是人还是机器,那么能不能说,这台机器在思考?他没有给出技术方案。他给出的是一个命题。

这是AI的起点:不是一段代码,是一个问题。


人工智能

使计算机执行通常需要人类智能才能完成的任务的科学。

1956年,达特茅斯会议正式确立了“人工智能”这门学科。

早期的方法很简单:写规则。人把知识编成一条条“如果……那么……”——如果图片里有胡须和尖耳朵,那么这是猫。机器只是忠实地执行人写的脚本。

世界太复杂了。永远有下一个例外等着人去补充新的规则。

这条路线走了二三十年,两次陷入低谷——史称“AI寒冬”。算力不够、数据不够、方法不够。人们对AI失望了两次,每次都觉得这条路走不通了。

但每次低温之后,又有人重新点燃了火。


机器学习

计算机从数据中自动学习规律、无须显式编程的算法体系。

这是一次翻转。

不再告诉机器猫长什么样。给它看一万张猫的照片,让它自己总结。不再写“如果……那么……”,而是喂数据、跑算法、得规律。

从“人教机器”到“机器自己学”——这个转变,是AI从代码的领地向外迈出的第一步。

机器学习有三种主要类型。监督学习:给数据,也给标签——一万张照片,每张标注”猫”或”不是猫”,模型学会分类。无监督学习:给数据,不给标签,模型自己发现数据里的分组和结构。强化学习:不给数据,给规则——告诉AI”赢了加一分,输了扣一分”,让它反复尝试,自己摸索出最优策略。


深度学习

使用深层神经网络学习数据层次化表征的机器学习方法。

如果说机器学习是”从数据中找规律”,深度学习就是”用更复杂的结构找更深的规律”。三者不是并列关系:深度学习是机器学习的一种方法,机器学习是AI的一个子集。

2006年,辛顿解决了神经网络的训练难题。2012年,AlexNet在图像识别竞赛中碾压传统方法。从此深度学习成为主流。

人脸识别、语音识别、机器翻译——这些以前做不好的事,深度学习做到了。自然语言处理这个原本靠规则和统计的领域,也被深度学习彻底革新了。

此时,AI越来越强。但它仍然是一堆代码——需要程序员来调用,它的输出是数字、分类、概率,不是人能直接看懂的东西。


Transformer

基于自注意力机制、并行处理序列中所有位置关系的神经网络架构。

2017年,Google研究团队发表了一篇叫《Attention Is All You Need》的论文,提出了一种新的架构——Transformer。

以前的AI读句子,一个字一个字顺着来。Transformer不一样——它可以一眼看完整个句子,同时理解每个词跟所有其他词的关系。

“他踢了它一脚,因为它挡路”——Transformer能瞬间锁定“它”指的是谁。

这个能力叫“注意力机制”。它是一切现代大语言模型的地基。没有Transformer,就没有后来的ChatGPT。


到这里,AI还是程序员的AI。

接下来,它开始说话了。


生成式人工智能

学习数据分布、生成新内容(文本、图像、音频等)的AI系统。

Transformer之后,研究者发现了一件惊人的事:把模型做得足够大、喂进去足够多的数据,它会涌现出超出预期的能力。

不仅能分类、判断,还能生成

给它一个开头,它续写一篇文章。给它一句描述,它画出一张图。给它一段文字,它生成一段视频。

生成文本的主力是大语言模型。生成图像的主力是扩散模型——给它一段文字描述,它从随机噪声开始,一步步”降噪”,最终浮现出清晰的画面。两种模型各司其职,共同撑起了”生成式AI”这个名称。

AI从”分析工具”变成了”创作工具”。

2020年,GPT-3展示了这种能力。2000多亿参数的大模型,能写诗、写代码、做摘要——虽然还不够精准,但已经让人看到了可能性。

然后是2022年底。

OpenAI把生成式人工智能装进了一个对话框,叫它ChatGPT

不需要安装。不需要写代码。不需要理解任何技术概念。打开网页,打字,回车。然后AI说人话了。


七十多年的技术积累——从图灵的哲学问题,到机器学习的范式翻转,到深度学习的神经网络,到Transformer的注意力机制——所有这一切,被封装进了一个所有人都能用的界面。

墙塌了。

AI从代码的领地,走入了语言的领地。

聚焦眼前:从碎片到框架

回望过去,看到了AI怎么从代码的领地走向语言的领地。现在,站在这里。

打开一个AI对话框——ChatGPT、DeepSeek,都一样。空空荡荡,等着一行字。

跟AI说话的这一刻,真正需要知道的东西并不多。下面这些概念,按接触的顺序排开,都是打开AI之后绕不开的东西。


明白与谁对话

大语言模型(LLM)

基于大规模文本数据训练、具备语言理解与生成能力的深度学习模型。

大语言模型的本质是什么?下一词预测机。

给它上文,它猜下一个最可能的词。猜完一个再猜下一个,一个个词接下去,就接出了一段话。它不是搜索引擎——搜索是从已有的信息里翻东西。它是推理引擎——根据上文,生成最可能的下文。

可以把它想象成一个读过全世界所有书、但从没出过门的人。知识广博,但没有亲身体验。跟它说“夕阳很美”,它能写出八百字的文章,但它不知道夕阳照在脸上的温度是多少。


参数

模型内部可调节的数值变量,决定模型的容量与复杂度。

  • 7B(70亿参数):像高中生,够用,但复杂问题吃力
  • 70B:像博士生,深度和广度都上了一个台阶
  • 200B+:像领域专家

B是billion,十亿。但参数不是一切,同一量级的模型各有各的”性格”。


多模态

能够同时处理文本、图像、音频等多种数据类型的AI系统。

模态就是数据的类型——文字、图片、音频、视频。以前AI只能读文字。现在拿一张老照片给它,它能读出年代、场景和情绪。放一段会议录音给它,它能整理出逐字稿和要点。


如何让它理解

Token

AI阅读的最小单位。不是按字读的,是按碎片读的。

中文大约100 token ≈ 60~70个汉字。“我喜欢你”三个字,可能是3个token。一篇600字的文章,大约1000 token。

Token为什么重要?三点:它是计费单位,API按token收费。它是上下文窗口的度量单位。它解释了为什么AI写着写着会断片——token用完了。


上下文窗口

模型单次处理所能接收的最大token数量。

主流模型现在128K~1M token。128K意味着一次能处理大约一本中等厚度的书。

但这是短期记忆。聊天聊久了,前面说的内容会被“挤出去”。不是AI不尊重人,是它的记忆容量有限。就像一个记性有限的朋友——聊到第三个小时,不记得第一小时说了什么。


上下文工程(Context Engineering)

通过设计输入的结构与顺序,在有限token窗口内最大化输出质量的方法。

知道AI有多少记忆空间只是第一步。第二步是管理这个空间——什么时候塞进去新信息,什么旧信息可以忘记,怎么组织材料让AI在有限记忆里做出最好的判断。

这是下一层功夫。不是一次对话的事,是设计对话结构的事。


引导它来回答

提示词(Prompt)

用户向模型输入的指令与描述,明确任务需求、输出格式和风格要求。

说“写一篇关于春天的文章”,AI给的是一篇泛泛的散文。说“用鲁迅的风格,写一篇800字的文章,关于春天的北京,要有一点苍凉感”——输出完全不同。差异不在AI,在描述。

这是文科生最应该打磨的东西。


系统提示词(System Prompt)

对话开始前设定的持久化指令,定义模型的角色、行为边界与输出风格。

对话框里看不到这一层,但用Agent的时候会经常设置。相当于雇一个助手,先跟他说:“你是一个严谨的学术编辑。回答要简洁,不用表情符号,不确定的地方要明确标注。”


提示词工程(Prompt Engineering)

系统性地设计、测试和优化提示词以获得高质量输出的方法论。

同样是让AI总结一篇文章。普通人说“帮我总结一下”。懂提示词工程的人说:“用三百字以内,分三点,每点不超过两句话,用高中生能懂的语言。”

差距不在AI,在描述。

打磨一个提示词,和设计一整套提示词的配合——是两件事。前者靠语感,后者靠体系。后面展开。


温度

控制模型输出随机性的参数。值越低输出越确定,越高越具多样性。

  • 温度高(0.8~1.0):天马行空,每次回答可能不一样。适合写诗、脑暴、创意。
  • 温度低(0~0.3):一板一眼,输出稳定可预测。适合写合同、翻译、事实性问答。

为什么同样的提示词问两次,答案不一样?因为温度调高了。


Top-k / Top-p

控制生成时候选词采样范围的参数。Top-k限制候选数量,Top-p限制累积概率阈值。

温度决定“要不要冒险”。Top-k和Top-p决定“冒险的范围有多大”。

  • Top-k=1:AI永远选概率最高的下一个词。这叫“贪婪解码”——最稳,也最无趣。
  • Top-p=0.9:AI从累计概率达到90%的词里随机选。保留一定的多样性。

日常使用不用管这两个参数,但理解它们的存在,就不会对AI的“随机性”感到困惑。


了解它的短板

幻觉

AI会自信满满地说出错误信息——编造事实、捏造数据、引用不存在的论文。

这看起来像说谎。但它不是。

它根本不知道“真”和“假”的区别。它只是在猜下一个最可能的词。有时候猜错了,而且错的答案恰好看起来非常合理——这就是幻觉。

重要的事实,自己核实。就这么简单。


知识截止日期

AI的知识来自训练数据,有截止日期。截止之后发生的事,不是不想答,是真的不知道。

截止日期之后发生了什么?需要联网搜索,或者给它提供材料——这种让AI先查资料再回答的技术,有个名字叫RAG,检索增强生成。


对齐

使模型行为与人类意图、价值观和安全要求保持一致的技术过程。

为什么有些问题AI拒绝回答?为什么它不会帮忙写钓鱼邮件?因为被“对齐”过了。对齐不是限制自由,是画边界——这个边界画在哪里,各个模型不一样。同一个敏感话题,GPT直接拒绝,Claude可能给一篇冷静的分析。不是谁更聪明,是谁的边界线划在了不同位置。

展望未来:从对话到协作

回望是七十年。眼前是打开的对话框。再往前——不是对话了。

是协作。

这不是预言,是方向。每一条,都在地基之上看得见轮廓。


工具调用

使模型能够调用外部工具(搜索、API、文件系统等)以扩展能力边界的机制。

现在的AI对话框,像一个只会说话的脑袋。工具调用给这个脑袋装上了手。

给它一个网址,它能读取内容。给它一份PDF,它能提取关键信息。给它一个任务——“帮我查一下明天成都的天气,写进日程备注”——它能自己打开天气网站、查数据、写备注。

AI从“回答问题”变成了“动手做事”。


工作流搭建

将多个AI任务按依赖关系串联为自动化执行序列的方法。

一个任务往往不只一步。写一篇文章,要查资料、列大纲、写初稿、改文字、排版。

工作流就是把这一连串动作串起来——触发A → A的输出喂给B → B的输出喂给C。人负责设计流程,AI负责执行。

像一条流水线。人站在这头,完成品从那头出来。


智能体(Agent)

具备自主感知、规划与执行能力,可独立完成多步骤任务的AI系统。

工具调用和工作流组合在一起,就是智能体的雏形。给它一个目标——“每周整理本周AI领域的重要新闻,写成简报发给我”——它能自己判断去哪搜、搜什么、怎么组织、什么时候发。

不再等指令。它自己跑。


驾驭工程(Harness Engineering)

设计与实施约束机制,确保AI系统在人类可控范围内运行的方法体系。

AI越自主,越需要控制。

驾驭工程研究的是——怎么设边界,怎么写规则,怎么让AI在人类可控的范围内发挥最大能力。像骑马:不是把马拴住不动,是握着缰绳,让它跑得又快又稳。

这是学会用AI之后,最重要的进阶能力。


多智能体协作(Multi-Agent)

多个AI智能体分工协作、协同完成复杂任务的系统架构。

查资料的智能体、写初稿的智能体、审校的智能体——分工合作,各司其职。每个智能体只做自己擅长的那部分,单独执行可能顾此失彼,一个团队可以并行推进。

像一个AI编辑部。


这是一条递进线:从对话到动手,从单步到多步,从执行到自主,从放养到控制,从单兵到团队。每一步都是能力的跃迁——也需要对应的驾驭能力。

路很长。一步一步来。

AI学习路线

基础概念——看清来路与眼前,搭建认知地基 ↓ 提示词工程——学会精准描述,让AI输出想要的 ↓ 上下文工程——管理AI的记忆空间,设计对话结构 ↓ 工具调用——让AI不再只是聊天,能搜索、读文件、操作软件 ↓ 工作流搭建——把多个步骤串成自动化流水线 ↓ 智能体设计——创建有性格、有规则、能自主行动的AI ↓ 缰绳工程——控制AI不跑偏、不说错、不越界 ↓ 多智能体协作——指挥多个AI分工合作

AI时代,懂代码当然加分,但不是必须。必须的是知道要什么、能说清楚、会判断好坏。补上短板很好,但主场在语言。

代码的领地没有消失,但它不再是入场券。语言的领域正在打开,而这是文科生本来的领地。


这篇文章是”文科生学AI”系列的第一篇。接下来,从提示词工程开始,一步一步往前走。

如果这篇文章对你有帮助,欢迎转发给需要的朋友。

如果你对AI感兴趣,欢迎一起交流学习。