文科生学AI:概念地图和学习路线

2022年底,ChatGPT上线。打开网页,一个空白的对话框。 一道墙塌了。 在此之前,AI是代码的领地。在此之后,AI能说人话了。 而说人话——是文科生的主场。 技术该面对的当然要面对,短板该补的还是要补。但主场不在这里。 主场在语言,在表达,在判断力——在那些代码算不出来、但人能感受到的东西。 这是一张地图。是文科生画给文科生的。 AI概念地图 回望过去:从代码到语言 AI不是突然涌现的。它走了七十多年,才从一个哲学问题,变成一个打开就能聊天的对话框。 在这条路上,每一次快要走不通的时候,都有人重新推开了一扇门。 图灵测试 机器能思考吗? 1950年,图灵没有直接回答这个问题。 他换了一种问法:如果一个人分不清跟自己对谈的是人还是机器,那么能不能说,这台机器在思考?他没有给出技术方案。他给出的是一个命题。 这是AI的起点:不是一段代码,是一个问题。 人工智能 使计算机执行通常需要人类智能才能完成的任务的科学。 1956年,达特茅斯会议正式确立了“人工智能”这门学科。 早期的方法很简单:写规则。人把知识编成一条条“如果……那么……”——如果图片里有胡须和尖耳朵,那么这是猫。机器只是忠实地执行人写的脚本。 世界太复杂了。永远有下一个例外等着人去补充新的规则。 这条路线走了二三十年,两次陷入低谷——史称“AI寒冬”。算力不够、数据不够、方法不够。人们对AI失望了两次,每次都觉得这条路走不通了。 但每次低温之后,又有人重新点燃了火。 机器学习 计算机从数据中自动学习规律、无须显式编程的算法体系。 这是一次翻转。 不再告诉机器猫长什么样。给它看一万张猫的照片,让它自己总结。不再写“如果……那么……”,而是喂数据、跑算法、得规律。 从“人教机器”到“机器自己学”——这个转变,是AI从代码的领地向外迈出的第一步。 机器学习有三种主要类型。监督学习:给数据,也给标签——一万张照片,每张标注”猫”或”不是猫”,模型学会分类。无监督学习:给数据,不给标签,模型自己发现数据里的分组和结构。强化学习:不给数据,给规则——告诉AI”赢了加一分,输了扣一分”,让它反复尝试,自己摸索出最优策略。 深度学习 使用深层神经网络学习数据层次化表征的机器学习方法。 如果说机器学习是”从数据中找规律”,深度学习就是”用更复杂的结构找更深的规律”。三者不是并列关系:深度学习是机器学习的一种方法,机器学习是AI的一个子集。 2006年,辛顿解决了神经网络的训练难题。2012年,AlexNet在图像识别竞赛中碾压传统方法。从此深度学习成为主流。 人脸识别、语音识别、机器翻译——这些以前做不好的事,深度学习做到了。自然语言处理这个原本靠规则和统计的领域,也被深度学习彻底革新了。 此时,AI越来越强。但它仍然是一堆代码——需要程序员来调用,它的输出是数字、分类、概率,不是人能直接看懂的东西。 Transformer 基于自注意力机制、并行处理序列中所有位置关系的神经网络架构。 2017年,Google研究团队发表了一篇叫《Attention Is All You Need》的论文,提出了一种新的架构——Transformer。 以前的AI读句子,一个字一个字顺着来。Transformer不一样——它可以一眼看完整个句子,同时理解每个词跟所有其他词的关系。 “他踢了它一脚,因为它挡路”——Transformer能瞬间锁定“它”指的是谁。 这个能力叫“注意力机制”。它是一切现代大语言模型的地基。没有Transformer,就没有后来的ChatGPT。 到这里,AI还是程序员的AI。 接下来,它开始说话了。 生成式人工智能 学习数据分布、生成新内容(文本、图像、音频等)的AI系统。 Transformer之后,研究者发现了一件惊人的事:把模型做得足够大、喂进去足够多的数据,它会涌现出超出预期的能力。 不仅能分类、判断,还能生成。 给它一个开头,它续写一篇文章。给它一句描述,它画出一张图。给它一段文字,它生成一段视频。 生成文本的主力是大语言模型。生成图像的主力是扩散模型——给它一段文字描述,它从随机噪声开始,一步步”降噪”,最终浮现出清晰的画面。两种模型各司其职,共同撑起了”生成式AI”这个名称。 AI从”分析工具”变成了”创作工具”。 2020年,GPT-3展示了这种能力。2000多亿参数的大模型,能写诗、写代码、做摘要——虽然还不够精准,但已经让人看到了可能性。 然后是2022年底。 OpenAI把生成式人工智能装进了一个对话框,叫它ChatGPT。 不需要安装。不需要写代码。不需要理解任何技术概念。打开网页,打字,回车。然后AI说人话了。 七十多年的技术积累——从图灵的哲学问题,到机器学习的范式翻转,到深度学习的神经网络,到Transformer的注意力机制——所有这一切,被封装进了一个所有人都能用的界面。 墙塌了。 AI从代码的领地,走入了语言的领地。 聚焦眼前:从碎片到框架 回望过去,看到了AI怎么从代码的领地走向语言的领地。现在,站在这里。 打开一个AI对话框——ChatGPT、DeepSeek,都一样。空空荡荡,等着一行字。 跟AI说话的这一刻,真正需要知道的东西并不多。下面这些概念,按接触的顺序排开,都是打开AI之后绕不开的东西。 明白与谁对话 大语言模型(LLM) 基于大规模文本数据训练、具备语言理解与生成能力的深度学习模型。 大语言模型的本质是什么?下一词预测机。 给它上文,它猜下一个最可能的词。猜完一个再猜下一个,一个个词接下去,就接出了一段话。它不是搜索引擎——搜索是从已有的信息里翻东西。它是推理引擎——根据上文,生成最可能的下文。 ...

2026年6月1日 · 1 分钟 · 饼哥