带着AI冲屎坑

今天上午，我用一件颇有科技感的事情，重新犯了一个一年前就犯过的错误。

背景是这样的：我最近两天折腾着在本地安装了Claude Code，然后注册了智谱AI开放平台新用户，薅到了1200万GLM-4.5-Air资源包，有一种神兵在手的豪迈和拔剑四顾的茫然。

我就想尝试着做一件一直搁置的事——我硬盘里躺着一个5.57G的“天涯神帖”文件夹，206篇文章，从没动过。恰好本地已经部署了Claude Code，就想让它帮我把这些文章梳理一遍：先把故事类文档单独归置，然后对剩下的观点类文章进行分类和质量评估，最后整理成一张表格——哪些值得读，一目了然。

这个想法，出发点是好的。

然而1200万tokens花完了，却没有达到预期。模型对文章的质量评估，说起来头头是道，实际上只是草草过了一遍，并没有真正把握每篇文章的核心；被筛选出来的“高价值文章”，内容提炼又过于潦草，没什么实际用处。我盯着那张表格看了一会儿，心里一沉。

1200万tokens，水花都没打出来一个。

问题还在技术外

我开始复盘。

第一个问题比较技术：我没有引入工作流思维，一上来就让大语言模型进行通篇阅读和复杂推理；而且我对工具本身还不熟练，token消耗机制、上下文管理方式，都没有想清楚就直接开干，白白烧掉了大量资源。这是可以改的，下一步认真研究一下本地知识库的构建与向量化检索，让大模型在本地文件上跑得更高效。

有路径，能改进。

但技术问题之外，还有一个更根本的问题。

去年，我写过一篇[[2025-01-22 不要在屎里掏金]]，起因是从网上下载了一个“知乎盐选3000篇”的文件夹，折腾了半天，最后直接删掉了。结论很简单：质量不够高的信息源，不值得花时间。

今天这件事，本质上是同一个问题，只不过穿上了一件AI的外衣。

天涯神帖的206篇文章，一半是故事、情绪化内容，甚至还有标题党；剩下的一部分，纵然曾有观点，时效上也早已过期——十年前写的对房价的预判，如今对与错都已经没有意义了。拿这样的原材料去跑模型，再精妙的提示词、再多的token，也不过是把平庸处理得更整齐一些。

垃圾进，垃圾出（GIGO），是IT领域的老话了。我还是走进去了。

我想起达利欧在《原则》里提到过一个概念：“可信”的人。

可信者的特征是，能不断成功地实现一些成就，而且能就如何做到这一点提供很好的解释。

在这个信息爆炸的时代，这对如何找到高价值的信息很有参考价值。

接受任何信息前，首先要判断的是传递信息的这个人（或组织），到底值不值得信。他是真诚地在分享认知，还是在抓眼球、收割流量？他在这个领域有没有真正付出过代价？

这个标准，不只适用于人，同样适用于信息源本身。天涯神帖，作为一个时代的产物，已经成为了一个历史文本，而不是一个高密度、高信噪比的信息源。我想在里面找到有价值的东西，愿望是好的，但这个愿望，已经预设了一个前提：这里面有金。

或许有。但代价，不值得。

AI是一个效率放大器——它可以让人更快地处理信息，更快地归纳提炼，也可以更快地把时间和计算资源浪费在一个错误的方向上。

在过去，在垃圾信息里淘金，浪费的只是自己的几个小时；现在用AI淘金，浪费时间的同时，还能浪费掉庞大的算力和1200万tokens。AI把犯错的规模和速度都放大了。

工具越强大，方向选择就越重要。这是这次折腾之后，我觉得最值得记下来的一句话。

去年的结论是：不要在屎里掏金。

今天的补充是：带上AI也不行。