带着AI冲屎坑
今天上午,我用一件颇有科技感的事情,重新犯了一个一年前就犯过的错误。
背景是这样的:我最近两天折腾着在本地安装了Claude Code,然后注册了智谱AI开放平台新用户,薅到了1200万GLM-4.5-Air资源包,有一种神兵在手的豪迈和拔剑四顾的茫然。
我就想尝试着做一件一直搁置的事——我硬盘里躺着一个5.57G的“天涯神帖”文件夹,206篇文章,从没动过。恰好本地已经部署了Claude Code,就想让它帮我把这些文章梳理一遍:先把故事类文档单独归置,然后对剩下的观点类文章进行分类和质量评估,最后整理成一张表格——哪些值得读,一目了然。
这个想法,出发点是好的。
然而1200万tokens花完了,却没有达到预期。模型对文章的质量评估,说起来头头是道,实际上只是草草过了一遍,并没有真正把握每篇文章的核心;被筛选出来的“高价值文章”,内容提炼又过于潦草,没什么实际用处。我盯着那张表格看了一会儿,心里一沉。
1200万tokens,水花都没打出来一个。
问题还在技术外
我开始复盘。
第一个问题比较技术:我没有引入工作流思维,一上来就让大语言模型进行通篇阅读和复杂推理;而且我对工具本身还不熟练,token消耗机制、上下文管理方式,都没有想清楚就直接开干,白白烧掉了大量资源。这是可以改的,下一步认真研究一下本地知识库的构建与向量化检索,让大模型在本地文件上跑得更高效。
有路径,能改进。
但技术问题之外,还有一个更根本的问题。
去年,我写过一篇[[2025-01-22 不要在屎里掏金]],起因是从网上下载了一个“知乎盐选3000篇”的文件夹,折腾了半天,最后直接删掉了。结论很简单:质量不够高的信息源,不值得花时间。
今天这件事,本质上是同一个问题,只不过穿上了一件AI的外衣。
天涯神帖的206篇文章,一半是故事、情绪化内容,甚至还有标题党;剩下的一部分,纵然曾有观点,时效上也早已过期——十年前写的对房价的预判,如今对与错都已经没有意义了。拿这样的原材料去跑模型,再精妙的提示词、再多的token,也不过是把平庸处理得更整齐一些。
垃圾进,垃圾出(GIGO),是IT领域的老话了。我还是走进去了。
寻找“可信”的人
我想起达利欧在《原则》里提到过一个概念:“可信”的人。
可信者的特征是,能不断成功地实现一些成就,而且能就如何做到这一点提供很好的解释。
在这个信息爆炸的时代,这对如何找到高价值的信息很有参考价值。
接受任何信息前,首先要判断的是传递信息的这个人(或组织),到底值不值得信。他是真诚地在分享认知,还是在抓眼球、收割流量?他在这个领域有没有真正付出过代价?
这个标准,不只适用于人,同样适用于信息源本身。天涯神帖,作为一个时代的产物,已经成为了一个历史文本,而不是一个高密度、高信噪比的信息源。我想在里面找到有价值的东西,愿望是好的,但这个愿望,已经预设了一个前提:这里面有金。
或许有。但代价,不值得。
AI是一个效率放大器——它可以让人更快地处理信息,更快地归纳提炼,也可以更快地把时间和计算资源浪费在一个错误的方向上。
在过去,在垃圾信息里淘金,浪费的只是自己的几个小时;现在用AI淘金,浪费时间的同时,还能浪费掉庞大的算力和1200万tokens。AI把犯错的规模和速度都放大了。
工具越强大,方向选择就越重要。这是这次折腾之后,我觉得最值得记下来的一句话。
去年的结论是:不要在屎里掏金。
今天的补充是:带上AI也不行。