每篇“我自动化了我的业务”帖子都在骗你(他们省略了什么)
Source: Dev.to
Introduction
每周都会出现一个“史上最佳模型”。每个基准测试都承诺超人般的表现。每个演示都完美无缺。下面是你在日常使用这些工具来运营真实业务时实际会遇到的情况。
Benchmarks vs. Reality
以 Claude 为例,它的写作更像人类——情感丰富、对话自然,而且不像机器人。根据我的经验,在 AI 代理和自主工作流方面,Claude 在经过数月的真实使用后具有优势。
但基准测试可能会产生误导。除非你亲自测试,否则你不知道它们是否只是营销噱头。
The Unseen Failures
- 代理自信地运行了错误的脚本,记录为成功,却实际上什么也没做。
- 自动化因模型改变了响应格式而悄然失败,管道中没有任何环节捕捉到这一点。
幻觉问题并不仅限于聊天机器人的答案;它同样出现在人们最想信任的自主层面。
The Unsexy Truth
你仍然是架构师。AI 不是通用人工智能(AGI)。它不会提前思考,只会在你提供的结构内执行。雇佣人来构建 AI 系统的人看到的是魔法,而构建者知道那只是脚手架。
What Often Gets Omitted
- 失败的案例以及那些没有成功的尝试。
- 实际花费的时间。
- 那些在“镜头外”花费的周数,只为让基本功能运行起来。
每个人只会发布成功的案例;没有人会公布之前的六次尝试。
Evaluating New Tools
不断涌现“新、闪亮、不可思议、改变世界”的内容。其背后的真实情况仍然是破碎的、不一致的,仍在摸索中。
我首先会问一个问题:这是否能接入我的实际工作流,还是仅仅是个好玩的东西?
- 如果它是必备且成本合理,我会认真进行测试。
- 如果它只是锦上添花,我会记下来然后继续前进。
时间是唯一我无法扩展的资源。
Call to Action
你尝试过的、原本以为是必备却实际上只是噪音的 AI 工具是什么?在评论区留下吧。