

贵。 论文的结论直截了当: 现阶段,前沿模型无法准确预测自身的 Token 用量。点下“运行 Agent”,就像开盲盒——账单出来才知道花了多少。 &nb
照,配文写道:“如今已是2026年,KD、詹姆斯和库里依然在独自扛着各自的球队前行。”
设计了一个精巧的实验:让 Agent 在真正开始修 Bug 之前,先“ inspect”一下代码库,然后预估自己需要消耗多少 Token——但不实际执行修复。 结果如何? 所有模型,全军覆没。  
当前文章:http://04y89hm.qiaoruohe.cn/4ihk/3c1gl5.html
发布时间:05:53:08
栏目相关
热门排行