最先进LLM,依然无法规划
目录
从近似检索到近似推理
在原始测试集上评估LRM
扩大问题规模
不可解的实例
在Randomized Mystery Blocksworld中,结果更糟:
- 16%的情况正确识别出了问题不可解
- 5%的情况返回了「empty plan」
准确性和成本的权衡与保证
o1的创造性解释
结论
本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.nodgame.com/32597.html