研究进展arXiv Watch6月22日 18:00新推理基准加入长程规划与工具验证任务摘要研究团队认为传统选择题已经不足以衡量代理式模型,新的任务更接近真实工作流。来源地区Global热度分85分类研究进展语言en