今日版 / 2026年6月25日星期四

limbo logolimbo

数据更新时间

6月23日 17:18

启用来源

10

抓取状态

真实抓取

研究进展arXiv AI / CL

AI数据分析系统自动评分:严格匹配与宽松评估的权衡

摘要

研究评估了多智能体数据分析系统LAMBDA在153个数值任务上的表现,开发了三层人机评分级联:严格正则匹配、基于LLM的宽松评分和片段人工检查。宽松评分器召回率达97%,严格评分器通过关键词提取提升召回率60个百分点。迭代提示机制将评分成功率从36%提升至97%。

背景解释

智能数据分析系统输出复杂,包括代码、数值结果和文本诊断,传统单轮评估方法难以适用。该研究通过对比不同评分策略,揭示了自动化评估中的关键因素,如变量类型对评分结果的影响,为构建更可靠的AI评估体系提供了参考。

来源地区

Global

热度分

73

分类

研究进展

语言

en