研究进展arXiv AI / CL
AI数据分析系统自动评分:严格匹配与宽松评估的权衡

摘要
研究评估了多智能体数据分析系统LAMBDA在153个数值任务上的表现,开发了三层人机评分级联:严格正则匹配、基于LLM的宽松评分和片段人工检查。宽松评分器召回率达97%,严格评分器通过关键词提取提升召回率60个百分点。迭代提示机制将评分成功率从36%提升至97%。
背景解释
智能数据分析系统输出复杂,包括代码、数值结果和文本诊断,传统单轮评估方法难以适用。该研究通过对比不同评分策略,揭示了自动化评估中的关键因素,如变量类型对评分结果的影响,为构建更可靠的AI评估体系提供了参考。
来源地区
Global
热度分
73
分类
研究进展
语言
en
