研究进展arXiv AI / CL6月23日 17:18

AI数据分析系统自动评分：严格匹配与宽松评估的权衡

摘要

研究评估了多智能体数据分析系统LAMBDA在153个数值任务上的表现，开发了三层人机评分级联：严格正则匹配、基于LLM的宽松评分和片段人工检查。宽松评分器召回率达97%，严格评分器通过关键词提取提升召回率60个百分点。迭代提示机制将评分成功率从36%提升至97%。

背景解释

智能数据分析系统输出复杂，包括代码、数值结果和文本诊断，传统单轮评估方法难以适用。该研究通过对比不同评分策略，揭示了自动化评估中的关键因素，如变量类型对评分结果的影响，为构建更可靠的AI评估体系提供了参考。

来源地区

Global

热度分

分类

研究进展

语言