研究进展arXiv AI / CL
OpenThoughts-Agent:开源智能体模型训练数据配方

摘要
OpenThoughts-Agent项目提出完全开源的数据筛选流程,用于训练通用智能体模型。通过100多次对照实验,系统研究各阶段重要性,并构建10万样本训练集。基于Qwen3-32B微调,在7个智能体基准上平均准确率44.8%,比最强开源模型Nemotron-Terminal-32B高3.9个百分点。
背景解释
现有开源智能体模型如SWE-Smith等通常针对单一基准,缺乏通用性。OpenThoughts-Agent通过系统实验揭示任务来源和多样性对训练数据的关键作用,其数据集在不同规模下均优于其他开源方案。该项目公开全部数据、流程和模型,为智能体模型训练研究提供开放基础。
来源地区
Global
热度分
89
分类
研究进展
语言
en
