研究进展arXiv AI / CL6月23日 17:34

OpenThoughts-Agent：开源智能体模型训练数据配方

摘要

OpenThoughts-Agent项目提出完全开源的数据筛选流程，用于训练通用智能体模型。通过100多次对照实验，系统研究各阶段重要性，并构建10万样本训练集。基于Qwen3-32B微调，在7个智能体基准上平均准确率44.8%，比最强开源模型Nemotron-Terminal-32B高3.9个百分点。

背景解释

现有开源智能体模型如SWE-Smith等通常针对单一基准，缺乏通用性。OpenThoughts-Agent通过系统实验揭示任务来源和多样性对训练数据的关键作用，其数据集在不同规模下均优于其他开源方案。该项目公开全部数据、流程和模型，为智能体模型训练研究提供开放基础。

来源地区

Global

热度分

分类

研究进展

语言