今日版 / 2026年6月25日星期四

limbo logolimbo

数据更新时间

6月23日 17:34

启用来源

10

抓取状态

真实抓取

研究进展arXiv AI / CL

OpenThoughts-Agent:开源智能体模型训练数据配方

摘要

OpenThoughts-Agent项目提出完全开源的数据筛选流程,用于训练通用智能体模型。通过100多次对照实验,系统研究各阶段重要性,并构建10万样本训练集。基于Qwen3-32B微调,在7个智能体基准上平均准确率44.8%,比最强开源模型Nemotron-Terminal-32B高3.9个百分点。

背景解释

现有开源智能体模型如SWE-Smith等通常针对单一基准,缺乏通用性。OpenThoughts-Agent通过系统实验揭示任务来源和多样性对训练数据的关键作用,其数据集在不同规模下均优于其他开源方案。该项目公开全部数据、流程和模型,为智能体模型训练研究提供开放基础。

来源地区

Global

热度分

89

分类

研究进展

语言

en