Command Palette
Search for a command to run...
Search-o1:代理增强型搜索大推理模型
Search-o1:代理增强型搜索大推理模型
Xiaoxi Li Guanting Dong Jiajie Jin Yuyao Zhang Yujia Zhou Yutao Zhu Peitian Zhang Zhicheng Dou
Abstract
大型推理模型(LRMs)如 OpenAI-o1 通过大规模强化学习展现了令人瞩目的多步推理能力。然而,其延伸的推理过程常常因知识不足而产生频繁的不确定性,进而导致潜在错误。为解决这一局限,我们提出 Search-o1,一个通过智能体式检索增强生成(RAG)机制和“在文档中推理”(Reason-in-Documents)模块来提升 LRMs 性能的框架。Search-o1 将智能体式搜索工作流集成到推理过程中,使模型在遇到知识不确定点时能够动态检索外部知识。此外,由于检索到的文档通常内容冗长,我们设计了独立的“在文档中推理”模块,对检索信息进行深度分析,再将其注入推理链,从而有效降低噪声,保持推理过程的连贯性。在科学、数学和编程等复杂推理任务,以及六个开放域问答(QA)基准测试上的大量实验表明,Search-o1 表现优异。该方法显著提升了 LRMs 在复杂推理任务中的可信度与适用性,为构建更可靠、更通用的智能系统铺平了道路。代码已开源,地址为:https://github.com/sunnynexus/Search-o1。