Abstract

未来预测对大型语言模型（LLM）代理而言是一项复杂任务，需要高水平的分析思维能力、信息搜集能力、情境理解能力，以及在不确定性下的决策能力。代理不仅需要获取并解析海量动态信息，还需整合多种数据源，权衡不确定性，并根据新兴趋势动态调整预测结果，如同人类专家在政治、经济和金融等领域所展现出的能力。然而，尽管该任务至关重要，目前尚缺乏大规模的基准测试来评估代理在未来预测方面的能力，主要原因在于实时更新的处理难度以及获取及时、准确答案的挑战。为解决这一问题，我们提出 $\textbf{FutureX}$ ——一个专为执行未来预测任务的LLM代理设计的动态、实时评估基准。FutureX 是目前规模最大、多样性最高的实时未来预测基准，支持每日实时更新，并通过自动化的题库收集与答案采集流水线，有效避免数据污染。我们对25种LLM/代理模型进行了全面评估，涵盖具备推理能力、搜索功能以及外部工具集成能力的模型，例如开源的 Deep Research Agent 和闭源的 Deep Research 模型。此次评估系统考察了代理在动态环境中的自适应推理能力与实际表现。此外，我们深入分析了代理在面向未来的任务中常见的失败模式与性能缺陷，包括对虚假网页内容的脆弱性，以及预测结果的时间有效性问题。我们的目标是建立一个动态、无数据污染的评估标准，推动LLM代理向专业人类分析师的复杂推理与预测思维水平迈进。

Source PDF