Abstract

GPT-4o 是一种自回归的通用模型，可接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像的任意组合作为输出。该模型在文本、视觉和音频任务上实现了端到端的联合训练，意味着所有输入和输出均由同一神经网络处理。GPT-4o 对音频输入的响应时间最短可达 232 毫秒，平均响应时间为 320 毫秒，与人类在对话中的自然反应时间相当。在英文文本和代码任务上，其性能与 GPT-4 Turbo 相当，同时在非英语语言文本处理方面有显著提升，且在 API 调用中速度更快、成本降低 50%。相较于现有模型，GPT-4o 在视觉和音频理解能力方面表现尤为突出。秉承我们致力于安全构建人工智能的承诺，并遵循对白宫所作的自愿性承诺，我们发布了 GPT-4o 系统卡片（System Card），其中包含我们基于准备度框架（Preparedness Framework）开展的评估结果。该系统卡片详细介绍了 GPT-4o 在多个维度上的能力、局限性及安全评估，重点聚焦于语音到语音的交互能力，同时涵盖文本与图像处理能力的评估，以及为确保模型安全性和对齐性所采取的各项措施。此外，我们还纳入了第三方机构对模型潜在危险能力的评估，以及对 GPT-4o 在文本与视觉能力方面可能带来的社会影响的深入讨论。

Source PDF