OpenAI中文文档platform--模型Models

模型

OpenAI API 由一系列具有不同能力和价格点的模型驱动。您还可以通过微调来定制我们的模型,以适应您的特定用例。

旗舰模型

  • GPT-4o
    我们的高智能旗舰模型,适用于复杂的多步骤任务。
  • GPT-4o mini
    我们经济实惠且智能的小型模型,适用于快速、轻量级任务。
  • o1-preview 和 o1-mini
    使用强化学习训练的语言模型,能够执行复杂的推理任务。
  • GPT-4 Turbo 和 GPT-4
    之前一组高智能模型。
  • GPT-3.5 Turbo
    快速、便宜的模型,适用于简单任务。
  • DALL·E
    一个可以根据自然语言提示生成和编辑图像的模型。
  • TTS
    一组可以将文本转换为自然听起来的语音的模型。
  • Whisper
    一个可以将音频转换为文本的模型。
  • Embeddings
    一组可以将文本转换为数字形式的模型。
  • Moderation
    一个经过微调的模型,可以检测文本是否可能敏感或不安全。
  • GPT base
    一组没有指令跟随能力的模型,能够理解和生成自然语言或代码。
  • Deprecated
    一个完整的已弃用模型列表及其建议替代品。

对于 GPT 系列模型,上下文窗口是指在单个请求中可以使用的最大令牌数,包括输入和输出令牌。

我们还发布了一些开源模型,包括 Point-EWhisperJukebox 和 CLIP

持续模型升级

gpt-4ogpt-4o-minigpt-4-turbogpt-4 和 gpt-3.5-turbo 指向各自的最新模型版本。您可以通过查看发送请求后的 响应对象 来验证这一点。响应将包括使用的特定模型版本(例如 gpt-3.5-turbo-1106)。chatgpt-4o-latest 模型版本持续指向 ChatGPT 中使用的 GPT-4o 的版本,并且会频繁更新。除了 chatgpt-4o-latest,我们提供的固定模型版本在更新模型引入后,开发人员可以继续使用至少三个月。

有关模型弃用的更多信息,请参见我们的 弃用页面

GPT-4o

GPT-4o(“o”代表“全能”)是我们最先进的 GPT 模型。它是多模态的(接受文本或图像输入并输出文本),并且具有与 GPT-4 Turbo 相同的高智能,但效率更高——生成文本的速度快 2 倍,成本便宜 50%。此外,GPT-4o 在视觉和非英语语言的表现上优于我们所有的模型。GPT-4o 可在 OpenAI API 中供付费客户使用。了解如何在我们的 文本生成指南 中使用 GPT-4o。

模型 描述 上下文窗口 最大输出令牌 训练数据
gpt-4o 我们的高智能旗舰模型,适用于复杂的多步骤任务。GPT-4o 比 GPT-4 Turbo 更便宜、更快。目前指向 gpt-4o-2024-08-06 128,000 tokens 16,384 tokens 截至 2023 年 10 月
gpt-4o-2024-08-06 支持 结构化输出 的最新快照。gpt-4o 当前指向此版本。 128,000 tokens 16,384 tokens 截至 2023 年 10 月
gpt-4o-2024-05-13 原始 gpt-4o 快照,来自 2024 年 5 月 13 日。 128,000 tokens 4,096 tokens 截至 2023 年 10 月
chatgpt-4o-latest 动态模型,持续更新到 ChatGPT 中的当前 GPT-4o 版本。旨在用于研究和评估 128,000 tokens 16,384 tokens 截至 2023 年 10 月

GPT-4o mini

GPT-4o mini(“o”代表“全能”)是我们小型模型类别中最先进的模型,也是我们目前最便宜的模型。它是多模态的(接受文本或图像输入并输出文本),其智能高于 gpt-3.5-turbo,但速度相同。它旨在用于较小的任务,包括视觉任务。

我们建议在您之前使用 gpt-3.5-turbo 的地方选择 gpt-4o-mini,因为该模型更强大且更便宜。

模型 描述 上下文窗口 最大输出令牌 训练数据
gpt-4o-mini 我们经济实惠且智能的小型模型,适用于快速、轻量级任务。GPT-4o mini 比 GPT-3.5 Turbo 更便宜、更强大。目前指向 gpt-4o-mini-2024-07-18 128,000 tokens 16,384 tokens 截至 2023 年 10 月

o1 系列

o1 系列大型语言模型经过强化学习训练,能够执行复杂的推理。o1 模型在回答之前会进行思考,生成长的内部思维链,然后再响应用户。了解 o1 模型的能力和局限性,请参见我们的 推理指南

目前有两种模型类型可用:

  • o1-preview:旨在解决跨领域的难题的推理模型。
  • o1-mini:较快且便宜的推理模型,特别擅长编码、数学和科学。
模型 描述 上下文窗口 最大输出令牌 训练数据
o1-preview 指向 o1 模型的最新快照:o1-preview-2024-09-12 128,000 tokens 32,768 tokens 截至 2023 年 10 月
o1-mini 指向 o1-mini 最新快照:o1-mini-2024-09-12 128,000 tokens 65,536 tokens 截至 2023 年 10 月


GPT-4 Turbo 和 GPT-4

GPT-4 是一个大型多模态模型(接受文本或图像输入并输出文本),能够以比我们之前的任何模型更高的准确性解决困难问题,这得益于其更广泛的知识和先进的推理能力。GPT-4 可通过 OpenAI API 提供给付费客户。与 gpt-3.5-turbo 类似,GPT-4 针对对话进行了优化,但在使用聊天补全 API 进行传统补全任务时表现良好。了解如何在我们的文本生成指南中使用 GPT-4。

模型 描述 上下文窗口 最大输出令牌 训练数据
gpt-4-turbo 最新的 GPT-4 Turbo 模型,具备视觉能力。视觉请求现在可以使用 JSON 模式和函数调用。目前指向 gpt-4-turbo-2024-04-09。 128,000 令牌 4,096 令牌 到 2023 年 12 月
gpt-4-turbo-2024-04-09 带有视觉模型的 GPT-4 Turbo。视觉请求现在可以使用 JSON 模式和函数调用。gpt-4-turbo 目前指向此版本。 128,000 令牌 4,096 令牌 到 2023 年 12 月
gpt-4-turbo-preview GPT-4 Turbo 预览模型。目前指向 gpt-4-0125-preview。 128,000 令牌 4,096 令牌 到 2023 年 12 月
gpt-4-0125-preview 旨在减少模型未完成任务的“懒惰”情况的 GPT-4 Turbo 预览模型。了解更多。 128,000 令牌 4,096 令牌 到 2023 年 12 月
gpt-4-1106-preview 具有改进的指令遵循、JSON 模式、可重复输出、并行函数调用等功能的 GPT-4 Turbo 预览模型。这是一个预览模型。了解更多。 128,000 令牌 4,096 令牌 到 2023 年 4 月
gpt-4 目前指向 gpt-4-0613。查看持续的模型升级。 8,192 令牌 8,192 令牌 到 2021 年 9 月
gpt-4-0613 2023 年 6 月 13 日的 gpt-4 快照,具有改进的函数调用支持。 8,192 令牌 8,192 令牌 到 2021 年 9 月
gpt-4-0314 2023 年 3 月 14 日的 gpt-4 旧快照。 8,192 令牌 8,192 令牌 到 2021 年 9 月

对于许多基本任务,GPT-4 和 GPT-3.5 模型之间的差异并不显著。然而,在更复杂的推理情况下,GPT-4 的能力远超我们之前的任何模型。


多语言能力

GPT-4 在多种语言的表现上超越了之前的所有大型语言模型,并且截至 2023 年,超越了大多数最先进的系统(这些系统通常具有特定于基准的训练或手工工程)。在 MMLU 基准测试中,GPT-4 不仅在英语中的表现大幅领先于现有模型,而且在其他语言中也表现强劲。

GPT-3.5 Turbo

GPT-3.5 Turbo 模型能够理解和生成自然语言或代码,并已针对聊天进行了优化,使用 聊天完成 API,但在非聊天任务中也表现良好。截至 2024 年 7 月,gpt-4o-mini 应该取代 gpt-3.5-turbo,因为它更便宜、更强大、支持多模态,并且速度相同。gpt-3.5-turbo 仍可在 API 中使用。

模型 描述 上下文窗口 最大输出令牌 训练数据
gpt-3.5-turbo-0125 最新的 GPT-3.5 Turbo 模型,在请求格式的响应准确性上更高,并修复了导致非英语语言函数调用的文本编码问题的错误。了解更多 16,385 tokens 4,096 tokens 截至 2021 年 9 月
gpt-3.5-turbo 当前指向 gpt-3.5-turbo-0125 16,385 tokens 4,096 tokens 截至 2021 年 9 月
gpt-3.5-turbo-1106 GPT-3.5 Turbo 模型,具有改进的指令跟随、JSON 模式、可重现的输出、并行函数调用等功能。了解更多 16,385 tokens 4,096 tokens 截至 2021 年 9 月
gpt-3.5-turbo-instruct 具有与 GPT-3 时代模型类似的能力。与传统的 Completions 端点兼容,而不是聊天完成。 4,096 tokens 4,096 tokens 截至 2021 年 9 月

DALL·E

DALL·E 是一个 AI 系统,可以根据自然语言描述创建逼真的图像和艺术作品。DALL·E 3 当前支持在给定提示的情况下创建特定大小的新图像。DALL·E 2 还支持编辑现有图像或创建用户提供图像的变体。

DALL·E 3 可通过我们的 图像 API 使用,此外还有 DALL·E 2。您可以通过 ChatGPT Plus 尝试 DALL·E 3。

模型 描述
dall-e-3 最新的 DALL·E 模型,于 2023 年 11 月发布。了解更多
dall-e-2 之前的 DALL·E 模型,于 2022 年 11 月发布。第二代 DALL·E 生成的图像比原始模型更真实、准确,分辨率提高了 4 倍。

TTS

TTS 是一个 AI 模型,可以将文本转换为自然听起来的语音。我们提供两种不同的模型变体,tts-1 针对实时文本到语音用例进行了优化,tts-1-hd 针对质量进行了优化。这些模型可以与 音频 API 中的语音端点 一起使用。

模型 描述
tts-1 最新的文本到语音模型,针对速度进行了优化。
tts-1-hd 最新的文本到语音模型,针对质量进行了优化。

Whisper

Whisper 是一个通用的语音识别模型。它在大量多样化音频数据集上进行训练,还是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。Whisper v2-large 模型目前可通过我们的 API 使用,模型名称为 whisper-1

目前,开源版本的 Whisper 和通过我们的 API 提供的版本没有区别。然而,通过我们的 API,我们提供了优化的推理过程,这使得通过 API 运行 Whisper 的速度远快于其他方式。有关 Whisper 的更多技术细节,请 阅读论文

Embeddings

嵌入是文本的数值表示,可用于测量两段文本之间的相关性。嵌入对于搜索、聚类、推荐、异常检测和分类任务非常有用。您可以在 公告博客文章 中阅读我们最新嵌入模型的更多信息。

模型 描述 输出维度
text-embedding-3-large 最强大的嵌入模型,适用于英语和非英语任务 3,072
text-embedding-3-small 相较于第二代 ada 嵌入模型,提高了性能 1,536
text-embedding-ada-002 最强大的第二代嵌入模型,替代了 16 个第一代模型 1,536

Moderation

审核模型旨在检查内容是否符合 OpenAI 的 使用政策。这些模型提供分类能力,检查内容是否属于仇恨、自残、性内容、暴力等类别。了解有关文本和图像审核的更多信息,请参见我们的 审核指南

模型 描述 最大令牌
omni-moderation-latest 当前指向 omni-moderation-2024-09-26 32,768
omni-moderation-2024-09-26 最新的固定版本,新的多模态审核模型,能够分析文本和图像。 32,768
text-moderation-latest 当前指向 text-moderation-007 32,768
text-moderation-stable 当前指向 text-moderation-007 32,768
text-moderation-007 之前的文本专用审核模型。我们预计 omni-moderation-* 模型将成为最佳默认选项。 32,768

GPT base

GPT 基础模型能够理解和生成自然语言或代码,但没有经过指令跟随训练。这些模型旨在替代我们的原始 GPT-3 基础模型,并使用传统的 Completions API。大多数客户应使用 GPT-3.5 或 GPT-4。

模型 描述 最大令牌 训练数据
babbage-002 替代 GPT-3 的 ada 和 babbage 基础模型。 16,384 tokens 截至 2021 年 9 月
davinci-002 替代 GPT-3 的 curie 和 davinci 基础模型。 16,384 tokens 截至 2021 年 9 月

默认使用政策按端点

端点 用于训练的数据 默认保留 有资格获得零保留
/v1/chat/completions 30 天 是,除了 (a) 图像输入或 (b) 提供的结构化输出的模式*
/v1/assistants 30 天**
/v1/threads 30 天**
/v1/threads/messages 30 天**
/v1/threads/runs 30 天**
/v1/vector_stores 30 天**
/v1/threads/runs/steps 30 天**
/v1/images/generations 30 天
/v1/images/edits 30 天
/v1/images/variations 30 天
/v1/embeddings 30 天
/v1/audio/transcriptions 零数据保留 -
/v1/audio/translations 零数据保留 -
/v1/audio/speech 30 天
/v1/files 直到客户删除
/v1/fine_tuning/jobs 直到客户删除
/v1/batches 直到客户删除
/v1/moderations 零数据保留 -
/v1/completions 30 天
/v1/realtime (beta) 30 天

* 聊天完成:
- 通过 gpt-4ogpt-4o-minichatgpt-4o-latest 或 gpt-4-turbo 模型(或之前的 gpt-4-vision-preview)的图像输入不符合零保留资格。
- 启用结构化输出时,提供的模式(作为 response_format 或函数定义中的模式)不符合零保留资格,但完成本身符合资格。

模型端点兼容性

端点 最新模型
/v1/assistants 所有 GPT-4o(除了 chatgpt-4o-latest)、GPT-4o-mini、GPT-4 和 GPT-3.5 Turbo 模型。retrieval 工具需要 gpt-4-turbo-preview(及后续的日期模型发布)或 gpt-3.5-turbo-1106(及后续版本)。
/v1/audio/transcriptions whisper-1
/v1/audio/translations whisper-1
/v1/audio/speech tts-1tts-1-hd
/v1/chat/completions 所有 GPT-4o(除了实时预览)、GPT-4o-mini、GPT-4 和 GPT-3.5 Turbo 模型及其日期发布。动态模型 chatgpt-4o-latest。 微调 版本的 gpt-4ogpt-4o-minigpt-4 和 gpt-3.5-turbo
/v1/completions (传统) gpt-3.5-turbo-instructbabbage-002davinci-002
/v1/embeddings text-embedding-3-smalltext-embedding-3-largetext-embedding-ada-002
/v1/fine_tuning/jobs gpt-4ogpt-4o-minigpt-4gpt-3.5-turbobabbage-002davinci-002
/v1/moderations text-moderation-stabletext-moderation-latest
/v1/images/generations dall-e-2dall-e-3
/v1/realtime (beta) gpt-4o-realtime-previewgpt-4o-realtime-preview-2024-10-01