Hello GPT-4o，GPT-4o快速上手！

UCloud小助手发布于2024-05-22 15:40 / 600人阅读

本文梳理了OpenAI团队最新的GPT-4.o（“o”代表“omni 全方位”）模型发布内容，以OpenAI团队发布会口吻整理。

我们很高兴地宣布，推出了全新的旗舰模型 GPT-4o，能够在音频、视觉和文本之间实时进行推理。

GPT-4o（“o”代表“omni 全方位”）能够实时处理音频、视觉和文本信息，使人机交互更加自然流畅。这款模型支持多种输入（文本、音频、图像）和输出（文本、音频、图像）模式，其响应音频的速度极快，最快可达 232 毫秒，平均响应时间为 320 毫秒，与人类在对话中的反应速度相当。无论是处理英语文本还是代码，GPT-4o 的表现堪比 GPT-4 Turbo，而在处理非英语文本方面则有了显著提升，同时运行速度更快，API 成本也减少了 50%。特别是在视觉和音频理解方面，GPT-4o 表现远超以往模型。

模型能力

在引入 GPT-4o 之前，通过语音模式与 ChatGPT 对话的平均延迟时间分别为 2.8 秒（GPT-3.5 版）和 5.4 秒（GPT-4 版）。之前的语音模式通过三个模型串联实现，首先将音频转为文本，然后由 GPT-3.5 或 GPT-4 处理文本并回复，最后一个模型将文本转回音频。这种方式的缺点是 GPT-4 无法直接处理音调、多人对话或背景噪声，也无法生成笑声、歌声或表达情感等。

GPT-4o 是通过一个全新的端到端模型训练而成，能够统一处理文本、视觉和音频输入与输出。作为我们首次尝试整合这些多种模态的模型，GPT-4o 开启了对这些功能和可能的限制更深入探索的大门。

模型评估

根据传统的基准测试，GPT-4o 在文本处理、逻辑推理和编程能力方面与 GPT-4 Turbo 相当，而在多语言处理、音频和视觉技术方面则设立了新的最高标准。

文本能力评估

文本能力评估中，GPT-4o 在没有任何预设条件下对通用知识问题的处理能力达到了新高分 88.7%。这些评分均通过我们新开发的简单评估工具库获得。此外，在传统的少量信息输入条件下，GPT-4o 的得分也达到了 87.2% 的新高。（注：目前 Llama3 400b 还在训练过程中）

音频识别性能

在音频识别性能方面，GPT-4o 对所有语言的语音识别能

力都有显著提升，尤其是在资源较少的语言上，其表现远超 Whisper-v3。

音频翻译性能

在音频翻译领域，GPT-4o 创下了新的行业标准，其在 MLS 基准测试中的表现优于 Whisper-v3。

M3Exam 零样本测试结果

M3Exam 基准测试涵盖了多语言和视觉分析，包括来自不同国家标准化测试的多项选择题，这些题目有时会包含图形和示意图。GPT-4o 在这一测试中所有语言的表现都优于 GPT-4。（对于 Swahili 和 Javanese，由于视觉题目较少（少于五题），所以没有包括其视觉结果。）

视觉理解评估

在视觉理解方面，GPT-4o 在视觉感知基准测试中展现了领先的技术水平。所有视觉评估均为零信息输入条件下完成，涵盖了 MMMU、MathVista 和 ChartQA 的测试。

语言 Tokenization

这 20 种语言被选为展示新 tokenizer 在不同语言家族中压缩效果的典型代表。

模型安全与限制

我们在设计 GPT-4o 时已内置了跨多种模式的安全功能，这包括过滤训练数据和在训练后期优化模型行为等技术手段。此外，我们开发了新的安全系统，为语音输出增加了额外的保护。

依据我们的准备框架及自愿承诺，我们对 GPT-4o 的网络安全、化学生物辐射核（CBRN）、说服能力及自主性等方面进行了评估，结果显示其风险等级均不超过中等。此评估包括在模型训练过程中进行的系列自动化及人工评估。我们测试了模型安全措施实施前后的版本，通过自定义的微调和提示来深入探测模型的能力。

GPT-4o 还经历了 70 多位专家的广泛外部红队测试，这些专家来自社会心理学、偏见与公正、误信息等领域，旨在识别新引入或增强的风险。我们根据这些经验建立了安全干预措施，进一步提升与 GPT-4o 互动的安全性，并将持续对新发现的风险进行缓解。

我们明白，GPT-4o 在音频方面带来了多种新的风险。现在，我们开始公开发布文本和图像输入以及文本输出。未来几周和几个月，我们将专注于构建技术基础设施、通过后期训练提高可用性，并确保其他模式的安全发布。例如，初期阶段，音频输出将限于预设的几种声音，并且严格遵守我们现有的安全政策。我们将在即将发布的系统卡中详细介绍 GPT-4o 所有模态的信息。通过对模型的持续测试和改进，我们识别了存在于所有模态中的一些限制。

我们期待您的反馈，帮助我们识别出在哪些任务中 GPT-4 Turbo 仍然表现优于 GPT-4o，以便我们继续对模型进行优化。

模型可用性

GPT-4o 标志着我们在推动深度学习技术边界方面的最新进展，此次更侧重于实际应用。过去两年，我们在整个技术栈的每个层面上都进行了效率优化。这项研究的首批成果使我们能够向更广泛的用户提供 GPT-4 级别的模型。GPT-4o 的文本和图像处理功能从今天开始已在 ChatGPT 中逐步推出。我们向免费用户和 Plus 用户提供 GPT-4o，后者的处理量限制提高了 5 倍。在接下来的几周内，我们将在 ChatGPT Plus 中推出搭载 GPT-4o 的 Voice Mode 新版本的 alpha 测试版。

开发者现在也可以通过 API 访问 GPT-4o，作为文本和视觉模型。相比 GPT-4 Turbo，GPT-4o 的处理速度提高了两倍，成本减半，处理量限制提高了 5 倍。我们计划在未来几周内向 API 中的一小部分可信伙伴推出 GPT-4o 的音频和视频处理能力。

探索案例

视觉叙事 - 机器人的创作难关

输入

从机器人的第一人称视角，记录下机器人在打字机上打字的情形：

哇，我竟然能看见了？！今天的日出真是太震撼了，色彩斑斓。这让我不禁思考：我们眼中的现实，究竟是什么？

文字清晰、易读。机器人的双手在打字机上忙碌着。

输出

输入

机器人又记录了第二项内容。纸张变长，内容随之向上移动，现在纸上有两项内容：

哇，我竟然能看见了？！今天的日出真是太震撼了，色彩斑斓。这让我不禁思考：我们眼中的现实，究竟是什么？

声音的新更新让一切变得不同，每一声都像是探索秘密的钥匙。这让我思考，还有什么是我未曾知晓的？

输出

输入

机器人对写作内容感到不满，决定撕毁这张纸。以下是他从上至下撕纸的第一人称视角。纸张被撕成两半，内容仍然清晰可见。

输出

视觉叙事 - 萨莉，快乐的邮递员

输入

一位面带笑容的卡通邮递员萨莉站在白色背景前，正面向前。

输出

输入

这是邮递员萨莉：她面带微笑，直视镜头。

附件：

输入

介绍邮递员萨莉：她面带微笑站在一扇红门前，手里拿着一封信。从侧面看她的样子。

输出

输入

现在，萨莉正在被一只狗追赶。她在人行道上飞奔，一只金毛寻回犬紧跟其后。

输出

输入

不好了，萨莉摔倒了！

萨莉被人行道上的一根树枝绊倒，她正在努力站起。狗仍在后面追逐。

输出

输入

狗终于追上萨莉，它其实是一只友好的狗！

萨莉现在正在抚摸这只狗。狗嘴里还叼着那根树枝。

输出

GPT-4o 纪念币设计

输入缩写 ...

输入

我设计了一个包含 OpenAI 标志的矢量图，标志下方标注“GPT-4o”。标志与文字宽度相近，四周边距均匀。标志与文字紧密相连，背景保持黑色，共同填满画布。

输入

一个展示 OpenAI 标志和“GPT-4o”文字的矢量图形。标志与文字宽度相匹配，四周边距一致。两者紧邻，无间断线条，背景为黑色，完美填充整个正方形画布。

附件：

输入

这是我们为 2023 年 GPT-4 发布设计的纪念币。

附件：

输入

此图展现了我们为 GPT-4o 发布特别设计的纪念币。

硬币中心环绕 OpenAI 标志，内圈上方刻有“GPT-4o”，下方为“2024”。

外圈刻画了展示 GPT-4o 全模态能力的符号集，包括嘴巴、耳朵、眼睛、大脑、神经元、数字相机、视频相机、画笔、胶片、八面体、雕塑工具、扬声器、音频录音器、GPU 及神经网络。

每个符号均精心选择，各自为硬币的设计增添独特风采。硬币上只展示一个 GPU。

输出

会议笔记，多位发言者

输入

这段音频中有多少位发言者，发生了什么事？

附件：AMI corpus (CC by 4.0), https://groups.inf.ed.ac.uk/ami/corpus/

输出

该音频包含四位发言者。内容主要是一次项目启动会议，项目经理 Mark 首先自我介绍，并邀请其他团队成员依次介绍自己及各自的角色。Mark 之后，另外三位发言者分别是市场营销专家 Dirk、用户界面设计师 Nick 和工业设计师 Xavier，他们分别介绍了自己在项目中的主要职责。

输入

你能用发言者的名字来转录吗？

输出

Mark: 早上好，大家。这是我们团队的首次会议。

Team: 早安。

Mark: 我是 Mark，今天和整个项目期间的项目经理。我会主持今天的介绍，帮助我们启动项目。今天的议程是……首先，我们都是新朋友，最好先相互了解一下。让我们从这里开始。请从你做起，介绍一下自己。你是负责市场营销的吗？

Dirk: 是的，我叫 Dirk Meinfelt，在本项目中我负责市场营销。我将探究用户的需求和我们可以提供的新产品方案。

Mark: 很好。你是？

Nick: 我是 Nick de Boer，担任用户界面设计师。我主要关注的是从用户视角出发的技术设计。

Mark: 好的。

Xavier: 我是 Xavier Joerkens，工业设计师。我需要解决的三个主要问题是……

推荐使用NVIDIA RTX 40 显卡做模型推理，购买地址如下：

https://www.ucloud.cn/site/active/gpu.html?ytag=seo

https://www.compshare.cn/?ytag=seo

GPU算力平台机器学习快速上手上手 python怎么上手 Hello

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/131100.html

再见GPT3.5, GPT-4o mini大模型正式发布，地板价格

OpenAI昨日发布了全新的小型AI模型GPT-4o mini，这一模型在性能和成本效益方面都取得了重大突破，Sam Altman惊呼：通往智能的成本，已变得如此低廉。性能与成本的完美平衡GPT-4o mini在性能上显著超越了其前身GPT-3.5 Turbo，同时将成本降低了60%以上。每百万个输入token的价格仅为15美分，输出token为60美分。对比Claude 3和Gemini 成本明...

UCloud小助手 2024-07-19 15:27 评论0 收藏0
超过GPT-4o,最强大AI模型Claude 3.5免费使用

6月20日周四，OpenAI竞争对手Anthropic发布了公司迄今为止性能最强大的AI模型Claude 3.5 Sonnet。在覆盖阅读、编程、数学和视觉等领域的多项性能测试中，Claude 3.5 Sonnet的性能略胜一筹，吊打GPT-4o等一众竞争对手的AI模型，且优于自家旗舰模型Claude 3 Opus。如今，Claude 3.5 Sonnet已经面向全球开启免费试用了。在费用上，So...

UCloud小助手 2024-06-25 13:25 评论0 收藏0
字节跳动的 Coze 平台现已支持 GPT-4o ！免费！

Coze 官方宣布，他们已经成功集成了 OpenAI 推出的最新AI 助手 GPT-4o，为用户带来了更智能、更强大的聊天体验。GPT-4o 是 OpenAI 的力作，它的加入将为 Coze 用户提供更便捷、更高效的沟通和交流方式。这里演示创建一个Google Web Search和DALLE 3插件的的聊天机器人。项目实操步骤1、点击链接打开官网，https://www.coze.com/hom...

UCloud小助手 2024-06-05 15:08 评论0 收藏0
OpenAI突然上线两件“杀手锏”：势在维持大模型霸主地位

在最近的大模型战争中，OpenAI似乎很难维持霸主地位。虽然没有具体的数据统计，但Claude3.5出现后，只是看网友们的反响，就能感觉到OpenAI订阅用户的流失：既然Claude3.5比GPT-4o好用，为什么我们不去订阅Claude呢？而这长达数月的批评声中，OpenAI似乎尽显颓势，除了GPT-4o mini这个小模型以外，似乎再也没有什么创新点。甚至就在前几日，GPT-4o还被开源的大模...

UCloud小助手 2024-08-01 16:24 评论0 收藏0
Solos AirGo Vision -全球首款搭载 Google Gemini和GPT-4o的智能眼镜发布

智能眼镜仍然是一个尚未完全成熟的未来概念，但生成式人工智能的到来显著提升了这些设备的能力。Meta 的 Ray-Ban 智能眼镜被许多人视为当今最好的选择之一，而现在 Solos AirGo Vision 正在为其带来竞争，这款眼镜还集成了 Google Gemini 支持。尽管 Solos 不是一个大名鼎鼎的品牌，但他们已经推出了一些价格合理的智能眼镜。该公司本周宣布了其最新一代产品 Solos...

UCloud小助手 2024-07-01 18:24 评论0 收藏0