首页人工智能重磅：OpenAI 发布 GPT-4o，支持实时音视频交互

重磅：OpenAI 发布 GPT-4o，支持实时音视频交互

Author: august · 分类：人工智能 · 2024年11月 · tags: chatgpt openai 人工智能

**

图片由 DALL·E3 生成，提示词为：“A person and a robot engaged in real-time voice conversation. The scene is in a modern room with a sleek, minimalistic design. The person is sitting on a comfortable chair, speaking with a microphone, while the robot stands nearby, with a friendly expression. The room has a futuristic feel with soft lighting and advanced technology visible, like holographic displays and smart devices.”**

OpenAI 发布 GPT-4o

OpenAI 于 2024 年 5 月 13 日（当地时间）正式发布最新的旗舰模型 GPT-4o，并为 ChatGPT 的免费用户提供更多功能。

GPT-4o 是最新的旗舰模型，提供了 GPT-4 级别的智能，但速度更快，在文本、语音和视觉方面的能力也有所提高。

GPT-4o 比任何现有模型在理解和讨论用户分享的图像方面都要好得多。例如，用户可以拍摄一张用不同语言书写的菜单的照片，并与 GPT-4o 交谈以翻译它、了解食物的历史和意义，并获得推荐。未来，改进将允许更自然、实时的语音对话，以及通过实时视频与 ChatGPT 交谈的能力。例如，用户可以向 ChatGPT 展示一场正在进行的体育赛事，并要求它解释规则。OpenAI 计划在未来几周内推出支持这些新功能的 alpha 版语音模式，Plus 用户将可以先行体验，之后将广泛推广。

为了使先进的人工智能在全球范围内更可及和实用， GPT-4o 的语言能力在质量和速度方面都得到了提高。ChatGPT 现在支持 50 多种语言，包括注册和登录、用户设置等。

OpenAI 正开始向 ChatGPT Plus 和 Team 用户推出 GPT-4o ，企业用户的可用性即将推出。OpenAI 也从今天开始向 ChatGPT 免费用户推出 GPT-4o，但使用量有限制。Plus 用户的消息限制将是免费用户的 5 倍左右，而 Team 和企业用户的限制将更高。

OpenAI 为免费用户带来更多智能和高级工具

OpenAI 的使命是让尽可能多的人使用先进的人工智能工具。目前每周有超过一亿人使用 ChatGPT。在未来几周内，OpenAI 将开始为 ChatGPT 免费用户推出更多智能工具和高级功能。使用 GPT-4o 时， ChatGPT 免费用户将可以访问以下功能:

体验GPT-4级智能
同时从模型和网络获取响应
分析数据并创建图表
就用户拍摄的照片进行对话
上传文件以获取总结、写作或分析帮助
探索并使用 GPT 和 GPT 商店
使用 Memory 构建更有帮助的体验

OpenAI 将根据使用情况和需求，对免费用户使用 GPT-4o 发送消息的数量设置限制。达到限制后， ChatGPT 将自动切换到GPT-3.5，以便用户可以继续对话。

在新的桌面应用程序中简化工作流程

对于免费和付费用户，OpenAI 还推出了一款新的 macOS ChatGPT 桌面应用程序，旨在与用户计算机上的任何操作无缝集成。通过一个简单的键盘快捷键(Option + Space)，用户可以立即向 ChatGPT 提出问题。用户还可以直接在应用程序中拍摄和讨论屏幕截图。

用户现在可以直接从计算机与 ChatGPT 进行语音对话，从 ChatGPT 推出时就已经提供的语音模式开始， GPT-4o 的新音频和视频功能将在未来推出。无论想为公司集思广益一个新想法、为面试做准备，还是有一个想讨论的话题，用户只需点击桌面应用程序右下角的耳机图标即可开始语音对话。

OpenAI 从今天开始向 Plus 用户推出 macOS 应用程序，在未来几周内将广泛提供。另外 OpenAI 还计划于今年晚些时候推出 Windows 版本。

ChatGPT 的简化外观和体验

OpenAI 推出了 ChatGPT 的新外观和体验设计，旨在更加友好和对话式，主要是新的主屏幕、消息布局等。要体验这些新功能，请访问 ChatGPT .com 注册或登录。

GPT-4o 初体验

访问：https://chatgpt.com/?model=gpt-4o，在模型列表下拉菜单中选择“ChatGPT 4o”，如下图所示：

和 GPT-4 相比，最大的体验是生成速度极快，几乎是实时响应，这也为实时音视频交互打下了良好的基础。

GPT-4o 具备联网能力：

数学能力相比 GPT 3.5、GPT4 有了极大进步。

上述输出说明模型具备思维链（Chain-of-Thought）能力。

下面的计算过程则调用了 Advanced Data Analysis（原名 Code Interpreter）工具实现数值精确计算：

除了单纯的数学分析和计算，GPT-4o 的历史知识也是相当渊博：

respect~~~

再考考它古诗词。这一点甚至 GPT-4 做的都不够好。

但是倒背古诗词就难倒它了，说明生成式模型训练过程不太习惯这种行文风格。

来几个弱智吧的经典提问：

除了网页版，目前 Mac OS 和 iPhone 上也可以使用独立 App 同 GPT-4o 进行实时音视频通话，得益于模型响应速度的大幅提升，对话过程相当自然，和真人几无差别。下图是笔者同 GPT-4o 实时语音聊天的转录内容：

在实时聊天的同时，也可以联网和调用工具，一气呵成，非常连贯。

限于篇幅，GPT-4o 初体验到这里告一段落，感兴趣的小伙伴可以留言，想和 GPT-4o 聊点什么？

发表回复取消回复