重磅:OpenAI 发布 GPT-4o,支持实时音视频交互

**

图片由 DALL·E3 生成,提示词为:“A person and a robot engaged in real-time voice conversation. The scene is in a modern room with a sleek, minimalistic design. The person is sitting on a comfortable chair, speaking with a microphone, while the robot stands nearby, with a friendly expression. The room has a futuristic feel with soft lighting and advanced technology visible, like holographic displays and smart devices.”**

OpenAI 发布 GPT-4o

OpenAI 于 2024 年 5 月 13 日(当地时间)正式发布最新的旗舰模型 GPT-4o,并为 ChatGPT 的免费用户提供更多功能。

GPT-4o 是最新的旗舰模型,提供了 GPT-4 级别的智能,但速度更快,在文本、语音和视觉方面的能力也有所提高。

GPT-4o 比任何现有模型在理解和讨论用户分享的图像方面都要好得多。例如,用户可以拍摄一张用不同语言书写的菜单的照片,并与 GPT-4o 交谈以翻译它、了解食物的历史和意义,并获得推荐。未来,改进将允许更自然、实时的语音对话,以及通过实时视频与 ChatGPT 交谈的能力。例如,用户可以向 ChatGPT 展示一场正在进行的体育赛事,并要求它解释规则。OpenAI 计划在未来几周内推出支持这些新功能的 alpha 版语音模式,Plus 用户将可以先行体验,之后将广泛推广。

为了使先进的人工智能在全球范围内更可及和实用, GPT-4o 的语言能力在质量和速度方面都得到了提高。ChatGPT 现在支持 50 多种语言,包括注册和登录、用户设置等。

OpenAI 正开始向 ChatGPT Plus 和 Team 用户推出 GPT-4o ,企业用户的可用性即将推出。OpenAI 也从今天开始向 ChatGPT 免费用户推出 GPT-4o,但使用量有限制。Plus 用户的消息限制将是免费用户的 5 倍左右,而 Team 和企业用户的限制将更高。

OpenAI 为免费用户带来更多智能和高级工具

OpenAI 的使命是让尽可能多的人使用先进的人工智能工具。目前每周有超过一亿人使用 ChatGPT。在未来几周内,OpenAI 将开始为 ChatGPT 免费用户推出更多智能工具和高级功能。使用 GPT-4o 时, ChatGPT 免费用户将可以访问以下功能:

  • 体验GPT-4级智能
  • 同时从模型和网络获取响应
  • 分析数据并创建图表
  • 就用户拍摄的照片进行对话
  • 上传文件以获取总结、写作或分析帮助
  • 探索并使用 GPT 和 GPT 商店
  • 使用 Memory 构建更有帮助的体验

OpenAI 将根据使用情况和需求,对免费用户使用 GPT-4o 发送消息的数量设置限制。达到限制后, ChatGPT 将自动切换到GPT-3.5,以便用户可以继续对话。

在新的桌面应用程序中简化工作流程

对于免费和付费用户,OpenAI 还推出了一款新的 macOS ChatGPT 桌面应用程序,旨在与用户计算机上的任何操作无缝集成。通过一个简单的键盘快捷键(Option + Space),用户可以立即向 ChatGPT 提出问题。用户还可以直接在应用程序中拍摄和讨论屏幕截图。

用户现在可以直接从计算机与 ChatGPT 进行语音对话,从 ChatGPT 推出时就已经提供的语音模式开始, GPT-4o 的新音频和视频功能将在未来推出。无论想为公司集思广益一个新想法、为面试做准备,还是有一个想讨论的话题,用户只需点击桌面应用程序右下角的耳机图标即可开始语音对话。

OpenAI 从今天开始向 Plus 用户推出 macOS 应用程序,在未来几周内将广泛提供。另外 OpenAI 还计划于今年晚些时候推出 Windows 版本。

ChatGPT 的简化外观和体验

OpenAI 推出了 ChatGPT 的新外观和体验设计,旨在更加友好和对话式,主要是新的主屏幕、消息布局等。要体验这些新功能,请访问 ChatGPT .com 注册或登录。

GPT-4o 初体验

访问:https://chatgpt.com/?model=gpt-4o,在模型列表下拉菜单中选择“ChatGPT 4o”,如下图所示:

和 GPT-4 相比,最大的体验是生成速度极快,几乎是实时响应,这也为实时音视频交互打下了良好的基础。

GPT-4o 具备联网能力:

数学能力相比 GPT 3.5、GPT4 有了极大进步。

上述输出说明模型具备思维链(Chain-of-Thought)能力。

下面的计算过程则调用了 Advanced Data Analysis(原名 Code Interpreter)工具实现数值精确计算:

除了单纯的数学分析和计算,GPT-4o 的历史知识也是相当渊博:

respect~~~

再考考它古诗词。这一点甚至 GPT-4 做的都不够好。

但是倒背古诗词就难倒它了,说明生成式模型训练过程不太习惯这种行文风格。

来几个弱智吧的经典提问:

除了网页版,目前 Mac OS 和 iPhone 上也可以使用独立 App 同 GPT-4o 进行实时音视频通话,得益于模型响应速度的大幅提升,对话过程相当自然,和真人几无差别。下图是笔者同 GPT-4o 实时语音聊天的转录内容:

在实时聊天的同时,也可以联网和调用工具,一气呵成,非常连贯。

限于篇幅,GPT-4o 初体验到这里告一段落,感兴趣的小伙伴可以留言,想和 GPT-4o 聊点什么?

1