GPT-4o与人交互更进一步

天行健，君子以自强不息；地势坤，君子以厚德载物。

每个人都有惰性，但不断学习是好好生活的根本，共勉！

文章均为学习整理笔记，分享记录为主，如有错误请指正，共同学习进步。

文章目录

一、概述
二、对比
三、个人感悟

一、概述

GPT-4o是OpenAI新发布的语言模型
相比之前的版本，GPT-4o不仅可以实时对音频、视觉和文件进行推理，现在还可以处理50种不同语言，且能读取人的情绪。

二、对比

GPT-4o与之前版本进行对比

1. 性能方面

性能方面提高了速度和质量，响应速度与人类更接近，能更好的模拟与人交互时的反应

2. 人机交互

GPT-4o在音频和图像方面的处理有了比之前版本更好的效果
GPT-4o可以跨文本、音频、视频进行实时推理，并可通过文本、音频、视频任意组合作为输入，实时生成文本、音频、视频任意组合的输出

3. 语音模式

语音模式交互也做了升级，在GPT-4版本时，语音模式交互，GPT-4有几秒的延迟，音频输入时可能会因为处理方式丢失信息。GPT-4也无法获取语音内容的音调、环境中的背景音等，更无法模拟人交流时被打断的停顿和说话时的语气
GPT-4o解决了上述的问题，在与人交互时反应速度和人的反应相近，也能获取语音内容中的语气语调，并对其描述

三、个人感悟

GPT-4o总的来说就是反应更快且带有感情，能更接近于人的角色进行交互体验
如果后续的版本能够完美实现与人无差异模仿，这个东西应用在一些软件平台或者机器人上，可能是会造福某些行业或者企业，但相对的，也会造成一些行业或者企业的消失。
对AI的看法，个人的拙见就是两个，一是充分利用AI创造个人和企业财富，二是通过AI创造社会价值。
这两个有时会冲突，但以人为本是亘古不变的真理。
欢迎评论区发表自己的看法！

感谢阅读，祝君暴富！

原文链接: https://hanshan.blog.csdn.net//article/details/139297086