北京时间5月14日凌晨,OpenAI 发布了新一代旗舰生成模型 GPT-4o,这是一款真正的多模态大模型,可以「实时对音频、视觉和文本进行推理」。核心亮点包含:支持与 AI 实时语音对话,且响应时间达到毫秒级;交互中可识别人类情绪并以相应的情感做出回应;多语言能力的提升。
包括 OpenAI CEO 山姆・奥特曼在内的很多人都联想到了科幻电影《Her》里那个幽默风趣、善解人意、似有心灵感应一般的 AI,GPT-4o 在语音视频上的交互能力,让科幻正在加速走向现实。
大模型的实时音视频交互成趋势RTC成关键能力
相比于 GPT3.5、GPT4,GPT-4o 最核心的区别在于文本、视觉和音频由同一个神经网络处理,不仅降低了延时,还捕捉到了更多的信息。此前基于 GPT3.5或 GPT4的 AI语音助手是通过 STT 将语音转成文字再输入给大模型,大模型生成文本响应后再通过 TTS 输出语音给到用户,平均延时达到2.8秒(GPT-3.5)和5.4秒(GPT-4)。而GPT-4o 直接将语音实时输入给大模型,并大幅提升响应时间,最终实现了与真人聊天一样自然流畅,AI的处理反应已经达到人类的高度和速度,而实现这一跨越式技术进步的关键,一是大模型的进化,二是RTC能力的应用。
GPT-4o 的发布引起了业界的广泛关注与强烈讨论,也透露出一个重要的信号: 支持端到端实时多模态将成为当下大模型发展的新趋势,实时文本、音视频传输能力,将成为实时大模型的标配。在 GPT-4o 的推动引领下,未来其他大模型厂商或将快速跟进,提供端到端实时多模态能力。
未来大模型的AI交互将更具真实感
GPT-4o 还有一大核心亮点就是支持实时视频输入,通过前置摄像头设别你周围的环境,观察用户的面部表情,分析其情绪,再根据场景生成多种音调 Tones,带有人类般的情绪和情感,如兴奋、冰冷、含羞等,通过实时视频输入还能让它在线解答各种问题,支持数**算、游戏输赢判断等。
通过实时语音、视频输入信息的理解和高度拟人化的语音输出,GPT-4o 所呈现的 AI 交互 更具真实感与沉浸感,这也是所有大模型一直在发力的方向,未来借助低延时、高音质的 RTC 技术,有望打造更极致的人与 AI 交互体验。
图:相比 Whisper-v3,GPT-4o 在语音识别性能方面有了大幅提升
图:GPT-4o 的视觉理解评估能力也遥遥领先
在大模型的应用场景方面,除了已经在应用的AI口语老师、AI电话客服、AI社交陪聊场景,未来实时互动+AI+智能硬件也有望诞生新的场景。想象一下,一款加载了GPT4o 的智能眼镜或耳机可以变成你工作中的助手,解答各类难题,也可以是生活中的“倾听者”陪你聊天,也可以是旅游中的虚拟导游,为你提供视觉攻略,这很可能是下一个时尚与科技兼具的爆款硬件。
在GPT-4o 发布后,很多网友也提到了 GPT-4o 的社会公益价值,例如大模型通过智能眼镜的摄像头开启视觉能力后,可以给盲人带来精准的路线导航,盲人通过与搭配大模型的智能眼镜对话问路,智能眼镜在识别人周围的环境后,做出最精准的路线指引。
声网AIGC 一站式音视频解决方案
针对大模型的交互能力,声网目前已可以提供 基于大模型的全链路实时音视频方案,可以帮助大模型厂商构建实时音视频互动的能力,用户可通过麦克风与 AI 进行语音、视频形式的实时互动,并且对话中做到行业内遥遥领先的低延时对话体验。
声网的 AIGC 一站式音视频解决方案也可以实现像 GPT-4o 的音频对话能力。声网提供封装完整的 SDK,并支持模块化能力的灵活拼装,包含 RTC 实时音视频、实时消息等多种能力,并支持 API 快速调用,提供开箱即用的场景化 Demo,最快 3h 即可实现方案快速验证。尤其对于想快速验证新场景的企业与开发者而言,可以节省很多开发时间。
如您想进一步了解声网的 AIGC一站式音视频解决方案,可以在声网公众号找到这篇文章,扫描文章底部的二维码进一步咨询。
(免责声明:此文内容为广告,相关素材由广告主提供,广告主对本广告内容的真实性负责。本网发布目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,请自行核实相关内容。广告内容仅供读者参考。)
发表评论
2024-05-20 19:52:08回复
2024-05-20 15:10:59回复
2024-05-20 19:14:58回复
2024-05-20 19:12:47回复
2024-05-20 16:33:27回复
2024-05-20 21:48:23回复
2024-05-20 19:15:32回复
2024-05-20 21:03:39回复
2024-05-20 18:16:59回复
2024-05-20 16:34:15回复
2024-05-20 19:07:00回复
2024-05-20 17:55:21回复
2024-05-20 14:34:50回复
2024-05-20 22:10:58回复
2024-06-15 23:56:25回复
欧洲杯16强对阵萌图:https://hxay.cn/zq/14133.html
欧洲杯单场进球规则:https://wuhualis.cn/zq/11468.html
欧洲杯意大利积分多少:https://sjliquan.com/zq/18053.html
欧洲杯双牙大战:https://guyufeng.com/zq/9918.html
pogba 欧洲杯:https://nbccjd.com/zq/12468.html
2000年欧洲杯皮雷:https://nbmanyang.com/lq/12899.html
俄罗斯欧洲杯进球:https://wlytf.com/zq/9800.html
08欧洲杯经典视频:https://dayangcn.com/zq/20362.html
欧洲杯勒夫夺冠:https://hongjizs.com/zq/23950.html
2019丹麦欧洲杯四强:https://gjuvdvn.cn/zq/10305.html
欧洲杯cctv7:https://baobaotn.com/zq/25491.html
欧洲杯德国vs波黑比分预测:https://lijiminga.cn/lq/15540.html
欧洲杯2021网址:https://fqgsohx.cn/lq/11940.html
世界杯欧洲杯各届冠军:https://zhongqq.cn/zq/4896.html
欧洲杯彩票什么规则:https://szkunshan.com/zq/10886.html
欧洲杯西班牙vs意大利录像:https://jmdelijia.com/zq/11764.html
欧洲杯新型骗局视频:https://landbinhai.com/zq/10108.html
欧洲杯顶级球员都有谁:https://zjjszx.net/zq/10417.html
欧洲杯彩票奇葩中奖号码:https://rzrwsru.cn/zq/10462.html
2024-06-16 15:35:37回复
欧洲杯大冷门:https://xdzhimaiguan.com/zq/8508.html
欧洲杯配色刺客8:https://cdgedi.com/zq/10363.html
欧洲杯猜球大神:https://spbzp.com/zq/15321.html
欧洲杯错觉:https://zedkrqq.cn/zq/7693.html
往年欧洲杯提成:https://hbfhl.com/zq/11267.html
为什么现在有欧洲杯冠军:https://rzrwsru.cn/zq/13440.html
欧洲杯芬兰谁死了:https://streetzone.cn/zq/12031.html
英格兰欧洲杯最新排名次数:https://hsycy.com/zq/10972.html
本届欧洲杯举办地点:https://hhfbinr.cn/zq/22099.html
欧洲杯比利时上场阵容:https://huiyangmedia.com/zq/14093.html
足球欧洲杯时间表格下载:https://fissiond.com/lq/23848.html
我想看2020欧洲杯:https://ssltime.com/zq/13274.html
2020欧洲杯32支球队:https://njdjqcfw.com/zq/15833.html
格勒诺布尔欧洲杯:https://borehome.com/zq/13116.html
欧文最新预测欧洲杯视频:https://tonghuaju.com/zq/15066.html
2020欧洲杯法国淘汰了吗:https://tonghuaju.com/zq/14076.html
魔百盒欧洲杯广告:https://ynjsxy.cn/zq/9380.html
1992年欧洲杯多少队伍:https://stslyl.com/zq/15514.html
广东欧洲杯现状:https://vdbdtvd.cn/zq/12164.html