人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf

  • 上传者:K********
  • 时间:2024/09/04
  • 热度:936
  • 0人点赞
  • 举报

人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点。交互型多模态大模型是指跨越单一模态的限制,支持文本、音频、图像、视频 等模态任意组合的输入输出,能做出实时的、“类人”的理解和反馈,可以跟 人无缝交流的大模型,目前最具代表性的是OpenAI的GPT-4o。特点如下: 1)原生多模态:跨文本、视频和音频等模态端到端训练的大模型,所有输入和 输出都由同一神经网络处理。2)快速响应:能做到极低延迟,响应速度比肩人 类,且可以做到对话随时打断。现在GPT-4o能在短至232毫秒、平均320毫秒 的时间内响应音频输入,而过去GPT-3.5平均延时为2.8秒、GPT-4为5.4秒。 3)情感表达:回复有“人味”,情绪饱满,会带来极强的交互沉浸感。4)记 忆:能回忆并联系此前“看”到的信息做出回答,而不是仅仅依靠当前输入。

交互型多模态大模型成本将降至几何?大模型降本趋势显著。8月,OpenAI发 布更强且更具性价比的GPT-4o新版本,相比5月版本价格下降超40%至$4/100 万 tokens。按照这个趋势,我们预计以GPT-4o为代表的交互型多模态大模型的 成本将继续快速下降,每百万tokens的推理成本或将在两年内降至美分量级。

交互型多模态大模型进展如何? OpenAI与谷歌双巨头抢滩,分别发布GPT-4o 和AI智能体项目Project Astra,Meta也于2024年5月发布具有原生多模态特 性的Chameleon-34B。国内的大模型多处于语音交互阶段,商汤领衔发布流式 多模态交互大模型“日日新5o”,智谱面向C端开放“视频通话”功能。

为什么交互型多模态大模型有望带来应用的爆发?1)人类生活在一个由多种 模态信息构成的世界,会同时收到多个互补的、融合的、不同模态的感官输 入,多模态更符合人类感知周边、探索世界的方式。2)应用是连接人类意图与 信息及技术实现的媒介,其本质是交互。我们认为从PC互联网时代,到移动 互联网时代,再到现在的AI时代,应用发展的核心就是人机交互的不断进化与 深化。所以在大模型迭代过程中,性能提高固然重要,但交互的升级也同样具 有重大价值,交互型多模态大模型的出现有望推动人机交互变革——向更为简 单的自然语言交互形式发展。

交互型多模态大模型会带来怎样的应用?我们将交互型多模态大模型的应用分为:1)数字智能,大模型提供软件形式的服务,主要应用场景包括教育、编 程、医疗健康、游戏、情感陪伴等。2)具身智能,需要硬件支持来实现三维空 间内的运动行为,如人形机器人、智能家居、智能座舱等。

交互型多模态大模型商业模式展望:1)聊天助手APP。2)作为基础模型接入 各类应用。3)与终端OS深度融合成为AI时代的“超级入口”。

1页 / 共39
人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf第1页 人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf第2页 人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf第3页 人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf第4页 人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf第5页 人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf第6页 人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf第7页 人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf第8页 人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf第9页 人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf第10页 人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf第11页 人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf第12页 人工智能行业专题报告:交互型多模态大模型有望带来应用的爆发起点.pdf第13页
  • 格式:pdf
  • 大小:3.9M
  • 页数:39
  • 价格: 6积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
热门下载
  • 全部热门
  • 本年热门
  • 本季热门
分享至