AI行业更新报告：大模型“开源、轻量、端侧”化，视频与语音加速落地.pdf

上传者：0******
时间：2024/08/12
热度：484
0人点赞
举报

AI行业更新报告：大模型“开源、轻量、端侧”化，视频与语音加速落地。大模型能力提升阶段性放缓之际，我们提示关注“AI落地”进展：如大模型侧“开源”“轻量”“端侧”化趋势显著，视频、音频等领域AI自6月以来更新频出。

大模型侧：开源能力快速提升，轻量化趋势显著。2024年以来，大模型发展呈现三大趋势：1）开源模型发展，能力快速接近闭源产品水平；2）“轻量化”，模型“性价比”快速提升；3）端侧模型发展， AI 硬件已经开始布局。这些都意味着 AI 大模型的发展在向着落地可行方向进发。

AI生成视频：能力兑现有望加速。自从2024年2月OpenAI sora 演示视频放出，AI视频领域的行业标准被显著提高，而经历4个多月的积累后，6-7 月国内外多个团队交出“类sora”产品的首份答卷：国内有多次迭代、面向全球、快速商业化的快手可灵，从文本大模型发家的独角兽企业智谱；海外则有持续保持高生成质量的 Runway Gen3 Alpha、有 3D 生成相关经验帮助的Luma。这些产品的生成效果都比“前sora 时代”的产品有显著提升，预示着 AI 视频领域的预期或加速兑现。

语音功能：或助推AI产品迭代。GTP-4o的高级语音功能已经在7 月底开始小范围测试，这一功能使得 AI 可以从用户语音中获得情感、语调等更丰富的信息，回应时也可以体现出语调等更丰富的表达，且交互延迟小、可被打断，AI语音交互的体验预计有显著提升。该领域AI技术的发展有望对教育、情感陪伴等应用场景的使用有改进效果，对人机交互体验提升将有所帮助。