传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf

  • 上传者:九阳神功
  • 时间:2024/04/07
  • 浏览次数:105
  • 下载次数:2
  • 0人点赞
  • 举报

传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章。 为什么要探讨多模态?从大模型赋能企业发展的三种模式出发。我们认为大 模型的多模态迭代将直接影响下列三种模式的应用水平——1)大模型+原有 业务:常见于科技大厂,利用大模型提升传统业务的智能化程度,同时用传 统业务的庞大数据资源反哺大模型迭代。2)开源大模型+AI 产品:大量中小 开发者申请部署开源大模型去开发各自的 AI 产品,降低研发成本。3)垂类 模型+行业数据:适合拥有海量高质垂类数据的中大型企业,需要基于一个 通用大模型作为底座。这三种模式包罗各行各业的大中小企业、没有优劣之 分,会随着多模态 AI 的迭代不断碰撞出新的火花。

多模态方面,建议关注预计确定性较强的【文本】、后续期待值高的【视 频】、短期爆发力强的【音频】三大方向。1)文本:面对海外大模型的一超 多强,国产大模型在追赶中已探索出差异化优势。Kimi(月之暗面)和冒泡鸭 /MoE(阶跃星辰)在中文语义、长文本方面表现亮眼。预计下一阶段的文本差 异化竞争可能是用户的定制化竞争——基于在手用户的特征搜集,形成更深 的产品护城河。2)视频:Sora 尚未公测之际,国内厂商也交出有竞争力的答 卷。爱诗科技在发展早期就探索当前大火的 DiT 架构,其产品 PixVerse 在测 评表现中不输 Runway、Pika 等头部厂商。AI 生成视频已经可以希冀商业化 用途,进而衍生出对视频语料库和 IP、版权的强烈需求,拥有高质量视频语 料库的公司将具有竞争优势。3)音频:在 TTS、语音设计、SVC 三种产品 类型里,我们认为前两者的市场潜力更大,TTS 发展更成熟,特别是科技大 厂未来可能会与传统业务结合释放巨大潜力。语音设计技术难度更高,看好 Suno 的研发投入空间和后续迭代,长期有望改写音乐创作市场格局。SVC 更 工具化,OpenAI 发布的产品猜想会是一个中间形态,远期价值在于与 AI 视 频、或其他模态的结合。

【图片】发展趋于成熟,【3D】则处于萌芽期,两者都有望反哺 AI 视频。虽 然图片和视频都对素材训练要求极高,但是 AI 图片的产品/社区成熟度显著 高于视频,头部 AI 图片产品的用户访问量更趋稳定(榜单变化小)。目前风 格和角色一致性都有不错的进展,后续关注场景一致性若得以解决,或意味 着 AI 生图正式进入规模化商业进程,连带 AI 视频的一致性也可能受益并得 以突破。AI 生成 3D 模型目前仍处早期,精度不足限制商业化,长期看有望 助力 AI 视频和游戏、电影行业的发展。

1页 / 共25
传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf第1页 传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf第2页 传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf第3页 传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf第4页 传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf第5页 传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf第6页 传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf第7页 传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf第8页 传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf第9页 传媒行业研究报告:多模态AI的五重奏,国产大模型的探索序章.pdf第10页
  • 格式:pdf
  • 大小:2.5M
  • 页数:25
  • 价格: 3积分
下载 兑换积分
留下你的观点
  • 相关标签
  • 相关专题
热门下载
  • 全部热门
  • 本年热门
  • 本季热门
分享至