传媒行业专题研究:Vidu~国内AI视频生成模型新突破.pdf

  • 上传者:药到病除
  • 时间:2024/05/10
  • 浏览次数:95
  • 下载次数:4
  • 0人点赞
  • 举报

传媒行业专题研究:Vidu~国内AI视频生成模型新突破。全球AI大模型持续迭代,持续看好视频等多模态发展前景 今年以来,全球AI大模型端都持续迭代升级,包括海外的Sora、Llama3 等,国内的Kimi、昆仑天工AI、阶跃星辰等。4月27日,北京生数科技有 限公司联合清华大学发布了中国首个长时长、高一致性、高动态性视频大模 型Vidu。行业的发展进度有望不断催化传媒相关板块的发展,我们看好:1) AI视频大模型依赖多样化训练数据,高质量视频素材库价值凸显;2)AI大 模型助力应用场景发展。我们推荐:昆仑万维、光线传媒、捷成股份、值得 买。其他产业链标的包括华策影视、中文在线、中广天择、掌阅科技等。

Vidu:国内AI视频生成模型新突破

Vidu采用了团队原创的Diffusion与Transformer融合的架构U-ViT,能够 一键生成长达16秒、分辨率达到1080P的高清视频内容,其拥有丰富的想 象力,能够模拟真实物理世界,并具备多镜头生成、时空一致性高等特点。 核心团队来源于清华大学人工智能团队,首席科学家为清华人工智能研究院 副院长朱军。公司的多模态大模型为全栈自研,能够融合文本、图像、3D、 视频等多模态信息。除文生视频外,公司在文生图、3D生成等多模态能力 上均有所造诣。

Vidu快速进化,与Sora差距不断缩小

2024年1月,生数团队实现4秒视频的生成,已可以达到Pika、Runway 的效果,至3月底实现8秒视频生成,4月实现16秒视频生成,在3个月 内生成时长提升至4倍,且据4月27日中关村论坛中生数领军人朱军的发 言,Vidu会以更快的速度迭代,与Sora差距将越来越小。Vidu生成视频的 运动幅度较大。除Sora外,目前文/图生视频较难做到让人物做出复杂动作, 因此为了保证画面畸变最小,视频生成的策略为选择小幅度的运动,较难设 计复杂动作,难以处理场景和人物的一致性问题。Vidu在保证了时空一致性 的前提下运动幅度较大。分辨率赶上第一梯队,但仍为固定比例尺寸。

Vidu模型使用U-ViT架构,多模态、效果好、成本低

在U-ViT前,Diffusion模型中的主流主干(backbone)一直为基于CNN的 U-Net。U-ViT是生数科技团队设计的一种简单通用的、基于ViT的架构, 使用Diffusion生成图像,打响了扩散模型中CNN被Transformer取代的第 一枪。模型首先对输入图像进行分割处理(分割为patch),与时间和条件一 道表示为token后通过Embedding层,随后经过Transformer Block后输出 为token,并通过一个线性层转为图块,最后通过一个可选的3X3卷积层输 出为最终结果。此外,U-ViT成本优势大幅领先,主要得益于ViT架构的训 练成本较低。

1页 / 共23
传媒行业专题研究:Vidu~国内AI视频生成模型新突破.pdf第1页 传媒行业专题研究:Vidu~国内AI视频生成模型新突破.pdf第2页 传媒行业专题研究:Vidu~国内AI视频生成模型新突破.pdf第3页 传媒行业专题研究:Vidu~国内AI视频生成模型新突破.pdf第4页 传媒行业专题研究:Vidu~国内AI视频生成模型新突破.pdf第5页 传媒行业专题研究:Vidu~国内AI视频生成模型新突破.pdf第6页 传媒行业专题研究:Vidu~国内AI视频生成模型新突破.pdf第7页 传媒行业专题研究:Vidu~国内AI视频生成模型新突破.pdf第8页
  • 格式:pdf
  • 大小:2.6M
  • 页数:23
  • 价格: 2积分
下载 兑换积分
留下你的观点
  • 相关标签
  • 相关专题
热门下载
  • 全部热门
  • 本年热门
  • 本季热门
分享至