2023年3D行业专题研究报告:AI的下一个涌现
- 来源:方正证券
- 发布时间:2023/09/15
- 浏览次数:722
- 举报
3D行业专题研究报告:AI的下一个涌现.pdf
3D行业专题研究报告:AI的下一个涌现。一、文生2D复盘:“千万级数据和亿级数据”是关键我们认为亿级数据量将是3D出现涌现能力的一个重要突破节点。在梳理了2D图像发展路径之后,我们发现有三个重要节点值得关注。1)领跑模型出现:扩散模型逐渐领先于GAN、自回归模型,成为2D生成模型中主流模型;2)首个千万级2D数据集出现:ImageNet数据集已拥有22000类约1500万张标注图像,基于ImageNet的比赛ILSVRC诞生了AlexNet、VGG、GoogleNet等经典的深度学习网络模型;3)破亿数据集的出现:LAION数据集通过爬虫突破上亿数据量,StableDi...
一、文生2D复盘:“千万级数据和亿级数据”是关键
2D模型数据量变大,涌现能力出现
涌现能力的定义:在小模型中没有表现出来,但是在大模型中变现出来的能力。涌现能力大概可以分为两种: 通过提示就可以激发的涌现能力和使用经过特殊设计的prompt激发出的新的能力。无论哪种涌现能力,当模 型规模超过一个临界值时,效果会马上提升。 以LeNet和AE为例,涌现能力在CV计算机视觉任务中也有所体现。 LeNet是由Yann Lecun(2018年图灵奖得主 创造,其在手写体字符识别领域创造性引入卷积神经网络,是CNN的发展起点,通过观察LeNet在MNIST 21上 训练的结果,随着模型参数的增加,测试精度显示出不可预测的大幅增长;而在CIFAR100图像数据集上训练 的自编码器(AE)随着模型参数的增加显示陡峭的均方重建误差变化。
扩散模型领先于GAN、自回归模型
扩散模型(diffusion models)成为2D生成模型中主流模型,逐渐领先于GAN、自回归模型,显著提高了 图像生成的稳定性、准确性和多样性。并且扩散模型在诸多应用领域都有出色的表现,如计算机视觉,NLP、 波形信号处理、多模态建模、分子图建模、时间序列建模、对抗性净化等。
ImageNet:首个千万级别2D数据集,借助众包平台完成
ImageNet数据集09年发布,目前包含约1500万张标注图像。ImageNet数据集由斯坦福大学教授李飞飞牵头从 2007年开始收集建立。2009年发布时包含有320万张图像,是当时最大的2D图像数据集。经过发展,ImageNet 数据集已拥有22000类约1500万张标注图像。 ImageNet来源于网络图像,借助众包平台(Mechanical Turk)完成。数据集的大量图像数据来自于日益增长 的网络平台,考虑到手动标注工作的大量人力需求,研究团队借助于Mechanical Turk(亚马逊开发的众包平 台)完成这项工作。
多个重量级算法诞生于ImageNet数据集
基于ImageNet的比赛ILSVRC每年举办一次,从2010年开始举行,2017年后的比赛由Kaggle社区主持。比赛逐渐 成为全球大型赛事,2016年有172个作品参赛。短短7年内,分类领域的错误率就从0.28降到了0.03。 以扩散模型为基准,ILSVRC冠军算法中AlexNet(12年)、GoogleNet(14年)、ResNet(15年)、SENet(17 年)等算法均超过扩散模型的影响力(以年均被引用量表示算法影响力)。比赛的历年优胜者中,诞生了基于 ImageNet训练的AlexNet、VGG(2014年定位比赛冠军)、GoogleNet等经典的深度学习网络模型。冠军算法历年 的测试错误率在6年间从15%下降到2%,极大地推动了计算机视觉领域的发展。
LAION:破亿数据集出现,模型落地离不开亿级数据
LAION(拥有全球成员的非营利组织)在2021年公布的LAION-400M是当时最大的公开图文数据集,22年10月发 布的LAION-5B是上一版本的14倍。网络爬虫带来数亿级别公有数据集。LAION的收集使用加州非营利组织 Common Crawl收集到的代码来定位网络上的图片,并将它们与描述性文本关联起来,对人工的依赖性很小。 上亿数据集成为图像训练模型成熟应用的必要条件。LAION的数据集已经被用于文生图的生成器,包括谷歌 Imagen和Stable Diffusion。同时,其他已落地图像生成应用的国内外公司均是在上亿级别的2D图像数据集进 行模型训练取得满意效果。
二、3D研究框架:已破千万级数据集,OpenUSD加速数据集扩张
3D发展研究框架
OpenUSD统一数据表现形式和文件格式,提供3D发展加速度。3D数据集数据记录形式多样,包含点云、体素等, 以往模型往往针对不同形式有不同的算法;同时,3D数据文件格式多样,跨文件转化不易,也提高了数据集收 集门槛,限制了3D数据集的发展。而OpenUSD的推进有望解决以上问题,进一步解决数据集规模问题。 更大数据集和更好模型相互促进发展。基于更大3D数据集进行的训练能够得到更好的3D生成质量。生成结果经 过简单处理可以大大减少人工建模时间和步骤,从而进一步扩大3D数据集,至此3D生成领域良性循环发展。
3D模型表示方式多样,隐式表示越来越受重视
主要数据表示方式:隐式表示,其中INRs(隐式神经表示)被用于3D主流模型NeRF中,受到学界重视。3D数据 的世界没有一致性,目前已有的3D数据集表示方法包括点云、网络、体素、多视角图片等,不同的表示采用的训 练路径也大不相同。 隐式表示解决了显式表示造成重叠、消耗内存等缺点,适用于大分辨率场景,INRs甚至可以生成照片级的虚拟 视角。NeRF模型首次利用隐式表示实现了照片级的视角合成效果,也将隐式表示推向新的高度。
通用格式解决模型互导问题,USD简化3D文件访问
3D文件格式多样,适用领域不同,模型互导问题通过通用文件格式解决。3D创建需要各种工具和平台的搭配利 用,其他应用程序无法编辑甚至读取,带来了模型互导的问题,导致3D文件格式众多,种类有数十种。多软件 之间对同一模型进行编辑操作时先将模型文件另存为通用格式,再导入到其它软件。 USD作为一种通用软件,支持移动端等途径的便携访问和读写。许多传统3D模型为本地客户端设计,需要极高 的硬件配置才能正常浏览,存储占用较大且文件打开速度慢。而对于.usd/.usdz文件格式,用户可像浏览普通 照片或者文本一样在桌面端、Web端、移动端、AR/VR等终端正常浏览。
USD统一3D表示标准,OpenUSD联盟降低USD使用门槛
USD承担互联网3D时代的HTML角色。23年8月8日SIGGRAPH大会上,NVIDIA创始人黄仁勋表示:“正如 HTML点 燃了2D互联网的重大计算革命,OpenUSD也将开启协作式3D和工业数字化的时代。” AOUSD不断降低USD文件学习和使用门槛,推动USD成为3D标准。USD是由皮克斯公司(Pixar)开发的开源格式, 可以在不同的工具间进行内容创作和交换,但学习曲线陡。针对这一问题,致力于推动USD文件格式发展的 OpenUSD联盟(AOUSD,由皮克斯、Adobe、苹果、Autodesk和英伟达与Linux基金会下属组成)开展了一系列 有效举措,如NVIDIA Omniverse™ 平台,来降低用户的使用阻力。
首个千万级数据集出现,3D发展来到2D的“2020-2021年”
2023年7月11日发布的Objaverse-XL数据集包含1020万3D资产,对比于Objaverse1.0版本增加一个量级。 bjaverse-XL通过对互联网上3D对象的类源进行爬虫获取,实例涵盖生活、虚拟多样化场景,最终获得了1020 万已渲染的高质量3D文件数据。 类比于2D生成发展路径,3D生成出现了具有统治地位的NeRF模型和千万级数据集Objaverse-XL,3D发展来到 2D的“2020-2021年”。可以预见当未来数据集成长到亿级,3D生成也将迎来爆发。
数据集越大,新视角图片更优,3D生成效果更好
对已有算法PixelNeRF(NeRF的一种改进方法)和Zero123(一种文生图模型)进行训练,发现通过基于更多 数据进行训练,3D质量有显著的改进。 PixelNeRF随着数据集量级变大,图像质量评估指标PSNR(Peak Signal-to-Noise Ratio,峰值信噪比,数值 越大表明失真越少)变大,表明新生成的视角图像质量越好,有利于提高后续三维重建质量;对使用 Objaverse-XL(1000万量级数据)、Objaverse(800万量级数据)训练得到的Zero123-XL和Zero123比较,发 现生成的3D资产侧面、背面的完成度有显著的提升。
3D资产建模流程长,免费实例不足
原有3D建模流程长,具有资产属性。3D资产在游戏、动画公司等均属于资产,目前大多数实例由Blender和 Maya3D等建模软件手工设计,人工建模涉及环节多,主要流程有:寻找实例-粗略布局-细节说明-纹理-渲染检查,且建模过程需要大量时间和专业知识。 3D资产昂贵,免费实例不足。公开的免费实例较少,成为阻碍3D数据集扩展的主要原因。在号称世界上最大 的3D内容库平台Sketchfab上,3D模型每个价格从$3-$500不等。
3D生成质量变好,模型产物补充3D数据集内容
3D模型训练效果依赖于3D数据集,但目前的数据集量级无法激发出模型的涌现能力,对生成的AI+3D资产进 行人工进一步优化所需要的时间和人力成本依然巨大。 目前数据集仍然是3D生成领域发展的重中之重。更大规模的数据集一旦能够出现,AI+3D模型的质量会随之变 好,因此,模型生成的3D资产在经过简单的加工之后即可补充到3D数据集中,良性循环由此开启。
三、文生3D的方向-扩散模型+NeRF
3D生成产业方向-文生3D是最终需求
目前存在4类3D生成路径,实现难度从易到难。文生3D是终极需求,将3D资产从“专业的”变成“大众的” 。 在生成质量、速度、落地程度方面,扫描得3D、视频生3D已经较为成熟,但主要受限于机器的可达性差,没 能获得广泛关注;图生3D在特定场景下正逐步落地。相比于前三种方法,文生3D可以直接生成文字描述的场 景,甚至现实中不存在的事物,对于没有专业知识的普通人更加友好,且不需要提前准备扫描仪等额外设备。
扫描得3D:成熟落地,手机即可实现
3D扫描技术结合数字三维重建等技术手段,利用三维扫描设备,可以对自然或人工合成物体进行建模,重建 真实物体的三维模型,目前已广泛运用于建筑保护、CT扫描、AR/VR等领域。 随着时间的发展,扫描仪的可得性、便携性逐渐增强。2015年安德鲁·塔隆团队就为巴黎圣母院大教堂完成 精度5mm的激光扫描和三维建模,越来越多的扫描工作让古物永久保存。2020年iPad Pro出现用于3D扫描和增 强现实的深度传感器(LIDAR),配合应用程序3D Scanner Pro可以进行3D扫描。iOS 12的Quicklook功能更是 可以用USDZ格式将3D模型分享给其他人。苹果RealityScan依靠手机的摄像头就可以实现扫描建模,iOS端和安 卓版本均已发布。
视频生3D:成熟落地,具备动态实时建模能力
视频生成3D的技术已有落地产品,对于设备的要求越来越低,目前已经可以做到动态实时建模。无需激光 雷达或捕捉设备,现在只需要一部手机或者一段视频,即可进行三维场景重建。 22年开放网页版的Luma应用,以NeRF为核心,仅仅通过iPhone即可通过 AI创建3D;2022年10月,Connect大 会上,扎克伯格技术演示中展示了Codec Avatars 2.0的最新进展,Instant Codec Avatars只需用智能手机 从不同角度扫描人脸再进行各种表情的扫描,数小时可生成精细的虚拟化身;CYAN.AI平台以CNN(卷积神经 网络)和DNN(深度神经网络)为核心,从2D视频中提取人体运动的关键特征进行身体姿势识别,生成的3D 成果还可以与Unity集成。
图生3D:距离真正商用还有一定距离
相比于扫描,图生3D只需要数十张甚至数张真实场景图片即可完成建模。从目前阶段来看,图生3D模型的 发展还处于实验室阶段,距离真正商用还有一定的距离。3D生成技术中的NeRF模型的本质就是图生3D。输 入是一组二维图像和相应的摄像机参数(包括相机位置和方向),输出是表示三维场景中每个点的颜色和密 度的函数。 科技公司在不断尝试研发对应的工具。已有的应用公司包括付费应用Kaedim,用户最少仅需上传一张照片, Kaedim3D即可识别出图中物体的3D形态,并用可导入几乎所有主流软件的格式输出给用户;另外,免费3D模 型生成工具PIFuHD可以配合其他2D图像生成软件生成3D模型,但模型并不能直接导入虚幻引擎或者研发引擎 当作游戏角色或者NPC。
文生3D:学界以科技巨头紧密发力领域
应用端能够支持文生3D的平台很少(如3dfy.ai、Tafi、Masterpiece Studio平台),具有时间长,复杂模 型精度低等问题,仍未达到运用于产业生产环节的标准。 2023年6月,Tafi发布文生3D引擎,受限于数据集,其生成内容主要是3D人型角色。领先的3D内容和软件提供 商Tafi利用专业美术师支持的原创角色平台“Genesis”庞大的3D数据集,宣布可以从文本创建3D角色,可生 成数十亿个3D角色变体。生成的结果可导出到各种 DCC 工具,将高质量角色输出到流行的游戏引擎和 3D 软 件应用程序,例如 Unreal、Unity、Blender、Maya、Maxon Cinema 4D等,但受限于训练数据来自3D角色资 产,Tafi的生成内容主要集中于人型角色。
四、文生3D成本测算:迭代次数万级以上
2D生成需迭代约20-50次
以2D为例,迭代次数越多,生成质量越高,对象越复杂。一般情况下,2D场景迭代20-50次左右即可实现要 求。根据我们实机测试,利用RTX 3090显卡,在Stable Diffusion中,同一指令来生成的3组2D图片发现: 2D模型的迭代速度约为每秒2.1次-4.1次迭代,且速度边际提升。
3D资产算力-生成时间约3-4小时/个
采用3D模型Zero123,单场景3D资产生成需要迭代30000次左右,在RTX 3090显卡(24GB)上运行约3.3-4.2小时。 根据我们实机测试的结果,在Zero123算法下,设定迭代30000次时生成的3D成品相对可行。文生图模型的过程首 先经过文生图片过程(时间几乎可以不计),再通过生成的新视角图片利用NeRF模型生成3D资产。利用3090显卡 (24GB)且显存使用率约50%(即12GB左右)时运行文生3D模型,对处理过的单场景图片,根据测算,每秒迭代次 数约2.35次。总优化时间(小时)=迭代次数/每秒迭代次数/60seconds/60minutes。对于需要迭代30000次的单场 景来说,生成一个3D模型需要3.3-4.2小时。
3D资产算力-生成成本约5元/个
使用RTX 3090显卡在Zero123模型下迭代30000次,生成一个3D资产的算力成本约5元左右。若在RTX 3090上运行 文生图3D模型Zero123,按照RTX 3090显卡每小时1.39元租金计算,若每秒迭代2.25次,需要迭代30000次,则3D 资产算力成本=5.15元(30000次/2.25次/s/60min/60sec*1.39元/hour)。未来随着模型的发展成熟,假设迭代 速度变快到当前常规水平的2倍,在3090显卡生成一个3D资产算力花费约2.6元左右。 文生3D资产算力成本远远低于市场3D资产购买价格,具有价格优势。在3D模型的在线内容库sketchfab上,即使 简单难度的3D资产所需要的时间在2-15小时左右,购买费用在3-40美元区间,远远大于AI+3D生成成本。
报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- PolyWorks:2025年掌握现代化3D测量计划白皮书.pdf
- 先进封装之 封装设备 VitroX
- 凡拓数创研究报告:AI+3D能力禀赋,打造低空经济数字生态.pdf
- 凡拓数创研究报告:深耕数字创意行业,AI+3D打开成长空间.pdf
- 3D视觉技术专题:可应用于ARVR、机器人等下游,迎千亿蓝海.pdf
- 正泰安能:向设计要效益:AI自动化设计的实践与回报.pdf
- 艺恩报告:智驾未来:AI重塑汽车消费新纪元.pdf
- 清鹏算电:AI与电力市场应用探索——清鹏能源大模型智能体实践与展望.pdf
- 启信慧眼:全球布局洞见先行:构建AI时代的供应链韧性-2026供应链风控白皮书.pdf
- 计算机:通过AI原生,提升驾驶敏捷性和商业价值统一采购平台(英文版).pdf
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 3D行业专题研究报告:AI的下一个涌现.pdf
- 2 3D视觉技术专题:可应用于ARVR、机器人等下游,迎千亿蓝海.pdf
- 3 先进封装之 封装设备 VitroX
- 4 凡拓数创研究报告:AI+3D能力禀赋,打造低空经济数字生态.pdf
- 5 凡拓数创研究报告:深耕数字创意行业,AI+3D打开成长空间.pdf
- 6 2024年中国3D产业行业市场研究报告
- 7 AT-3D视觉产品型录.pdf
- 8 3D小人-静态.pptx
- 9 PolyWorks:2025年掌握现代化3D测量计划白皮书.pdf
- 10 人工智能AI产业链全景图.pdf
- 1 PolyWorks:2025年掌握现代化3D测量计划白皮书.pdf
- 2 中国AI智慧操场行业研究报告.pdf
- 3 新能源行业深度研究报告:新能源+AI三大方向展望,加速增长期来临.pdf
- 4 金域医学研究报告:数据资产价值重估,AI技术驱动创新应用场景拓展.pdf
- 5 MIM(金属粉末注射成型)行业专题报告:MIM在机器人、AI、消费电子领域应用前景广阔:破界生长,智领未来.pdf
- 6 医疗AI专题报告:多组学篇,AI技术驱动精准诊断实现重要突破.pdf
- 7 AI的宏观悖论与社会主义全球化.pdf
- 8 洞隐科技2025中国物流与供应链领域AI应用研究报告.pdf
- 9 电力设备与新能源行业深度报告:AI动力打造固态电池发展新引擎.pdf
- 10 2025年金融服务业中国AI现状与趋势.pdf
- 1 讯飞医疗科技公司研究报告:AI医疗先行者,贯通式布局医疗信息化.pdf
- 2 医药生物行业医疗器械2026年度策略:把握出海陡峭曲线,卡位AI医疗商业化落地.pdf
- 3 艾瑞咨询:2025年中国企业级AI应用行业研究报告.pdf
- 4 新经济中工作的四大未来:2030年的AI与人才(英译中).pdf
- 5 2026年半导体设备行业策略报告:AI驱动新成长,自主可控大时代.pdf
- 6 青矩技术公司研究报告:全过程工程咨询服务领军者,积极布局AI推行数智化咨询新模式.pdf
- 7 AI医疗行业专题报告:AI重构医疗,从场景落地到变现讨论.pdf
- 8 专题报告:个人AI助理OpenClaw部署及其在金融投研中的应用研究——AIAgent赋能金融投研应用系列之二.pdf
- 9 2026年AI行业应用深度展望:AI应用重塑流量格局,字节阿里腾讯C端布局加快.pdf
- 10 讯飞医疗科技公司研究报告:AI医疗龙头,GBC全场景贯通&中试基地卡位明确,规模化落地有望加速.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2024年3D数字内容生产行业分析:OpenUSD标准如何重塑75%的场景制作效率
- 2 数字创意行业市场空间及应用场景深度分析
- 3 2023年奥比中光研究报告:3D之眼,赋能千行百业
- 4 2023年3D行业专题研究报告:AI的下一个涌现
- 5 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
- 6 2026年新消费行业年度策略:新消费三大引擎,AI+消费、情绪经济、新质零售
- 7 2026年AI“创造性破坏”重构产业生态——多行业联合人工智能3月报
- 8 2026年AI“创造性破坏”下的产业重构
- 9 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 10 2026年专用设备行业:AI算力驱动散热架构升级,液冷一次侧设备迎来价值重估——AIDC液冷深度报告
- 1 2024年3D数字内容生产行业分析:OpenUSD标准如何重塑75%的场景制作效率
- 2 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
- 3 2026年新消费行业年度策略:新消费三大引擎,AI+消费、情绪经济、新质零售
- 4 2026年AI“创造性破坏”重构产业生态——多行业联合人工智能3月报
- 5 2026年AI“创造性破坏”下的产业重构
- 6 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 7 2026年专用设备行业:AI算力驱动散热架构升级,液冷一次侧设备迎来价值重估——AIDC液冷深度报告
- 8 2026年腾讯控股重新探讨腾讯的AI争议:嵌入式工作流为何胜过单品表象
- 9 2026年汇量科技公司研究报告:出海程序化广告龙头构筑AI飞轮
- 10 2026年轻松健康公司研究报告:深耕AI医疗的数字健康生态构建者,数据与技术双轮驱动
- 1 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
- 2 2026年新消费行业年度策略:新消费三大引擎,AI+消费、情绪经济、新质零售
- 3 2026年AI“创造性破坏”重构产业生态——多行业联合人工智能3月报
- 4 2026年AI“创造性破坏”下的产业重构
- 5 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 6 2026年专用设备行业:AI算力驱动散热架构升级,液冷一次侧设备迎来价值重估——AIDC液冷深度报告
- 7 2026年腾讯控股重新探讨腾讯的AI争议:嵌入式工作流为何胜过单品表象
- 8 2026年汇量科技公司研究报告:出海程序化广告龙头构筑AI飞轮
- 9 2026年轻松健康公司研究报告:深耕AI医疗的数字健康生态构建者,数据与技术双轮驱动
- 10 2026年房地产行业深度报告:地产+AI工具系列报告之二,基于OpenClaw的房地产股票投研生产力提升实践
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
