Meta AI 战略布局,“模型+硬件”双轮驱动。
1.Meta 将 AI 置于战略核心,并精心打磨应用体系
在 Meta 战略中,AI 已取代元宇宙,成为 Meta 的首要任务。展望未来,我们认为 AI 将会 助力 Meta 广告市场份额持续扩张。从开源生态看,PyTorch 和 Llama 已成为主流的开源框 架和大模型,开源生态将助力 Meta 进一步扩张市场份额,目前 Pytorch 在 AI 框架开发中 市占率第二,仅次于谷歌 Tensor Flow。从大小模型协同发展看,Llama 3 轻量化发展,支 持 PC 和移动端的使用,为客户提供性价比更高的服务。从应用体系看,Meta AI 赋能领域 包括:广告生成与推荐,AI 内容创作与分发,Chatbot 和 AI 商家客服。2Q 公司上调全年 资本开支指引至 370-400 亿美元,主要用于 AI 投资,对比原先指引 350-400 亿美元。 从竞争格局看,谷歌开源 Gemma2,Llama3 面临直面竞争。谷歌 6 月底发布新一代开源 模型 Gemma 2,提供 9B 和 27B 两种参数规模,与 Meta 的 Llama3 形成竞争,在 MMLU、 GSM9K、MATH 等多个测试基准上,小幅领先 Llama 3(8B)。考虑到 Llama3 在开源模型 上的先发优势,以及全球的广泛可访问性,我们认为下一代 Llama 能够在轻量级、可访问 性、高性能之间找到平衡,同时更好嵌入自有社交媒体和广告体系,利用视频抢占搜索广 告总时长的优势,以应对行业的竞争压力。
Meta AI 全面布局,打造完整软硬件生态
Meta 在 AI 领域积累丰厚,推出多款 AI 产品,领域覆盖算力、生态工具、大模型与产品应 用。1)算力层面,Meta 推出 Zion、Kings Canyon、Mount Shasta、MTIA、Research Super Cluster(RSC)等硬件产品,为 AI 模型提供了强大的硬件支持。2)生态层面,Meta 先后 推出了 PyTorch、GLOW、ONNX 等框架,为 AI 训练提供了丰富的工具与应用库,完善生 态系统。3)大模型层面,Meta 开发了 SAM、Llama、ImageBind、Chameleon 等大模型, 在视觉、AIGC、多模态等领域表现出色。4)应用层面,Meta 推出了 Meta AI、AI Sandbox、 Advantage+、Meta Lattice、以内容为核心的 AI 推荐系统,赋能社交与广告主业。
2.Meta AI 的发展历程
探索期(2013-2018):Meta 于 2013 年成立 FAIR 和 AML 人工智能研究部门,前者由图灵 奖获得者 Yann LeCun 领导,专注于 AI 前沿基础技术与应用技术的研究;后者由 Joaquin Candela 领导,关注人工智能和机器学习领域的研究成果在 Facebook 现有产品中的工程化 实现。成果丰富:Meta 通过 FAIR 和 AML 平台,完成技术与人才的双重积累,先后推出 Faster RCNN (2015)、Mask R-CNN(2017)、PyTorch(2017)等行业领先的深度学习模 型和学习框架,并吸引何恺明(ResNet 创作者)、Grefenstette(原 Cohere AI 主管)等技 术大牛加入。 转型期(2019-2022):2022 年 6 月,Meta 宣布 FAIR 重组,将“集中化研究”的 AI 部门, 分布式下放到每个组织部门中去,更好的实现与现有产品和实际业务的结合。成果丰富: 2022 年,Meta 先后推出了 Advantage + AI 广告助手,实现人工智能对于购物广告和应用 广告业务的赋能,自动化广告创造与投放,助力提升广告转化率。 成果期(2023-至今):2023 年 Meta 先后在大模型、开源框架方面取得显著成果。2023 年先后推出 Llama 系列大模型、Detectron2 开源工具,并发布多模态基座模型 Chameleon。 成果和研究人员在 ACL、ICRA、ICML 和 ICCV 等多个会议上赢得最佳论文奖。截止 2023 年底,在 Hugging Face 上,Meta 共有 689 个存储库(对比谷歌 591 个,微软 252 个)。 大模型驱动广告智能化升级:2023 年发布 AI 广告系统 Meta Lattice,整合孤立模型和异构 数据集,提升广告效果;2024 年 3 月 Meta 宣布构建新型统一的推荐系统,实现以社交为 核心的推荐机制向以内容为核心的推荐机制转型,并部署 Reels 试用。 展望未来:Joelle Pineau,FAIR 的副总裁透露,下一阶段,Meta 致力于利用大型通用模 型,将之前分散的、明确定义的任务进行整合,融合不同平台上多
3.优势一:Meta 大模型以开源生态出击,或复现安卓成功之路
开源模式加速模型迭代与份额抢占
生态开放性帮助大模型厂商打造“技术-商业”闭环:1)大模型的全面开源有利于市场份额 的抢占,对比安卓系统诞生之初,旨在挑战 iOS、Symbian 和 Windows Phone 等市场巨头, 为谷歌应用提供稳定而开放的平台。随着安卓系统的开源,市场份额迅速攀升,2011 年市 占率第一。2)大模型的全面开源+基础设施能力的开放,能够孵化更强的技术产品。大模 型厂商通过投入自有模型和算力研发资源,主动拥抱开源体系,吸引庞大开发者群体维护 开源社区(例如安卓开发者超 2000 万),为大模型注入创新动力。3)大模型的全面开源有 助于公司实现“技术+商业”闭环。谷歌于 2008 年开始向设备制造商提供安卓开源系统,并 逐步集成谷歌搜索、谷歌地图和 Gmail 等应用程序。随着安卓手机数量的增长,内置谷歌 应用程序的流量也水涨船高,谷歌也因此能够通过广告和功能收费获利。我们认为 Meta AI 可以借鉴安卓模式,利用其社交 Apps 和超过 32.4 亿用户的基础,通过开源策略提高使用 率,引领行业标准,未来有望实现人工智能的全面商业化。
PyTorch 和 Llama 成为领先的开源框架和大模型
PyTorch 开源框架:助力训练各类模型,赋能千行万业 Meta 在 2017 年推出 PyTorch 框架,已成为开源深度学习的主流框架,24 年 5 月市场份额 位列第二(23.9%,6 Sense 数据)。PyTorch 是高效灵活的 AI 开发平台,工具库功能强大, 动态图编程性能较高、多硬件平台兼容性较强、社区资源丰富,更受到学术界青睐(PyTorch 在 EMNLP、ACL、ICLR 三家顶会的占比已经超过 80%,在其他会议的占比也都保持在 70% 之上)。TensorFlow 则因其适配多种编程语言、企业级服务稳定性,成为工业界大规模部署 的首选。
我们认为,随着 PyTorch 2.0 的升级,其在分布式训练和量化推理效率上的显著进步,预 计将吸引更多企业采用此框架部署大模型,推动市场份额的进一步抬升。目前 Microsoft 运 用 PyTorch 进行语言建模;丰田利用 PyTorch 处理自动汽车驾驶的视频;Airbnb 在对话助 手中采用 PyTorch 部署神经网络翻译技术,增强了客户服务体验;而 Genentech 则应用 PyTorch 在癌症治疗和药物发现领域。这些案例共同证明了 PyTorch 在推动工业界创新和 解决实际问题中的关键作用。
Llama 开源生态优势突出,开发者数量众多,形成数据飞轮效应
Llama 注重算法优化,为商家提供性价比较高的服务,以相对少量的参数,获得接近超大 模型的效果,目前第三代性能已媲美 ChatGPT-4 和 Gemini Pro。虽推出时间较晚,开源战 略加速模型迭代,并抢占市场。开源以来,通过 Hugging Face 的 Llama 模型下载量超过 3000 万次,社区已在 Hugging Face 上微调并发布了 7000 多个衍生品,Google Cloud 和 AWS 总共有超过 3,500 个企业项目基于 Llama 模型启动。此外各大硬件平台(英伟达、英 特尔、高通、AMD)和行业巨头(DoorDash、Dropbox、IBM、Shopify、Zoom)也快速 适配和采用 Llama 模型。
Open AI 核心创始团队大规模离职,未来大模型竞争格局或改变
截至 24 年 8 月,OpenAI 十一人创始团队已离职九人。我们认为 OpenAI 离职潮对 AI 领域 发展的影响有:1)创始人再次创业或加入创业公司,有望推动 AI 的多样化发展,催生更 多创新应用;2)以 Ilya 为首的安全团队的出走,有望推进更多关于 AI 伦理与安全的讨论 和实践;3)OpenAI 原先的核心技术团队,加入硅谷其他公司后,有望加速 AI 技术的传播 和创新。
优势二:开源 Llama 领衔,以小参数实现更佳表现,助力“云+端”部署
后发先至,Llama 实现对主流大模型的赶超
2024 年 4 月推出的 Llama3 是 Meta 在自然语言处理方面的最新成果。1)Llama3 使用更 大的 tokenizer,上下文长度拓展至 128k;2)训练数据包含 15 万亿 Token 语料,较 Llama2 提升 7.5 倍;3)代码数量是原来 Llama 2 的 4x;4)Llama3 通过 GPQA 基准测试,证明 其在生物、物理和化学专业领域的理解能力。 Llama 3 已实现对主流大模型的追赶,位居第一梯队。Llama 3 的 700 亿参数规模更小, 但是总体性能位居第一梯队,在多语言能力(MMLU)、数学能力(GSM-8K、MATH)、编 程能力(HumanEval)、物化生学科能力(GPQA)测试中,与 ChatGPT-4 Turbo、Gemini Pro 1.5 和 Cluade 3 Sonnet 旗鼓相当。此外 400B 的 Llama 3 大模型仍在开发中,将具备 更强的多模态、多语言能力和更长的上下文窗口。而 8B Llama 3 在各项基础测试中的表现 远超过谷歌的轻量级模型 Gemma 1。
全新 Llama3.1 在多个基准测试集中超越现有 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet
Meta 于 7 月 23 日发布最新 Llama 3.1 开源大模型,参数最高可达 405B(另提供 8B 和 70B 选项)。 Llama 3.1 基于 1.6 万块 H100 GPUs 和 15T token 训练语料,上下文参数可 达 128K。Llama 3.1 有三点创新:1)采用标准 Decoder-Only Transformer 架构替代混合 专家架构,增强训练稳定性;2)采用迭代后训练程序,增加监督训练微调和偏好优化,以 创建更高质量的合成数据;3)构建更为精细的预训练数据管理及策划步骤,并实施更为严 格的后训练数据质量控制与筛选机制。Llama 3.1 在数学能力(GSM8K),推理(ARC), 长文解析(ZeroSCROLLS 和 InfiniteBench)以及多语言理解(MGSM)等多项基准测试 中领先 GPT-4o 和 Cluade3.5 Sonnet。
大小模型齐头并进,助力“云+多端”部署
发展趋势明确,科技巨头开启小模型军备竞赛。端侧模型目前已经成为研究热点,通过量 化、剪枝、蒸馏等技术手段,模型实现轻量化和小型化,以更好地适应移动端的计算环境, 有效降低了模型对计算资源的需求。随着 AI 技术的大规模应用,计算负载将越来越多地以 推理任务的形式存在,广泛分布在边缘计算环境中。目前,谷歌基于 Gemini 模型技术,推 出开源模型 Gemma,分为 2B/7B 两种规模,并能在台式机、移动端、谷歌云等终端运行; 微软发布 Phi-3-mini(3.8B)、Phi-3-Small(7B)和 Phi-3-Medium(14B)探索模型端侧 应用。 谷歌开源 Gemma2,Llama3 面临直面竞争。谷歌发布新一代开源模型 Gemma 2,提供 9B和 27B 两种参数规模,与 Meta 的 Llama3 形成竞争。Gemma 2(9B)在 MMLU、GSM9K、 MATH 等多个测试基准上,小幅领先 Llama 3(8B)。考虑到 Llama3 在开源模型上的先发 优势以及全球范围内的广泛可访问性,我们认为下一代 Llama 能够在轻量级可访问性与强 大性能之间找到平衡,以应对 Gemma 2 带来的竞争压力。 我们认为,Meta 公司在大小模型的协同上,展现出较大潜力,有望实现“云+多端”的部 署模式。Meta 发布的 80 亿参数模型参数较小,通过轻量化设计,减少了资源占用,降低 了对显存和硬件性能的要求,使得模型在多种设备上可以高效运行(例如 PC 和移动设备难 以带动大模型)。与此同时,Meta 的 70B 和 400B 相对较大的参数模型,更适合在云端和 数据中心进行训练和推理任务。这种大小模型并行发展的战略,不仅能够满足不同场景下 的需求,也为 Meta AI 的广泛应用和深入发展提供了坚实的基础。

优势三:技术储备充足,全新多模态有望引领未来
全新 Chameleon 大模型构建新时代多模态处理底座
Meta Chameleon 大模型与 ChatGPT-4o 一样,采用统一架构处理多模态数据。传统的多 模态大模型,通常为每种模态采用特定的“编码器”或“解码器”,对不同模态进行单独建 模,然而这种做法限制了模型跨模态信息处理的能力,也难以生成包含任意形式信息的、 真正的多模态内容。2024 年 5 月发布的 ChatGPT-4o 是首个跨文本、视觉和音频的多模态 模型,所有的输入和输出,都由单个神经网络处理。2024 年 5 月 17 日 Meta 团队发布的“混 合模态”基座模型 Chameleon。与 ChatGPT-4o 思路一致。Chameleon 采用了统一的 Transformer 架构,使用文本、图像和代码混合模态完成训练,因此模型可以无缝处理文本 和图像。Chameleon 性能表现优异,在纯文本任务中,34B 参数的 Chameleon(基于 10 万亿多模态 token 训练)的性能和 Gemini-Pro 相当,在视觉问答和图像标注基准上,性能 接近 GPT-4V。
Meta 多模态大模型全面布局
ImageBind 多模态大模型,跨六种感观模拟人类感知,赋能社交广告与元宇宙业务。 ImageBind 于 2023 年 5 月发布,模型可结合多维度感知包括文本、音频、视觉、热量(红 外)、深度和运动,实现音频到图像、图像到音频、音画结合、文本驱动创作等多任务领域。 Meta 未来还将引入更多模态,如触觉、语音、嗅觉和大脑 fMRI 信号等,进而更真实的模 拟人类感知。我们认为,ImageBind 的推出符合近期多模态化的趋势,通过这种创新的多 模态交互方式,ImageBind 有望推动社交广告和虚拟体验的创新与发展。
优势四:自研+外购硬件,打造算力基础设施
加速外采英伟达芯片,推进自研推理芯片
Meta 持续加大资本开支,加速英伟达 GPU 购入,以构建下一代 AI 基础设施。 根据 State of AI Report 报道,截止 24 年 4 月,Meta 共计拥有 35 万个 H100 GPU,算力 达到 1.4 zettaflops(每秒可以执行 1.4 万亿亿次(10^21))。Meta 资本开支上调,2Q24 公司表示持续加码 AI 资本开支,将全年资本开支指引从 350-400 亿美元升至 370-400 亿美 元,新指引相较 23 年将同比增长 32%-44%。Meta 在算力囤积中表现积极,根据 Omdia Research 统计,2023 年共计购入 15 万 GPU,根据 Bloomberg 2024 年 5 月报道,Meta 计划 24 年将等效总算力至约 60 万个 H100 GPU。
Meta 自研 ASIC 芯片用于专用负载,助力降本增效。Meta 于 23 年 5 月和 24 年 4 月分别 推出 MTIA V1 和 MTIA V2 芯片,用于 AI 推荐系统训练和推理负载。MTIA V2 基于台积电 5nm 工艺,专注于广告排名和社交网络推荐模型的训练和推理负载,可处理低复杂性(LC) 和高复杂性(HC)的排名和推荐模型。MTIA V2 在性能上有较大提升:1)内存:MTIA V2 采用 8x8 处理元件(PE)布局,单 PE 存储性能达 384KB,较 MTIA V1 提高 2x。2)处 理能力:MTIA V2 芯片算力更高,INT8/FP16 精度下算力达 354 TFLOPS/177 TFLOPS, 较 MTIA V1 性能提升至 3.5x。3)传输效率:MTIA V2 芯片具有更高效的数据传输,8 个 PCIe Gen5 接口提供最高 32 GB/s 的传输效率,较 MTIA V1 提升至 2x。目前 MTIA V2 已在公司数据中心部署,据 The Next Platform 测算,MTIA V2 的每瓦性能为 7.8TOPS/W, 超越了 Nvidia H100 的 5.65TOPS/W(SXM 机型)。
构建超级计算机集群,加速下一代 AI 模型训练
Meta 持续迭代其训练集群,加速下一代 AI 模型训练。Meta 于 2019 年推出 Zion 集群训练 平台,将内存、计算芯片和网络组件耦合,构建大规模密集计算负载。2022 年,Meta 推 出 Super Cluster(RSC)人工智能超级计算机系统,通过 NVIDIA Quantum 交换机和 InfiniBand 网络通信,共集成 6080 个 A100 GPU,将 Meta 训练百亿参数模型时间从此前 的九周缩短至 3 周,效率提升。同年 Meta 完成 RSC 的再度升级,共集成 16000 块 A100 GPU, 混合精度算力达 5 exaflops(10^18),训练性能升级至前代的 2.5x。2024 年 2 月,Meta 推出了新一代 AI 超级计算机集群,每个集群包含 24576 个 H100 GPU,用于 Llama 3 等 AI 模型训练,效率提升 3 倍。