计算机前沿行业与企业动态梳理

计算机前沿行业与企业动态梳理

最佳答案 匿名用户编辑于2025/07/21 10:08

Google DeepMind发布DataRater,实现数据质量自动化评估。

1.前沿行业动态

1.人形机器人首次打通视觉感知与运动断层

LeVERB (Latent Vision-Language Encoded Robot Behavior)是由UC伯克利、卡内基梅隆大学(CMU)等团队开发的一种创新性人形机器人控制框架,首次实现了视觉语义理解与全身运动控制(Whole-BodyControl,WBC)的无缝连接,使机器人能够像人类一样“从思考到执行”复杂任务。

LeVERB框架的关键突破在于实现了人形机器人的零样本部署能力,使其无需预先熟悉环境,仅通过视觉感知和语言指令(如"坐在椅子上""跨过箱子")就能完成复杂的动态全身动作,在简单导航任务中成功率高达80%,整体任务成功率达到58.5%。该框架采用创新的分层架构设计:高层(LeVERB-VL)是一个基于Transformer的视觉-语言模型(102.6M参数),负责将语言指令和视觉信息转换为"潜在动作词汇"这一抽象指令,运行频率为10Hz;底层(LeVERBA)则是一个通过强化学习训练的全身控制策略(1.1M参数),能够将这些潜在词汇实时解码为精确的关节级动作,以50Hz的频率实现动态控制。特别值得一提的是,LeVERB通过合成数据训练(采用IsaacSim的光线追踪渲染技术)和动作捕捉重定向技术,有效解决了真实机器人数据稀缺的难题,并在宇树G1机器人上成功验证了从仿真环境到真实场景的零样本迁移能力。

实验表明,LeVERB框架性能远超传统分层VLA方案,提升幅度达7.8倍,并通过消融实验验证了判别器、运动学编码器等关键组件的必要性。在实际演示中,搭载该框架的宇树 G1机器人成功完成了"走向椅子坐下"、"敲门"等任务,展现了卓越的环境适应性和动作灵活性。这一突破性进展有效解决了传统机器人"能理解但不会动"或"能动但不懂语义"的行业难题,为服务机器人、工业自动化等应用场景开辟了新可能。

2.普林复旦打造AI历史助手,AI圈人文学科

普林斯顿大学 AI实验室与复旦大学历史学系联合推出的HistBench和HistAgent,标志着AI在历史研究领域的重大突破。HistBench作为全球首个历史研究AI评测基准,填补了人文学科系统性评估工具的空白。这一基准包含414道由历史学者精心设计的问题,覆盖29种语言和36个历史子领域,从基础信息检索到跨学科深度分析形成完整难度梯度。测试显示,主流大模型在 HistBench上的准确率不足20%,凸显了AI在历史认知上的局限性。

专为历史研究打造的HistAgent则展现了突破性的解决方案。这个多智能体协作系统从底层架构就针对史学研究需求设计,集成了OCR识别、多语言翻译、文献检索等核心功能。通过中央调度模块协调各子模块,HistAgent能够模拟历史学者的研究流程,处理手稿、古地图等复杂材料。在HistBench测试中,其36.47%的准确率远超通用模型,同时在GAIA通用基准上也保持60%的成绩,证明了专业定制与通用能力的兼容性。

重新定义了科技与人文的互动方式。HistBench和HistAgent不仅提供了实用工具,更开创了AI参与文明记忆构建的新范式。研究团队计划持续扩展题库和优化系统,使AI能够跟上史学研究的演进步伐。虽然当前技术尚不能替代历史学家,但这一突破表明,通过领域适配的架构设计和系统性评估,AI完全可以成为人文研究的得力助手。

3.AI自生成训练数据,靠「演绎-归纳-因」解锁推理能力

新加坡国立大学、清华大学和Salesforce Al Research提出的元能力对齐(Meta-AbilityAlignment)框架,通过模仿人类推理的心理学理论(演绎、归纳、溯因),系统化训练大模型的推理能力。该方法自动化生成训练数据,并采用分阶段专家训练+参数融合策略,显著提升了模型在数学、编程和科学任务上的稳健性和泛化能力。

该框架为在数学、编程和科学领域提升推理能力提供了一种可扩展、可推广且可控的方法有助于构建可解释且鲁棒的推理模型。这种模块化的训练方式,借鉴了混合专家模型,同时使用来自心理学对人类推理本质的洞见,让大模型的每个专家进行专业分工,擅长一种推理方式,从而能够用小数据集完成快速的性能提升。

2.前沿企业动态

1.Google DeepMind发布DataRater,实现数据质量自动化评估

Google DeepMind 团队最新推出的DataRater 框架,通过元学习技术自动评估和筛选训练数据,显著提升模型训练效率。该技术能够减少低质量数据对模型性能的影响,同时降低计算资源消耗,为大模型训练提供更高效的数据处理方案。

核心优势:1)自动化数据筛选:通过元梯度优化,自动识别高质量数据,减少人工干预。2)计算效率提升:最高减少46.6%的训练浮点运算(FLOPS),加速模型收敛。3)跨规模泛化能力:基于4亿参数模型训练的DataRater,可适配5000万至10亿参数的不同规模模型。

4)低质量数据识别:有效过滤文本编码错误、OCR噪声及无关内容,提升数据纯净度。

针对不同质量的数据集,DataRater自动学习到最佳数据丢弃比例:高质量数据(C4):仅需丢弃10%的低价值样本。中等质量数据(C4/noclean):最优丢弃比例为50%。低质量数据(Pile):可安全丢弃75%的声样本。

这一结果表明,DataRater能够自适应不同数据分布,在保证模型性能的同时最大化计算效率,尤其适用于大规模预训练场景。

DataRater 采用元学习框架实现动态数据筛选,首先为每个数据点分配0~1连续的重要性权重以替代传统二值化选择,随后通过Softmax函数对权重进行归一化处理,构建可微的评分函数来动态调节不同数据对训练过程的影响。

其核心机制通过元梯度优化实现:基于测试集性能构成的外层损失函数,反向传播优化数据评分策略的参数,使模型能够自动学习最优的数据权重分配方案,从而提升下游任务的泛化性能。该框架将数据筛选过程转化为可学习的权重调整问题,实现了筛选策略与模型训练的端到端协同优化。

DataRater的元学习数据筛选框架可广泛应用于以下场景:大语言模型(LLM)预训练:优化海量数据的筛选流程,自动识别并剔除低价值样本,显著降低训练成本,同时维持或提升模型性能。

合成数据清洗:高效检测并过滤偏差大、重复或低效的合成数据(如来自LLM生成或数据增强的数据),提升训练数据的有效性。

多模态学习:可扩展至图像、语音等非文本数据,通过自适应权重分配评估数据质量,适用于跨模态预训练或对齐任务。DataRater的智能数据筛选框架对AI行业产生深远影响:在研发效率方面,大幅减少数据工程师手动清洗和标注的工作负担;在成本控制维度,通过优化计算资源使用,显著降低企业训练大模型的边际成本(最高可节省46.6%资源消耗);同时带来模型性能的实质性提升,在HellaSwag、PIQA等关键下游评测任务中展现出更优表现。该技术通过元学习驱动的自动化数据价值评估,正在重塑大规模AI训练的数据处理范式,为行业提供兼顾效率与性能的新型解决方案。

2.0penAI发布03-pro型

03-pro 在数学、编程、科学基准测试中表现惊艳,大幅超越 o1-pro和 03,甚至碾压 Gemini2.5 Pro 和 Claude 4 0pus.

关键改进:

专为深度思考和超可靠答案设计,兼具长思考、超长上下文、工具调用能力。

支持自动调用工具(网页搜索、文件分析、视觉输入推理、Python代码执行)。

通过记忆功能实现个性化回答,提升清晰度、全面性、指令遵循度和准确性。

DeepSeek在多项权威测试(如AIME 2024、GPOA、Codeforces)中均取得最高分,并在「4/4可靠性」评估标准下表现卓越,这得益于其优化的推理架构显著提升了复杂任务(如数学、编程、科学问答)的处理能力,同时支持超长上下文输入,为复杂分析和报告生成提供了强大支持。此外,其工具调用能力的大幅增强,使其能更精准地识别环境需求并选择合适工具,进一步提升了任务执行效率。

DeepSeek在保持高性能的同时展现出显著的价格优势:o3-pro定价为输入20美元/百万token、输出80美元/百万 token,仅为o1-pro的 87%;而 03版本更是降价 80%,输入低至2美元/百万 token、输出8美元/百万 token,与 GPT-40相当。

在效率方面,03-prO在ARC-AGI半封闭评估中通过率大幅提升,单任务成本进一步优化尽管响应速度较慢(部分复杂任务需3-13分钟思考),但其优先保障可靠性,特别适合数学推理、编程和科学分析等高难度需求。

3.华为MOE训练系统优化方案

混合专家模型(MOE)的重要性日益凸显,随着大模型参数规模持续扩大,MoE架构成为突破算力瓶颈的关键路径,但训练效率与内存占用仍是核心挑战。华为在该领域的探索包括此前通过 Adaptive Pipe&EDPB框架优化分布式训练,而本次研究进一步聚焦单节点效率提升,实现了算子加速与内存优化,推动MoE模型的高效训练与部署:

在昇腾计算加速方面,通过对MoE核心算子(FlashAttention、MatMul、Vector)的深度优化,训练吞吐提升15%。其中,FlashAttention采用"瘦身术"消除冗余计算,性能提升 50%(前向)/30%(反向);MatMul通过数据搬运策略调整提升Cube利用率10%;Vector算子融合技术实现3倍性能提升。进一步结合昇腾+鲲鹏协同优化,采用算子下发"零等待"策略(同步消除+下发序重排+绑核优化)使Host-Bound耗时降低70%,配合SelectiveR/S内存优化技术(细粒度重计算+智能Swap+自适应管理),最终实现额外 20%吞吐提升和70%内存节省,显著提升训练效率。

4.TicNote--全球首款 Agentic AI随身大脑

TicNote是全球首款 Agentic AI硬件,由出门问问推出,定位为“听得懂、记得住、会思考”的随身AI伙伴。它采用3mm超薄磁吸设计,支持20小时连续录音,具备双模式收声和多端同步功能,搭载自研 Shadow AgenticAI系统,可完成120+语言转写翻译、智能总结、灵感捕捉及深度交互(如精准问、报告生成)。实测中,它能将13分钟英文演讲自动提炼为思维导图,或帮助职场妈妈同时处理家长会和工作复盘,展现碎片信息结构化能力。

作为国产 AGI技术落地的标杆,TicNote通过软硬结合颠覆传统工作流。其背后是出门问问“猴子序列”大模型和AgenticAl架构,利用硬件数据反哺模型迭代,目标从工具升级为“思考伙伴”。该产品在职场、教育、创作场景中实现10倍效率提升,标志着中国企业在AgenticAI硬件领域的全球突破,也为通用人工智能发展提供雏形。

参考报告

计算机行业:稳定币产业生态加速构建,重视国产替代新机遇.pdf

计算机行业:稳定币产业生态加速构建,重视国产替代新机遇。6月板块震荡上行,结构性行情持续演绎。人工智能板块指数(884201.WI)6月涨跌幅为7.6%,同期上证综指涨跌幅2.9%、沪深300涨跌幅2.5%、创业板指涨跌幅8.02%,6月人工智能板块成交额为9838.37亿元,环比+18.17%,板块成交量持续放大,6月下半月板块迎来强势反弹,整体震荡上行。我们认为,目前处在业绩和政策空窗期,当前需重视板块细分领域国产替代、金融IT、跨境支付等细分领域存在结构性投资机会。稳定币产业生态加速构建,RWA打开应用场景空间。5月30日香港通过《稳定币条例》并将于8月1日生效,稳定币正式成为法例,近期...

查看详情
相关报告
我来回答