拓尔思的核心看点在哪?

拓尔思的核心看点在哪?

最佳答案 匿名用户编辑于2024/06/13 09:56

AIGC 领军企业,语料+算法优势显著。

1. 算法+数据+算力三大核心要素决定 AIGC 产出质量

算法+数据+算力三大核心要素,决定 AIGC 产出质量。拓尔思将以“专业大模型+领域知 识数据”为核,努力构建起个性化、专业性的内容自动生成壁垒。 强大的 AIGC 技术。拓尔思在 AIGC 技术方面有着长期的投入和储备,这与公司一直专注 自然语言处理技术的研发和互联网大数据的积累等优势一脉相承。公司基于通用 AIGC 大模型, 专注优势行业进行专业大模型的研发,融合学习行业特有的大数据和知识,提升大模型对行业 应用的适配性,以预训练大模型、In-Context Learning、instruction tuning 等技术为基础, 将文本生成、交互式生成、跨模态生成、小样本学习、大模型与外部知识库的融合等功能作为 研发重点,突破基于大模型的 AIGC 关键技术,在问答式 AI、智能创作、搜索引擎等领域实现 成功应用。

加快推进“智创”AIGC 平台的研发。“智创”是一款专注文字生成类的内容自动生产平台, 其依托公司长期积累的自然语言处理技术和人工智能平台产品为基础,融合开源大模型,将专注在辅助型、应用型、创作型等文本内容的自动生成研发,以个性化、专业性的内容自动生成 为壁垒,保持在 AI 领域的技术竞争力。

海量的语料积累。公司作为领先的大数据及人工智能产品及服务提供商,拥有规模位列业 界前茅的权威高质量公开数据超 2000 亿,并具备数千亿数据量的数据索引、标记、查询、挖 掘分析能力,万亿级数据总量的秒级检索能力和日均亿级数据获取能力。近期与多家头部大模 型的人工智能公司和国家级实验室签订合同,为其提供高质量多元化的数据,作为大模型预 训练数据集。公司自有的产业要素数据集、产业风险数据集与电子报刊数据、互联网主流新闻 网站数据、新闻资讯客户端数据、政务网站数据、拓知基因数据库先后入选北京市首批与第二 批人工智能大模型高质量数据集。 2023 年 11 月 29 日,2023 人工智能计算大会 AICC 于北京开幕。智源研究院联合拓尔思 等单位共建的“中文互联网语料库”(Chinese Corpora Internet,简称 CCI)在大会分论坛 大模型创新论坛上正式发布。在 CCI 中,拓尔思主要提供中央重点新闻网站及中央和地方政府 门户网站数据集。

充足的算力。公司算力主要采取自采自建+公有云模式,能够有效满足行业大模型训练及 技术迭代需求。2023 年 5 月,公司已同首都在线签署战略合作协议,通过迁移算力至首都在 线拓尔思专属算力平台,公司可以享受到更快速、灵活的智能算力服务,大大提高数据处理和 计算效率。目前,公司已采购小批量 A800 显卡,A100 算力性能主要通过算力租赁实现。

技术+产品+场景的完美结合促进 AIGC 商业落地

技术+产品+场景的完美结合,才能实现 AIGC 推动更多商业落地进程。拓尔思将在类人助 手的道路上开拓全新模式,在 G+B 双端的需求持续催化下,优化创新对话式 AI、智能创作、 AIGC 搜索引擎等应用场景,实现用数字化劳动力替代枯燥重复性劳动、扩充资源稀缺劳动力、 协助人类完成相应任务和满足人类情感交流的需求。 公司深耕自然语言处理,致力于以数据智能应用为核心,赋能不同行业的数字化转型与降 本增效的场景应用,并积极与客户携手,在 AIGC 相关领域,如机器写作、对话式 AI、内容人 机协同和自动报告生成等应用场景已相继打造出一批优秀实践案例。

精耕细分场景,从降本增效走向额外价值转移。结合拓尔思的优势行业与客户群体,公司 将优先关注以下行业的 AIGC 细分场景: 新闻出版:机器人写稿、内容创作协助、基于媒体大数据的自动报告生成(如热点舆情报 告、传播力报告和榜单生成等)、多模态的自动配图(基于文本的图片、视频生成)。 政务服务:公文辅助创作、政民互动服务(对话式 AI 的智能问答)、政务新媒体的创新应 用(同新闻出版场景应用)、政策大脑的摘要/数据解读。 金融领域:自动报告生成(企业报告、产业报告等)、证券研报的智能解读和摘要生成、 上市公司的信息检索。 通用行业:知识图谱构建、人机协同的内容生成(如水军回复、考试答题等)、开源报告 的简报生成等。 元宇宙和云服务:虚拟人服务(灵魂大脑包罗万象、主要是虚拟人的“理解力”与“创作 力”相结合,重点是对话式 AI、智能创作与虚拟人+物+景的自动生成);数家资讯云服务的报 告生成、资讯信息精准对话式检索;网察云服务的自动舆情报告生成等。

2.“拓天大模型”深度融合业务场景,推动用户生产力变革

拓天大模型面向多行业,拥有多个创新点

2023 年 6 月 29 日,拓尔思拓天大模型成果发布会成功举办。基于在 NLP 领域 30 年技术 创新成果、10 余年高质量数据和知识资产积累,以及在垂直行业 10000 多家企业级用户应用 实践,公司发布“拓天大模型”,并面向媒体、金融、政务领域,推出了三大行业大模型。和 通用大模型相比,拓天大模型基于多年自主研发成果,在自主可控、中文特性加强、专业知识 加强、实时数据接入、内容安全和价值观对齐、客户私有化部署等方面具有领先优势,并与业 务场景深度融合,为用户带来生产力变革。 拓天大模型拥有内容生成、多轮对话、语义理解、跨模态交互、知识型搜索、逻辑推理、 安全合规、数学计算、编程能力和插件扩展十大基础能力,具有中文特性增强的可控生成技 术、融合搜索引擎的生成结果可信核查、融合稠密向量的跨模态能力加强以及支持外界知识 及时更新四大创新点。

(1)拓天大模型是由公司自主研发,满足自主可控和安全合规等国产化要求; (2)拓天通过外挂知识库的方式接入实时数据,结合自研搜索引擎技术实现专业领域实 时数据的融合利用,解决了训练成本过高,生成内容数据不能及时更新的问题; (3)拓天通过扩充中文词表与海量通用中文语料、在不干扰原模型的情况下适配新增中 文词向量等做法实现基座中文特性增强,同时通过对自有媒体、金融、政务等垂直领域数据集 进行清洗与处理,进行专业预训练增强,实现专业能力的提升; (4)通过剪枝、量化、稀疏、蒸馏等部署优化方案,降低大模型对算力资源的要求; (5)针对大模型可能存在的幻觉问题,拓天从数据源头和专家级的知识标引等方面进行 内容安全与价值观对齐;(6)采用专家规范化标引+机器自动标引相结合的方式,对采集的内容资讯进行“精加工”, 包括低噪、去重、数据结构化、数据归一化、内容标签化、属性知识化、安全合规核查等,实 现数据与主流价值观对齐。

拓天媒体领域大模型

公司基于自有的 1200 亿+互联网媒体资讯数据,100 亿+官媒数据,200 万+人民数据,14 大类知识标引规范 12000+知识标引规则作为专业训练数据,打造了媒体专业大模型,主要功 能覆盖内容生产智能助手、新一代搜索与推荐、多模态传播与服务三大业务场景。

拓天媒体行业大模型经过不断调优,支持 13 大类、24 小类业务指令,通过模型可控生成 技术优化,解决指令识别和任务分解稳定性问题,可用性提高,指令识别精度提升到 96%。支 持多数据源混合嵌入,支持第三方库 API+私有库+互联网数据多数据源混合嵌入,模式可复制 扩展到其他业务场景,发挥数智价值。支持视频数据智能问答,打通数据中台,实现数据接入, 数据加工,语义分析,大模型对接全套流程。写作核心能力不断优化,微调优化模型 6 个版 本,解决标题生成,文本风格迁移,文章续写,文章生成等质量和稳定性问题。 作为国内媒体 IT 服务行业的主力厂商,拓尔思在融媒体领域市场占有率领先,用户覆盖 72%的中央媒体、61%的省级媒体和 40%的行业媒体。在拓天媒体大模型的技术服务支持下,拓 尔思将为媒体用户提供基于自有数据资产进行私有化训练和工程化部署、场景可定制的专属 大模型服务与 AIGC 应用。

拓天金融行业大模型

公司基于自有的 110 亿+金融主题数据、百亿级产业指标数据、30 亿+产业要素明细数据、 2 亿+产业动态本体、500+以上标引维度、10000+知识标引规则、10 万+产业标签作为专业训练 数据,打造了金融专业大模型,主要功能覆盖智能风控、智能客服、智能投研等业务场景。具 有风控舆情、生成研报、智能客服(消费者保护)和自动业务批处理的功能。

在 2023 年,公司不断调优金融大模型在风控和消保细分领域的行业指令,提升指令识别 精准度。并全面开启现有产品核心功能基于 AI 原生应用的重构验证,支持定义多个 Agent, 例如企业上链 Agent、舆情风险 Agent、产业分析 Agent 等,最终串联形成 Muti-Agent 解决复 杂行业问题。

拓天政务领域大模型

拓尔思基于自有的 30 万+篇公文类数据、200 万+篇政策法规类数据、8000 万+篇政务资讯 类数据等数据作为专业训练数据,打造了政务专业大模型,主要功能覆盖公文辅助写作、政策 大脑和新一代政务互动等业务场景。公司针对政策比对、政策查询、政策脉络分析、观点分析、 办事咨询、智能培训、常务会议、便民问答等业务型指令进行指令识别调优,指令识别精度提 升到 94%。

大模型在政府行业的应用正逐渐展现出巨大的潜力和价值,政务大模型作为在基础大模 型基础上进行微调而成的专用模型,更加贴合政府行业的需求和特性,为政府决策、公共服务、 政策制定等方面提供了强大的支持。 随着政务数智化的深入推进,政务大模型将在政府治理和社会发展中发挥越来越重要的 作用。IDC 预测,到 2027 年政府中生成式 AI 的应用将由任务自动化扩展到决策支持,将公民 服务响应能力提高 10%,公务员生产力提高 15%。拓尔思将继续探索政务大模型的潜力与价值, 以创新驱动赋能新质生产力发展。

 大模型逐步落地,引领 B+G 端 AIGC

自 2023 年 6 月底发布拓天行业大模型以来,公司逐步探索实现在金融、媒体、政务、公 共安全等行业的应用场景落地,在金融等行业领域已签署合同 20 余个,合同金额累计约 5,000 万元。其中,基于公司在金融风控市场领先的优势,率先实现金融大模型与现有金融风控业务 无缝融合,帮助用户提体验、控风险、降本增效。拓天金融行业大模型及数据赋能的用户包括 中国农业发展银行、上海浦东发展银行信用卡中心、平安银行、中国银行浙江分行、浙商银行、 厦门国际银行、国家开发银行、天津银行、民生银行、人保财险、上海农商银行。另外,拓天 金融行业大模型在平安银行的“审计大脑”平安慧眼一体化数智平台中也得到了成功应用,实现了拓天大模型在金融审计领域的创新赋能。目前,基于拓天媒体专业大模型研发的内容生产 智能助手、新一代搜索与推荐等插件已经在头部新闻单位中得到试用。 拓尔思的开源情报业务以天目开源情报服务平台和拓天大模型为主,通过稳定的开源数 据采集体系的数据获取、实现从接入到应用全生命周期管理的数据治理和建立在丰富知识库 积累上的情报分析,拓尔思的开源情报应用得以成功落地。23 年底,第三届全国开源情报技 术大会在成都召开,会上,由公安部第一研究所和拓尔思大数据公司联合研制的数据采集服务 平台正式发布。数据采集服务平台以用户数据需求为基础,依托大数据、NLP、大模型等新一 代高新技术,融合汇聚各类数据采集商所拥有的互联网开源数据、深暗网数据、手段数据,提 供数据采集工单管理、数据管理以及数据采集商管理能力,数智赋能各级公安机关业务民警打 击犯罪活动,维护国家安全和社会稳定。

赛迪顾问人工智能与大数据研究中心发布了《中国大模型发展研究报告(2024)》重要研究 成果,从核心技术能力、市场竞争能力、产品创新能力、市场发展潜力及生态开放能力五个维 度出发,评选出中国大模型领军企业二十强,拓尔思以拓天大模型在这五个维度的综合成绩, 成功入选并位居前列。

2024 年至今,公司频发中标喜讯。先后中标:(1)某股份制银行构建智能化消保管控方 案。系统上线至今,在消保审查方面,累计开展消保审查 10 万余笔,提出实质性审查意见 3 万余条,平均每笔审查时间 2 小时(效率提升 150%以上),秒批率约 20%。(2)国际工程供应 商管理提升项目,项目金额 400 余万。(3)某市舆情信息系统项目。通过适配华为昇腾 910B 芯片,依托拓天舆情行业大模型,基于语义理解、多轮对话、内容生成、知识型搜索引擎等能 力,实现信息智能分析、智能报告生成及智能助手等功能。 公司的大模型有望在更多领域落地。2024 年 2 月 22 日下午,香港警务处网络安全及科技 罪案调查科总警司林焯豪一行到访拓尔思参观交流,拓尔思董事长兼总裁施水才及相关部门 负责人陪同接待。此次访问旨在加深双方了解,探讨双方在网络安全领域更多的合作机会,及 如何更好地保护香港的社会安全。林焯豪总警司一行对拓尔思的技术与服务表示出极大的兴 趣,双方围绕网络安全治理、风险预警等热点议题进行了深入探讨,并表示交流的产品对他们 建设更为完善、健全的网络安全保障体系提供了实用的构建思路和参考价值,期待双方能有进 一步的合作,共同应对网络安全挑战。

参考报告

拓尔思研究报告:AI语料+大模型领军者,华为合作全面升级.pdf

拓尔思研究报告:AI语料+大模型领军者,华为合作全面升级。AIGC领军企业,语料+算法优势显著。拓尔思作为领先的大数据及人工智能产品及服务提供商,拥有规模位列业界前茅的权威高质量公开数据超2000亿,并具备数千亿数据量的数据索引、标记、查询、挖掘分析能力,万亿级数据总量的秒级检索能力和日均亿级数据获取能力。公司深耕自然语言处理,致力于以数据智能应用为核心,赋能不同行业的数字化转型与降本增效的场景应用,并积极与客户携手,在AIGC相关领域,如机器写作、对话式AI、内容人机协同和自动报告生成等应用场景已相继打造出一批优秀实践案例。5月20日,公司定增注册获批,进一步发力大模型研发。2024年3月2...

查看详情
相关报告
我来回答