GenAI时代的数据挑战有哪些?

GenAI时代的数据挑战有哪些?

最佳答案 匿名用户编辑于2025/01/21 16:24

从文本生成、图像绘制到视频制作,GenAI 的应用场景日益丰富,为各行 各业带来了前所未有的机遇与挑战。

1.类人脑计算能力的崛起

驱动 GenAI 技术发展的核心是大语言模型 LLM,其本质上是使用计算机构建巨大的神经 网络结构模拟人脑神经元的构成,然后将海量的文本知识压缩到一个有庞大参数量的神 经网络中。这样的架构可以给计算机赋予人类一样的交互能力,可以理解人类的语言和 需求,再生成便于人类理解的数据。

GenAI 的类人脑计算能力与过去传统意义上计算机擅长的高速数学计算有根本性的区 别: 1. 传统计算能力可以轻松完成人类在短时间内难以完成的复杂科学计算,而且工作准 确度极高,相同的任务可能需要大量人力进行手动计算整合才能完成,且人类的工 作经常出错,但是传统计算能力难以处理以人类自然语言构成的 NLP 任务,比如文 档理解、对话理解、图片理解等,而对于人类而言即使是儿童也具备这些能力。 2. 而新型的 GenAI 计算能力是完全模仿人脑的结构所设计的,所展现的能力也跟人类 行为极为相似,通过自然语言交互,同样能很轻松的胜任文档理解、对话理解、图 片理解等任务,同时具备一定的创造力,可以生成现实中不存在的东西,但是并不 擅长复杂的数学计算,准确度也是天生的缺陷。

因此,GenAI 真正带来的是一种全新的类人脑计算能力,它与传统的计算机精确数学计 算能力共同构成了我们当今 IT 世界的新型计算基座。

2.非结构化数据价值开始被挖掘

数据作为 IT 世界的另外一个重要基石,在 GenAI 的新型计算能力加持下也发生了巨大 的变化。 传统上在数据处理领域,我们会把数据分成三类,结构化数据、半结构化数据和非结构 化数据:

结构化数据是定量数据,由值和数字组成,是高度组织化的数据,易于访问和解释,它 们往往以二维表格和数据库的形式存在。非结构化数据是定性数据,没有内部结构,由文本、视频和图像组成,包括各种格式的 办公文档、图片、网页、音频/视频信息等,这些数据往往以文件的形式存在。  半结构化数据则位于两者之间,它一般是自描述的,数据的结构和内容混在一起,没有 明显的区分,如 JSON、XML 等格式的数据。

在过去数十年的 Data Infra 领域发展过程中,结构化数据和半结构化数据处理都是其中 绝对的主角,结构化和半结构化数据由业务流程产生,与商业价值高度相关,这些数据 与企业的流程业务及商业化息息相关,Data Infra 软件领域也逐渐演化出了非常成熟的 产品及处理能力。

然而,根据 Gartner 的数据显示,结构化和半结构化数据仅仅占到全世界数据比例的不 到 20%,其他 80%以上均是非结构化数据。在过去的技术能力下,非结构化数据难以 处理,价值难以被挖掘和衡量,有研究显示大量办公文档类的数据在整个生命周期内最 多只被使用过 2 次,相比较其被努力创造出来的投入相比产生的价值极为有限。因此, 非结构化数据长期被当成企业负资产的存在。

本质上而言,非结构化数据实际上是为了方便人类与计算机交互,所创造出来的专为人 类服务的各类格式,其与人类的理解能力及使用习惯息息相关,但是其对于传统的以数 学计算为主要能力的计算机而言则难以被解析和处理。 而如今 GenAI 技术的出现则彻底打破了这个现状,一方面 AI 大模型本身即是由海量非 结构化的文档及多模态数据训练而成,企业可以应用自身沉淀的大量非结构化数据进行 模型训练及精调,另一方面在如 RAG 类型的技术框架的帮助下,非结构化数据可以通过 AI 解析及外挂向量数据库的方式得以实现解析及结构化,用户可以轻松实现如ChatWithPdf 等类型的业务。 占全球数据 80%以上的非结构化数据得以实现价值解锁,其中蕴含的丰富业务洞察、客 户需求和市场趋势,可以为企业创新、决策提供更进一步的数据价值。

3.企业落地 GenAI 的数据困境

在过去两年 GenAI 技术突飞猛进的背景下,企业普遍已经充分认识到了以 AI 大模型为 基础的智能化升级的重要性,大量企业也都开始在开展与 GenAI 相关的技术预研及试验 性的落地尝试。然而,由于通用 AI 大模型本质上是海量公开知识的压缩,在企业级场景 落地中必然会碰到对企业相关语言和业务理解不准确的问题。

但是对于绝大部分企业而言,都对于更加准确的解决自身商业问题会提出较高的要求。 而为了让通用大模型在行业中提高解决业务问题的精确度,不管是通用模型适应行业所 进行精调方案,还是通过 RAG 架构进行知识外挂的方案,都离不开企业自有高质量数据 的融入。同时面向行业的 GenAI 方案对于企业自有数据的要求往往是混合类型的,多模 态的,既包括已经有相对较完善的 Data Infra 处理的结构化及半结构化数据,也包含了 过去未经过处理的多模态非结构化数据,而这样的数据需求给企业落地 GenAI 提出了巨 大的挑战。 在观察了大量企业实验落地 GenAI 的过程后,我们总结了以下问题:

严重的数据碎片化问题 在 GenAI 浪潮到来之前,企业的数据处理重点多集中于结构化数据的整合与优化,许多 企业通过打破烟囱式业务系统构建了数据中台。然而,GenAI 应用场景对数据的要求远超 以往,尤其是多模态数据的整合,其来源分散且管理复杂。非结构化数据通常分布在云盘、 内部 IM 工具、对象存储、业务系统、服务器文件系统和个人设备中,创建与存储时缺乏 统一的管理流程。而结构化数据在 GenAI 场景中也需与非结构化数据混用,不同数据类 型间的关联进一步增加了碎片化程度。企业不仅需要高效整合这些异构数据源,还需确保 权限与隐私的分级管理,以满足合规和安全要求。

异构多模态数据整合的复杂性 为了让 GenAI 在业务场景中真正创造价值,企业需要同时整合结构化、半结构化和非结 构化数据进行融合使用。尤其是非结构化数据,因其多样的格式和模态(如 Word、PPT、 PDF、JPEG、WAV、MP4 等),每种格式都涉及复杂的解析与治理流程。以 PDF 为例,其处理链路包括版式检测与分割、内容识别(如文字、表格、图片)以及特征抽取。如果 需要进一步与结构化和半结构化数据整合,整体链路的复杂性会成倍增加。对于缺乏深厚 数据和 AI 工程能力的企业,这些技术门槛难以逾越。

 规模化部署和管理难度高 GenAI 的应用和多模态数据处理高度依赖强大的 IT 基础设施。构建一个使用数十份文档 的 RAG Demo 相对简单,但在真实的大型生产环境中,企业通常需要处理 PB 级别的数 据,并进行复杂的模型精调和训练。这不仅需要大量高性能 GPU 和 CPU 的算力支持,还 需依托大容量存储和高带宽、低延迟的网络架构。同时,底层资源管理平台也必须具备资 源调度与自动化扩展的能力,支持多模态数据的预处理与存储,并以云原生架构为基础, 确保跨环境的灵活部署和高效管理。

 数据召回与输出准确率的局限 作为 GenAI 的核心技术,大模型本质上是基于概率分布生成输出内容,这一特性决定了 其难以在高要求的企业业务场景中做到完全精确。准确率不足直接影响了商业价值,因此 结合企业自身数据进行模型精调或采用 RAG(检索增强生成)框架成为必然选择。然而, 这些优化技术本身存在较高的技术门槛。例如,在 RAG 框架中,基础的向量语义搜索对 于短词短句的提问效果不佳,难以满足高精度的业务需求,需要引入多种搜索方式(如关 键词匹配和全文检索)进行补充。而在企业普遍期待的 Chat2BI 应用场景中,直接使用 大模型生成的 SQL 往往准确率较低,需通过工程化手段如语法校验与结果优化,来提高 其实际可用性。

4.典型行业场景的落地难题

以下列举了三个典型企业场景的真实案例,展示 GenAI 企业级落地中数据层面的主要障 碍:

 报业传媒集团公司 该集团企业已经成立近 30 年,其看到了 GenAI 在内容生产上的强大能力,希望在内容生 产领域能对自身业务进行赋能,在内容生产的工作流程中嵌入 AI 的能力。但是通用大模 型的效果不够理想,而该集团企业拥有海量的媒体素材,包括历史报刊的数字化文件、大 量的图片、音视频资料等,因此其希望将自有海量素材与大模型能力结合起来,再嵌入到 自身的工作流。然而经过梳理和盘点后发现,这些素材数据散放在各种业务系统、硬盘、云网盘等空间里,碎片化极为严重;同时缺乏手段可以从中找到与希望生产的内容主题相 关的素材,一线编辑仅能凭记忆和少量筛选的模式来从中获取极少量素材;另外如何将这 些素材与大模型结合起来落地,不管是做精调还是 RAG 方案,对于该企业而言也存在巨 大的技术和资源门槛。

大型电子制造公司 该公司是一家年产值上百亿元的电子生产企业,拥有多家工厂和数十条电子产品的生产线。 该企业长期在产线上采集大量各类型数据,包括生产设备产生的结构化、文档、图片数据, 还有员工操作的音视频数据,结构化数据相对已经比较好地被 MES 系统数据库所承载, 然而其他类型的数据还一直无法得到有效处理。举例来说,针对工人在某道工序上的操作 规范,每个工位有摄像头采集了员工操作视频,该企业目前只能通过人工抽查视频的形式 判断员工是否戴手套,是否有磕碰等行为,但是其覆盖率仅有不到 5%,同时很难再与其 他系统数据进行关联分析。GenAI 的出现对该企业而言是一个新的契机,然而对于多模态 数据的统一治理及与大模型的联动,同样超出了该公司的技术能力。

市级政府规划部门 该部门为某市级政府的发展规划部门,该市经济主要以传统工业为主,因此招商引资的政 策倾向也比较看重新能源相关的高附加值工业。该部门的招商人员长期以来都需要关注多 个细分产业的市场动向及各地政策情况,以对自身发展决策提供依据。然而长期以来都只 能依靠人工方式去网络上搜索获取相关信息,再经过人工的整合归纳后,结合自身产业数 据,按月发布相关报告,以供决策层领导使用。GenAI 技术出现以后,招商人员开始通过 使用公开的大模型工具来进行更进一步的搜索和整合,提高了一定的工作效率。然而面对 如行业咨询报告,上市公司财报,工商注册信息等更加复杂及多元的数据,实际上通用 GenAI 大模型工具输出效果并不理想,特别是涉及到当地产业的各类文件、政策、统计数 据等,处理复杂度将进一步提升。

参考报告

AI原生多模态数据智能解决方案白皮书.pdf

AI原生多模态数据智能解决方案白皮书。在当今时代,Gen人工智能(GenerativeAI,简称GenAI)正以前所未有的速度席卷全球,成为推动科技进步和产业变革的重要力量。从ChatGPT的横空出世到各类大模型的广泛应用,GenAI不仅在技术层面取得了突破性进展,更在商业和社会层面引发了深远的影响。从文本生成、图像绘制到视频制作,GenAI的应用场景日益丰富,为各行各业带来了前所未有的机遇与挑战。据麦肯锡全球研究院(McKinseyGlobalInstitute)的报告,到2030年,AI技术有望为全球GDP贡献高达13万亿美元的增长。Gartner预计在2026年,超过80%的企业将使用G...

查看详情
相关报告
我来回答