阿里研究院-全球数字经济财税金融动态.pdf

  • 上传者:风****
  • 时间:2024/05/15
  • 热度:285
  • 0人点赞
  • 举报

阿里研究院-全球数字经济财税金融动态。世界银行:人工智能(AI)对数据开发利用的变革作用。

(1)AI 通过元数据增强(Metadata Augmentation)改变数据的记录方式。元数据(Metadata)是描述数据属性的数据,用来支持指示存储位置、历史数据、资源查找、文件记录等功能。元数据能确保研究人员找到最佳现有数据并从中获取知识。但元数据的可用性和质量是决定数据是否易于理解、可发现和可再利用的一个重要制约因素。记录数据和整理元数据的过程往往是一个手动、繁琐且耗时的过程,这导致许多数据集缺乏详细元数据来确保可访问性和再利用性,一直处于隐藏和未充分利用的状态。AI 提供的元数据增强这一变革性解决办法有可能使元数据的生成和增强实现自动化。生成式 AI 可从调查报告和数据字典中自动生成摘要、介绍和主题思想,自动提取和生成关键词从而改进搜索结果。这有利于数据生产者、管理者和用户获得更丰富的元数据,从而提高数据的利用率和再利用率。

(2)AI 提供最相关的数据用于数据发现(Data Discovery)。传统的数据发现系统通常依赖于词法搜索或关键字搜索,但是查找内容仅限于元数据中的确切关键字。同时,不熟悉专门术语的用户在使用这种基于关键字搜索的系统时,可能因不知道要搜索的确切术语而错过相关数据。因此,数据发现系统不仅应该对元数据进行索引,还应该理解术语之间的上下文关系,确保搜索结果全面且相关。诸如混合搜索、语义搜索、知识图谱和推荐系统等AI 技术的实施可以显著增强数据发现系统,进而让用户能够花费尽可能少的时间找到他们需要的数据。

(3)AI 通过大语言模型优化数据使用情况评估。鉴于研究人员在界定或表述他们在文献中使用的数据方式上具有很大区别,因此衡量数据如何或是否被使用仍然是一个挑战。大语言模型可从非结构化文本中提取结构化信息,创建一个“数据使用数据库”,从而分析数据对信息传递和知识生成的影响,优化数据使用的评估方式。

(4)利用 AI 生成合成数据(SyntheticData)突破数据传播的限制。隐私和安全问题限制了数据的有效传播。合成数据是通过算法、统计模型或 AI 生成的数据,而非真实的观测数据,例如,以敏感数据集为基础生成的不包含敏感信息但包含其他信息的数据。联合国欧洲经济委员会发布的《官方统计合成数据指南》表明,使用更先进的AI 生成合成数据提供了创建真实数据的方法,合成数据既可为用户提供分析见解,也可最大限度地减少披露风险。

1页 / 共34
阿里研究院-全球数字经济财税金融动态.pdf第1页 阿里研究院-全球数字经济财税金融动态.pdf第2页 阿里研究院-全球数字经济财税金融动态.pdf第3页 阿里研究院-全球数字经济财税金融动态.pdf第4页 阿里研究院-全球数字经济财税金融动态.pdf第5页 阿里研究院-全球数字经济财税金融动态.pdf第6页 阿里研究院-全球数字经济财税金融动态.pdf第7页 阿里研究院-全球数字经济财税金融动态.pdf第8页 阿里研究院-全球数字经济财税金融动态.pdf第9页 阿里研究院-全球数字经济财税金融动态.pdf第10页 阿里研究院-全球数字经济财税金融动态.pdf第11页 阿里研究院-全球数字经济财税金融动态.pdf第12页
  • 格式:pdf
  • 大小:0.9M
  • 页数:34
  • 价格: 5积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
  • 相关标签
  • 相关专题
热门下载
  • 全部热门
  • 本年热门
  • 本季热门
分享至