理解大数据:数字时代的数据与隐私2021

  • 来源:罗汉堂
  • 发布时间:2021/06/27
  • 浏览次数:2159
  • 举报

报告综述

1.1. 一个由数字信息定义的时代

人类的经济发展史是一部信息分享的历史。和别的动物不同,千年以来,人类学会 了收集、组织和储存大量复杂信息,并彼此分享。然而大千世界中,永远有人类难以收 集的信息,或是缺失,或是不够精确,更不用说对这些信息进行处理并从中受益了。更 复杂的,由于个人和企业是自利的,或有意或无意地,他们常常提供错误或不完整的信 息。

在理论界,过去的大半个世纪中,众多经济学家致力于研究信息的价值,并探索如 何降低乃至消除信息分享的壁垒。信息之所以需要分享,还因为信息存在“不对称”的问题。在相互接触中,人们获 得的常常是不同类型的信息。而双方往往不愿或无法可信有效地交换信息,因此,“不 对称”的信息很难恢复“对称”。而信息不对称会降低经济效率,是影响市场交易效率 的重要因素之一;甚至,当信息不 对称严重到一定程度,整个市场可能会就此消失。例如在劳动市场,缺 乏有关工人能力以及企业用工需求的信息,会导致人力资源无法得到有效分配,现实表 现就是失业和企业生产率低下。

大部分经济活动,其背后的机制设计,本 质上都是“为了降低交易成本,或弥补过高交易成本引发的交易失败,从而让个人可以自由地协商交易,受益于信息的扩散。一方面,为了促进信息的收集 和扩散,人类进行了诸多努力,设计不同的机制来减少交易成本。另一方面,当经济主 体面临不充分或不对称信息时,我们设置不同的激励措施来鼓励主体之间进行协作。所以,在理论 和实践中,人类社会都一直在致力于打破信息的牢笼,推进信息的交互。

数据被数字化,再加 上新兴的半导体技术被大规模用于数据计算和储存,推动了数据的爆炸式增长。以至于 在各类文本中“数据”一词的出现频率超越了“信息”一词。数 字革命彻底改变了信息在社会和经济中扮演的角色。它一方面让信息获取前所未有地简 单,人类使用信息并从中获益的难度大大降低,数据日益成为重要的生产要素。另一方 面也加大了滥用信息的风险。

因为数据、信息、大数据等概念被频繁使用,在进一步论述之前,有必要建立对这 些概念的共识。首先要注意的是,数据不等同于信息。数据是对事物的一系列观察,而 “大数据”则是对大量“(小)数据”进行组合、存储和计算处理的过程。“数据科学”中 很重要的步骤是“数据压缩”,即将大量数据集压缩成小规模,同时保留大部分有效信 息的数据集,并将其转换成易于存储和解读的形式。信息是基于数据的洞见,所以信息 的价值往往取决于需要回答什么问题,也就和具体的使用场景相关。

人类社会正处于一个关键的十字路 口,一方面数据的重要性达到前所未有的高度,另一方面我们在如何治理,从而充分发 挥数据的作用,并同时降低数据滥用的风险这些关键问题上,鲜有共识。要发挥数据的 最大效用,需要我们更好地理解数据的本质,理解数据在真实世界是如何使用的,以及 在治理数据时应该如何权衡取舍。为此,我们要区分事实和臆断、求真与恐惧。 数据经济学就是数字时代的信息经济学。

1.2.1 从理解隐私悖论开始

要保护好隐私,我们需要了解人们在真实生活中如何看待和做有关个人数据分享的 决策。 我们可以先看一个简单的、被广为接受的关于信息或数据隐私的定义。大量研究发现,全球用户中普遍存在着一种矛盾现象, 学者们称之为“隐私悖论”,它描述的是,尽管大多数人表示在意自己的隐私,但常常免 费地,或在很小的经济补偿下,分享自己的个人信息。人们对隐私基本权利的重视,和 他们实际行为中的“毫不在意”之间存在显著矛盾。这种现象并非孤例,存在于不同的 国家和文化环境中。 目前学术界对隐私悖论有几种不同的解释。一种观点认为,这是因为当事人不了解 隐私被侵犯可能带来的严重后果;或由于一些重要的数字应用缺乏可替代选择,用户不 得不让渡一定的隐私权。随着越来越多的新选择不断涌现,这种理论很难 解释用户为何对层出不穷的新数字服务也“来者不拒”。另一种更让人信服的解释认为, 当面临真实的选择时,是人们的真实行为,而不是调研中的表达,揭示了人们会在隐私 和数据福利之间如何权衡取舍的真相。

当用户有权选择是否分享个人信息,从而获得小程序服务时,如同其他国家一样,中国用户普遍在意自己的隐私。但当面临选择时,绝 大部分用户会选择分享个人信息,以获得服务带来的福利。用户会在信息 敏感度和服务质量之间做出取舍,面对隐私事件时,他们会倾向于用脚投票,提高退出 率。随着用户经验的不断积累,他们一开始会更谨慎地选择,但日积月累,他们处理分享个人数据的经验更多,拥抱的数字服务也会更多。这些行为模式适用于不同的性别、 年龄和教育程度。

这些结果表明,“隐私悖论”的本质是,与个人数据相关的消费者权益具有双重性, 一个是隐私被保护的权益,一个是因为分享数据而获得更好服务的权益。两者之间 的权衡,才是对消费者权益的完整理解。研究表明,最担心隐私的用户,恰恰是使用数 字服务更多的用户。所以解决“隐私悖论”的方法,不是就隐私谈 隐私,把数据锁起来,而是在保护好隐私的基础上,鼓励数据的流动,这样才能真正让 消费者受益。

1.2.2 数据的价值来自何处?

在线数据共享的价值,至少表现在三个方面: 连接、决策和信任。首先,数 据分享会增强连接性。在数字技术的帮助下,数据的产生和分享是如此便捷,普惠性连 接达到了前所未有的水平,重新定义了市场以及人们组织生产和协作的方式。一个例证 是,由于在线市场的出现,交易的范围、深度和广度都得到了极大提升。传统线下交易 的特征一般可以用经济学中的“重力模型”来描述,即本地商户的用户绝大多数来自方 圆 10 公里范围内,距离越远,交易越少。而中国当前电商平台上呈现的景象则完全不 同。除了生鲜食品,买家和卖家之间成交的平均距离接近 1000 公里,超越传统线下市场 服务范围两个数量级,“重力模型”被彻底打破。从连接买卖双方的情况看,10 亿淘宝 用户中,月度活跃买家超过 7 亿,同时有超过 1000 万家初创企业和公司作为卖家,其 中约一半的创业者是女性。在产品丰富度方面,消费者在线上可购买 10 亿种以上的商 品和服务。这个市场的形成,是以参与各方愿意分享数据为基础的。

具体而言,在今天的线上购物环境中,匹配用户数据与产品,可以大大降低搜索成本,尤其是当 市场存在海量产品的时候。当个人数据这一重要的信息源被切断时,消费者在选择潜在 商品时只能依靠传统的供给侧的信息源:品牌、信誉和商品一般特征。因为这些来自传统渠道信息的有效性不足,市场规模大幅萎缩。这一结论与搜索领域的学术研究不谋而 合。大量论文证明,即使较小的搜索或匹配成本也会导致商品和劳动力市场的厚度和广 度产生剧烈变化。

第二,数据分享可以改善决策。海量多种类数据相连接,可以帮助无数消费者和生 产者做出更明智的决策,促进更快、更有效、更多的创新产品和服务,数字时代之前不 可能出现的商业模式以及新的产业组织形式也随之出现。由于无法和大企业一样进行大规模市场调研,中小企业在传统市场中一直难以获得市场和消费者信息。因此通过数据分享改善商业决策对中小企业尤其意义重大。淘宝和天猫平台上的“生意参谋”类似服务也可以在国内外平台上看到,这 项服务为所有在线商家提供多种信息分析工具,包括卖家自身历史业绩、市场趋势以及 潜在消费者喜好等等。大多数生意参谋的新用户是中小企业,它们的销量通常会在开通 服务的第一周出现跃升,并在之后的 10 周,已经开通服务的用户和未开通服务用户的 业绩差异会逐渐稳步拉大。“大数据”的出现让中小企业获得了以往只有大企业才能享 受的先进分析工具,帮助它们快速增长。

在金融领域,数据分享可以改善金融风险甄别能力。传统金融一直难以克服普惠性 不足的顽疾,让抵押品不足的低收入人口和小微企业获得融资,而数据分享有望解决这 一难题。通过获取借款人的消费和经营数据,已经足够说服贷款人在无抵押的情况下提 供金融服务并承担相应风险。通过这种方式,小微企业也可以享受到金融服务。大数据让 过去无法实现的大规模小微信贷成为可能。这种由大数 据风控支持的小微贷款,为千万计创业者带来了机遇。

第三,数据分享可以建立信任。新型线上市场有数以亿计的参与者,要像线下市场 面对面交易一样顺畅无阻,对产品及参与者的信任机制必不可少。有 了线上的数据分享,消费者就能对商品和生产者进行评价,而生产者则通过这样的评价 系统,努力打造良好的信誉。所有参与者都是数据的生产者,也同时从数据的交换中受 益。

大数据往往可以用三个 V 来概括:即数据量(Volume)、多样性(Variety)和速度 (Velocity)。数据量指的是能观察、记录、处理和分析海量的数据。多样性代表数据的宽度,即能处理许多不同类型、不同维度的数据,从而满足数字市场中卖方和买方的不同 需求。速度是指收集、处理、分析和使用数据的速度在不断加快,也就是实时性。 结合前面的讨论,大数据的两个 V,即大容量和多样性数据正在彻底改变人类的交 互和协作。这是因为数据可以改变消费者与生产者之间的连接方式,增强买方和卖方之 间的信任,并且让决策变得更迅速、更明智。同样关键的是,这些基于数据的连接、信 任和决策过程,正在以前所未有的速度,甚至是实时地进行:与实体商品不同,数据只 有流动起来,才能传递信息,创造价值。大数据的三个 V 向我们展示了数据如何创造价 值:海量且多维的数据实时地驱动社会经济活动。这正是数字经济的本质,而所有的经 济活动的参与者都是受益者。开放且充满竞争的市场,加上来自 各方的信息分享和决策,才能让整个社会受益。

1.2.3 如何缓解隐私风险?

尽管数据分享可创造巨大价值,但也存在风险。数据创造的价值越大,保护隐私和 数据安全的紧迫性就越高。数据生命周期的每个阶段,从收集到集成,从分析到应用, 都存在数据泄露和隐私风险。个人有知晓和拒绝数据收集的权利,这是广为接受的观念, 然而在现实中,要防止个人信息过度暴露和信息泄露是一个艰巨的挑战。

当下社会关注的热点是如何通过法规保护好隐私,而同样需要关注和理解的是行业 和企业的隐私保护措施。因为数据分享和运用是经济活动不可分离的一部分,法规只能 规定经济活动的边界,弥补市场失灵的部分。只有当行业和企业把个人隐私保护和数据 安全作为商业的一个重要条件,并配置相当的机制和技术,才能真正实现目标。

在这个维度上,全球很多行业和企业已经在做大量的探索。有效保护隐私的逻辑,是将隐私工程化 (privacy engineering)和隐私增强技术(privacy-enhancing technologies,PETs)结合起 来。隐私保护工程化,是指将个人隐私保护的法规和原则,融入到产品设计中来开发和 使用软件应用。例如在用户交互设计上,隐私工程可以加强用户对隐私条款的理解,增 强对敏感信息的控制。

隐私工程化可以应用到大数据生命周期的各个阶段。在信息收集阶段,企业必须获 得用户的许可,并且必须遵循收集数据的必要性原则。在集成和存储阶段,企业处理数 据前要可以过滤敏感信息。这些信息还可以加密,这样即便出现数据泄露的情况,个人 信息也不会被滥用。脱敏和加密后的数据,可以用于分析,了解消费者及其需求,并且 在严密且持续的风险管理之下进行。最后,要可持续且高效地使用数据,企业要在隐私 保护需求和用户数据许可最小化之间取得合理的平衡,这样才能既保护隐私,也不至于 因为过分许可打搅用户。最后,用户还应该保有个人信息的删除权。

可以看到,隐私工程化意味着需要很多隐私保护技术,从而防止不可信或潜在恶意 的数据收集者侵害用户的隐私。这些技术的目的,是让服务提供方进行大数据分析时,懂 得客户特性和需求,然而却“不知道客户是谁”“数据可用不可见”,从而更好地满足客 户和数据相关的两个权益。隐私工程和隐私技术成本不菲,给初创公司和中 小企业带来更多挑战。在多大程度上做好,能够同时满足消费者和生产者的需求,从而 发挥数据作为生产要素的价值,同样是值得整个社会讨论的问题。假以时日,合理的机制设计和不断完善的技术,可以在很大程度上缓解数据隐私和安全问题。数据分享的体量和隐私及数据安全并不是 必须的取舍。当技术足够强大,机制足够合理,今天看起来严重的隐私风险即便无法彻 底杜绝,也可以得到有效控制。

1.2.4 如何从数据的本质看数据的权属、利益分配和保护责任问题?

数字时代理解数据和隐私本质问题的综合框架,也称为“数据权衡框架”。数据的问题需要综合视角去理解。首先,数据具有和物理商品截然不同的本质属性,在生产和使用过程中牵涉到 多方。其次,我们需要综合考虑用户和数据相关的两个福利,即隐私保护权益和因为分 享数据而获得服务的权益。再次,数据分享在经济活动和人类协同中必不可少,数据只 有通过在社会和经济行为中流动才能创造价值。

这个数据权衡框架包含数据的两个本质特征、三个视角,以及一个基本原则。

1. 数据的 2 个本质特征:非竞争性和不可分离性。首先,数据和物理商品不同,据 有非竞争性,可以被无数次生产和使用,而不会消耗数据相关的对象。其次,不管数据 的使用者是谁,都可能对数据相关的主体带来潜在影响;数据使用和数据主体存在不可 分离性。

2. 数据生产和使用的三个视角:数据生产者、数据主体和使用场景。这里数据生产 者(在商业环境下)是指观察、收集和处理数据的机构和个体。数据主体是指数据描述 的个体(个人数据)或对象(非个人数据)。使用场景是指使用数据的经济或社会活动。

数据需要被观察才能产生,所以数据相关主体并不一定是数据的生产者。基于数据 的两个本质特征,数据生产者和数据主体的利益是相互关联的。

从数据生产者的角度来说,要产生数据,既需要数据主体,也离不开数据生产者, 并且数据的使用也会同时影响两者。数据的非竞争性本质决定了,数据可以有无数个所 有者,而不会消耗数据或者数据主体本身。举例来说,一个人发表演讲的数据是由每一 个听众分别产生的,并且会因为每个听众的视力、听力和关注点不同而有所差异。基于 数据形成的信息也可以分享给不在场的人,而不会损耗演讲者。

从数据主体的角度出发,使用数据会对他们造成影响,因此他们的权益必须得到保 护。 从使用场景的角度看,数据不应被简单地类比为一种有固定价值的商品。在实践中,数据需要归集、存储、分析,形成对场景需求有价值的信息洞见。一方面,这个过程需 要消耗成本和能力。另一方面,数据的价值是变动的,取决于基于数据的信息能在多大 程度上提高经济和社会活动中交互的效率。所以,数据的使用是经济活动中不可分离的 部分,其价值也随着具体的场景需求而变化。

数据的两个本质特征,和数据生产者、数据相关主体、使用场景三个视角,可以帮 助我们理解数据和其他商品或生产要素有什么不同,数据是如何产生、如何发挥价值的, 以及牵涉到的相关方。基于这个权衡框架,我们可以得出三个结论:

首先,将数据等同 于一般商品那样拥有唯一所有权的观点是不合理的。第二,隐私保护的重点应该是在数 据使用中尊重和保护数据主体的隐私权,而不是将数据独有权给予数据相关主体,否则 难以发挥数据作为生产要素的价值,最终让所有的相关方受损。最后,数据生产者和数 据相关主体之间应在平等、自愿的基础上达成协议,从而双方都可以从数据的生产和使 用中受益。 总结起来,数据治理的核心原则应该是在促进数据流动的同时保护数据主体的权 利。

1.3. 数据治理问题

1.3.1 数据治理的演进逻辑

数据权衡框架有助于更好地理解数据隐私监管和治理的演进。上世纪 70 年 代,美国颁布了《公平信息实践》(FIPS),为现代隐私保护的治理法规和监管奠定了基 础。《实践》基于五大原则包括:(1)通知/知情;(2)选择/许可;(3)接入/参与;(4) 完整/安全;以及(5)执行/纠正(美国联邦交易委员会,1998)。

这 5 大原则指导美国联邦委员会“鼓励和推动有效的自我监管,作为保护消费者线 上隐私的主要方式”(FTC,1998),进而成为后来隐私和数据治理条文和法规的原型, 包括欧盟的《数据保护原则指令》(DPPD)、《通用数据保护条例》(GDPR)以及美国 的《加利福尼亚消费者隐私法案》(CCPA)。以 FIPs 为基础演化而来的个人数据治理 法规有一个关键的共识,那就是不要将数据锁入“保险箱”里或拘泥于数据所有权,而 是鼓励安全的数据流动,同时保护消费者隐私。让消费者从 分享个人数据中受益,这个定位和我们的数据权衡框架中确立的基本原则是一致的。虽然在大原则上一致,但在数据使用上有不同程度的限制,反映出不同国家和机 构对数据治理的实践差异。尽管动机良好,但过于严 厉的治理政策会对专利、知识产权、授权、定价甚至“数字经济的存续”带来不利影 响。政策制定应让各参与方都成为利益相关方,从数据分享中受益任何条例都会带来应用的成本,数据隐私法可能会限制宝贵的信息流动,带来隐私和安全风险,提高市场进入障碍,增加创业者的不确定性,以及催生 寻租行为(Layton,2019)。

1.3.2 数据和竞争的关系

数据驱动的商业行为在竞争中会扮演越来越重要的角色,因此我们需要理解数据驱 动的市场行为会如何影响竞争。竞争法的核心目标是确保消费者可以从竞争的力量 中受益。要判断竞争是否被扭曲,消费者的利益是否受损,我们要用 事实说话,深入理解行业结构、企业的商业行为,并评估其市场表现。

在中 国,线上市场的出现让买卖双方的平均距离从 10 公里上升至 1000 公里。在 1776 年出 版的《国富论》中,亚当·斯密指出,垄断力量是“良好管理的大敌”,而交易范围的扩 展会打破这种垄断:

“状况良好的公路、运河、船只往来的河流,这些大大降低了货运的开支,将一国 偏远的地方与城镇周边置于同一发展水平上。它们都得到了最好的交通改善。这将刺激 边远地区——一国最偏远一环的发展。通过打破本地商人的垄断,对城镇的发展多有裨 益,也对国家的其他地区有益。尽管交易扩张在旧市场中引入竞争性的商品,但也为旧 产品带来了新的市场。此外,垄断是良好管理的大敌。只有在自由和全面的竞争下,市 场中的每个人为了自我防御都要遵循规则,好的管理制度才能建立起来。”

如同亚当·斯密时代的“公路和运河”延伸了贸易距离,打破了垄断,提升了偏远 地区商家的竞争,21 世纪出现的平台数字网络也打破了本地垄断力量,建立了一个更健全、更具竞争性的商业环境,只不过两者的速度和效率无法同日而 语。 另一方面,数字经济中可能妨碍竞争的商业行为在全球范围内正在引起越来越多的 关注和争议。

首先,企业在多大程度上利用大数据技术歧视性对待消费者?

商家今天获得关于客户的信息前所未有,无论数据量还是数据种类都远超前人想 象。从理论上讲,企业通过数据更懂消费者,是有可能成体系地对消费者采取价格歧视, 攫取消费者利益。

数字技术改变了生产者和消费者的关系。随着 累积这些高颗粒度的数据,商家已经不再追求从单独的产品或服务中获取最大利润,而 是追求提供一个以客户需求为中心的综合服务,建立更高的客户忠诚度。普惠性就是 尽可能扩大客户的多样性和数量,今天已经成为越来越多企业核心的商业目标。很多数字平台希望向平台上的卖方公开买方的特征信息,而不是将买家隔离开,进行经济学家所谓的“价格歧视”——以不同的价格向不同 的群体出售类似的产品,以便从支付意愿最高的消费者身上获取最大的利润。实际上, 要成功地进行价格歧视,卖方需要有能力将不同群体的消费者隔绝开。而今天的互联网 让信息隔离越来越难,消费者可以在非常广阔的范围内搜索不同的卖家和价格,让竞争 越来越激烈。

其次,大数据是否在妨碍竞争,让市场出现赢者通吃的局面?

关于数据竞争的一个普遍担忧是,网络平台的外部性(直接和间接的)和规模经济 可能带来市场进入障碍,从而引发赢者通吃的结果。

大数据只是商业竞争的一个要素,并不必然决定行业的格局和 企业的命运。首先,在数字经济中,数据的使用只是商业模式运行的一部分。尽管在今 天的商业模式中,数据扮演了比以前更加重要的角色,但企业间的竞争仍旧由商业模式 及其执行决定。另外,与传统经济不同,数字服务的消费者可以选择多个平台——用户。

可以选择提供类似服务的不同供应商,从而多方分享自己的个人数据。再次,随着数据 的增加,数据的边际效用会随之下降。研究表明,如果一种资源能为企业带来垄断的竞 争优势,那么这种资源一定是无法模仿的、稀有的、高价值的且可持续产出的。 显然,在数字经济的发展过程中,存在妨碍竞争的企业行为,需要通过法规纠正, 这也日益成为各国社会关注的一个重点。但这些现象,和所谓的“赢家通吃”,无论在 理论和实践中都没有必然的联系。我们对事情性质的判断,应该基于事实,基于不同国 家、不同行业的实际情况,而非基于假设的“黑板经济学”,否则会适得其反,妨碍数字 经济的发展。

再次,大数据在多大程度上在给创新带来障碍?

从事实上看,几乎每一个行业都有新的商业模式和新的市场 进入者。在数字技术和数据的帮助下,这些新的商业模式为行业带来了“破坏性创新”, 也逼迫那些墨守成规的成熟企业做出改变。在全球几乎所有市场,带来激进创新的企业 都是那些资金和资源非常有限,但拥有无限想象力和雄心壮志的初创企业。

大数据天然会推动产 品和生产流程的创新:

第一,大数据的三个 V 已经成为重要的生产模式和商业模式的创新引擎。企业连 接和了解客户的能力大大加强,因此可进行更明智的决策,并进行创新试验。这是在数 字技术深度改变的行业中,创新层出不穷的重要原因。

第二,大数据的三个 V 带来了前所未见的大规模、深度合作,这也大大加速了创新 在市场中的部署和应用。平台作为连接供给和需求的载体,成为创新扩散的重要推动力 量。平台处于竞争压力,会愿意改进商业基础设施,推动平台上企业的创新发展。实际 上平台上的创新非常活跃,例如新品牌和小众品牌在各类平台上的爆发式增长,就是显 著证据。

第 2 章 从消费者权益的视角理解隐私悖论

2.1. 让人费解的隐私悖论

“隐私悖论”:大多数人表示自己在意隐私问题,却常常免费或在很少的经济补偿下, 分享自己的信息。这种言行不一的行为模式普遍存在于全球各国,不分国家和文化。尽管对隐私保护的焦虑广泛存在,但很多人还是愿意分享自己的隐私数据,往往 是在没有或很少的经济补偿的情况下。当分享他人信息时,人们几乎无所顾忌。隐私悖论体现了用户在对待隐私问题上,言行之间的巨大 差别。正确地理解隐私悖论,对理解消费者对个人数据分享涉及的权益诉求至关重要, 是制定隐私保护政策所需要考虑的关键因素。

2.2. 通过大数据研究揭示用户的隐私决策

目前对隐私悖论有几种不同的解释。一种观点认为,这是因为当事人不了解侵犯隐 私可能带来的严重后果。还有一种认为,由于目前主流隐私条款只能“接受或退出”,一 旦缺乏其他可替代服务,用户不得不让渡一定的隐私权。随 着市场竞争越来越激烈,很多可替代的产品正在涌现,这种解释越来越缺乏事实基础。 另外,认为用户不了解分享的严重后果和用户对隐私的普遍担忧是相悖的。第三种观点 则认为,当面临真实选择时,是人们的行为,而不是口头表达,揭示了消费者对待数据 分享的真实态度。

当用户有选择权时,他们不仅在大多数情况下愿意分享个人信息,使用小程序,而且他们后续也很少退 出,表明他们不会后悔自己的选择,至少没有足够的退出倾向。尽管用户愿意分享个人数据,但不代表他们不在意隐私。信息的敏感度越高,愿 意分享的用户就越少。用户的隐私忧虑是根据不同因素相应变化的:信息的敏感度不同,用户的隐私忧虑也不尽相同,人们更在意敏感信息的分享。负面的隐私事件会大幅提升用户退出率。随着用户使用数字产品的经验更加丰富,他们也更愿意分享个人信息。在使用新的小程序时,用户并不会考虑这些应用的流行度;但那些使用人数少的小 程序,用户后期退出的几率会更高。最后,用户对数字平台的信任,会鼓励他们更多地分享 个人数据。

隐私悖论并非源于无知或非理性行为。它凸显了数据 分享的实际价值,以及我们亟须找到更有效,成本更低的方式去保护个人隐私。如果绝 大部分用户实际上愿意分享数据来获得服务,只是他们同时也需要更好的隐私保护,那 么最好的隐私保护政策不是将个人数据束之高阁,也不是一味提升数据分享的成本,而 是更高效地保护隐私和数据。

2.3. 评估个人信息分享的风险

不同的人对分享个人信息的态度可能截然不同。消费者隐私指数将不同个体分为三类:“隐私本源主义者”:即使 可以从中获得更好的服务,这些消费者也不愿分享个人信息;“隐私实用主义者”:他们 会根据具体情况进行判断,看获得的服务是否值得信息分享;“隐私乐观主义者”:他们 对个人数据的收集和使用并无担忧。每一类消费者的行为都有合理解释,因为他们对数 据安全的偏好不同,与获得服务之间的权衡也不同。

从消费者权益的角度出发,我们能更全面地理解消费者对待隐私的真正态度,以及 他们在分享个人信息时的偏好。当消费者分享个人信息时,他们既有可能获得福利,也面临风 险。这种共识后来发展为所谓的“隐私权衡理论”。隐私权衡理论认为,在分享个人数据时,消费者通常会进行一个成本 收益分析,将福利与潜在的风险进行权衡。当预计的收益大于已知风险 时,消费者倾向于披露他们的个人信息,反之则会拒绝。当消费者进行分享信息的决 策时,信息的敏感度、隐私事件以及服务的质量都是他们计算的相关因素。

第 3 章 数据的价值

3.1. 信息在数字时代的变革性意义

信息交流在经济活动中的地位不可代替:首先,不像普通的有形商品,做决策所需要的信息往往没有具体的 存在形式,而且分散在各处,需要进一步生产和提炼;第二,为利用好分散的信息,社 会面临最重要的经济问题,实质上是如何促进信息的收集和交流。信息分享和扩散会影响到人类协同合作的水平。通过巧妙 的市场设计和工具,能够在一定程度上缓解信息不对称所带来的效率扭曲。而“数据”并不等同于“信息”。“数据”作为数字化的记录,可以看作是 信息的载体或媒介,但数据不一定包含信息。


理解大数据:数字时代的数据与隐私2021


3.2. 数据在数字时代的价值

数据只有在使用时,在经济生产和社会活动中流动时产生价值。随着人们对数据的 处理、传输速度大大提高,人类协作的三个基石——连接、决策和信任正在信息革命中 发生着根本性转变。以下讨论将对这三大要素进行详细分析。

3.2.1 数字化连接: 普惠性参与和协作达到前所未有的水平

由于数据非常容易生成和分享,普惠性连接达到了前所未有的高度,这重塑了市场以及人们协作生产和消费活动的方式。远距离的交易之所以能发生,原因在于信息流动大幅提速,消费者与生产者匹配效率明显提高,物流体系也因为信息流动、交通改善等因素变得更为快捷。由于客户 有数十亿种商品和服务可供选择,所以根本不可能搜索到所有感兴趣的产品或服务,生 产商也无法接触到所有潜在客户。如果说传统市场的主要障碍是缺乏信息,那么数字时 代的新障碍就是信息太多——信息超载。在这种情况下,低效信息俯拾皆是,人们更需 要有价值的信息,因此为买卖双方牵线搭桥的有效机制至关重要。这就是“大数据”的 意义所在。

3.2.2 数据分享优化决策

海量、多种类的数据,再加上快速连接,让无数客户和生产商做出更明智的决策, 从而促成更快速、有益的产品创新,更具创新性的销售和服务,以及新商业模式。除了使用搜索和店铺列表等传统工具外,电商平台利用越来越多的推荐系统,能更 有效率地帮助消费者找到自己想要的产品。而这个推荐系统则依赖一些大数据信息,电 商推荐系统依据的消费者数据包括购买历史、搜索活动和个人特征(但不是个人的具体 身份信息)等,匹配的推荐通过算法完成,因此供应商可以“感知到自己的客户群,但 不知道他们具体是谁”。尽管这些匹配算法非常有效,但买卖双方都是最近几年才开始 探索其潜力。到目前为止,只有少量相关数据被用于帮助匹配买家和卖家、用户和供应 商。

在金融领域,大数据让小额贷款的规模化成为现实,而这在以前根本不可能实现。 在金融领域中,“了解你的客户”(Know-Your-Customer ,简称 KYC)从来都扮演 了重要角色。从历史上看,正是因为缺乏信息,大多数企业贷款都是以抵押为基础,而 大多数中小微企业由于缺乏抵押品而无法获得贷款。这造成了中小微企业的巨大资金缺 口,如何为这些企业提供有效的金融服务一直是世界性难题。 金融科技的出现扭转了困局。金融科技贷款利用大数据,服务于担保额度低、但具 有高增长潜力的中小企业,而传统金融中介更多依靠信息不敏感的抵押品提供贷款,这 样的模式主要为有抵押品的大公司提供贷款。

“数字足迹”是消费 者在注册或浏览网站时在网上留下的信息。他们发现即使是简单的数字足迹信息也可以 成为传统征信机构评价信息的有益补充。银行结合使用征信机构和数字足迹信息,已经 能够将违约率降低大约三分之一。因此数字足迹可以增加没有银行账户的人口获得信贷 的机会。

在中国,在大数据三个 V 特质的推动下,数字支付系统变得可靠和可持续。在数字时代,个人信息的分享已经成为有效匹配供需的一个关键环节。当个性化推荐系统中的个人数据流被切断 时,所有参与者,尤其是更需要支持的群体,都会受损,从而带来巨大的社会福利损失。 所以,在保护适当的前提下,让数据流动畅通,所有的参与者都是数据交互的受益者。

3.2.3 数字化建立信任

数据的分享可以帮助建立信任。在线市场中,全球数以十亿计的人们彼此间达 成交易,让买卖双方像在本地市场面对面交易一样互相信任是运营在线市场 的关键在于数据分享。通过在线数据分享,客户可以对商品和生产商评级。 因为所有参与者都能看到这类评级和评价,生产商会格外注重建立声誉。通过这个数据 分享机制,所有善意的参与者都能从中获益,这与传统的“柠檬市场”形成了鲜明对比。 评级系统给予买家和卖家通过信息分享构建信任的权利。围绕建立卖家的长期声誉,为 平台产生高质量、可持续的卖家创建了一种激励机制(Tadelis,2002)。数据不仅让买 家受益,也让高质量、有回头客的卖家更好地将自己与低质量、无信誉的卖家区分开来, 建立品牌意识,为长期的销售表现带来了动能。

“信息流”“资金流”和“商品流”常常被用来衡量经济活动。信息流动是所有基 于协同的经济活动中不可或缺的部分;没有信息流动,资本和消费品就不能从一方流向 另外一方。用哈耶克的话来说,经济问题就是信息问题。信息将人们连接在一起,使生 产商知道如何为客户服务,建立信任,并做出更明智的决定。数字革命将数据总量、种 类和速度提升到了前所未有的水平,大数据成功改变了消费者和生产者之间的联系,进 一步增强了买方和卖方之间的信任,并促进了更好和更快的决策。

第 4 章 隐私风险、隐私保护和数据安全技术

如今,隐私权在许多宪法和国际条约中已经被视为一项基本 人权,对隐私的重视和 保护已成为全球各界的广泛共识。回顾历史,保护隐私的制度安排也有共性,即从来都不是把隐私简单界定为一项不 可剥夺的权利,而是将“隐私”视为控制信息和从自有信息中获得福利的权利。这种思路的背后是认识到信息分享的价值,认可消费者对涉及隐私的信息的控 制权,因而允许消费者放弃部分隐私,以便享受信息分享带来的好处。在数字时代,这 意味着个性化营销体验、定制化的金融服务、医疗保健、教育,以及便捷的社交网络。为了保护好隐私,而不是流于形式,最有效的做法是将隐私视为一种可交换 的商品,使参与者有权选择通过让渡部分权益得到好处。

4.1. 数字时代隐私风险源于何处?

数字时代在放大了信息分享带来的好处的同时,也增加了隐私风险。数字经济的特 征是把越来越多多维度的、碎片化的、实时的小数据转化为“大数据”,在此基础上提 供各类线上服务,让消费者和商家都得到好处。但因为数据的广泛使用,在数据周期的 每个阶段,从数据收集到存储、分析、使用,到数据清除阶段,都存在隐私泄露和数据 安全的风险。

4.2. 隐私工程化和隐私加强技术

隐私保护的关键在于用好数字技术,开发出更强的保护机制和更有效的保护技术。 比如数字支付系统通过利用多维信息、实时风险甄别,以及人工智能算法,让支付中的欺诈行为大大降低。我们接下来主要介绍在隐私保护实践中近些年的两个有潜力且互补 的核心方向:隐私工程化(“隐私设计”)和隐私增强技术。

隐私保护工程化正成为数字时代对企业的一项核心要求。许多科技公司都已经开始 践行“隐私设计(Privacy-by-Design)”的方法。隐私工程化将隐私保护的法规和“用户 导向”的原则引入到软件、服务设计和使用的各个环节中,将隐私保护前置,从产品和 系统设计的初始阶段就考虑到如何解决隐私保护问题。隐私工程化包含两个部分,首先 是软件的设计中加入隐私保护,在交互和数据分享的各个环节都应用到最新的隐私保护 技术。隐私保护工程化旨在指导数据收集者、处理者和软件开发人员将核心隐私原则转 化为具体的设计功能和方法论。其基本思路都是将个人数据的收集和处理限制在必要 的最低限度。

理解大数据:数字时代的数据与隐私2021


隐私增强技术(PET)主要针对不可信和潜在有害的数据收集者,作为隐私工程化的有效补充。一般把隐私增强技术分为“硬 PET 技术”和“软 PET 技术”。硬 PET 技术利用各种“硬核”技术来降低误判可信第三方的风险。这些 技术包括匿名通信渠道(对服务提供商隐藏用户的 IP 地址,同时允许通信),选择性披 露凭证(允许用户对自己进行认证,并证明他们有权使用系统,而无须披露其他信息), 零知识证明(允许一方向另一方证明一项陈述是真实的,但除了陈述的真实性之外无须 透露任何信息),和多方安全计算等(在多方同时计算时通过机密算法只输出结果,并 且不可回溯)。

4.3. 数据安全

数字服务提供商必须保证数据安全。这要求提供商具有较强的内部治理能力,并且 能够及时使用最新的安全技术。行业内关于监控和风险管理的“最佳实践”的推广,为 科技公司提供了一个指南,使它们能够在整个大数据生命周期中保证数据安全,并且不 断更新所用的技术体系。行业自治还包括独立的认证机构、行业行为准则、利益相关者 参与公司董事会等。行业内的设计和技术同时提供了前端隐私和下游安全保护,使得 企业之间可以分享和输出自己的技术与实践。

理解大数据:数字时代的数据与隐私2021


第 5 章 全面理解数据本质的框架

整体理解数据和隐私本质问题的综合框架——数据权衡框架。在任何大数据的应用场景中,都包含数据主体、数据生产者,应用场 景这三个元素,我们用“数据三角”来概括。另外,数据的两个基本特质,非竞争性和 不可分离性,意味着在讨论诸如权属、分享机制、隐私保护等问题时,都不能简单套用 传统生产要素的安排方式。

理解大数据:数字时代的数据与隐私2021


数据的两个本质特征决定了数据不同于其他生产要素的权益和责任机制。如果没有数据主体的活动,当然也不会有数据的产生;但是无论从生产意愿还是生产成本来说,数据主体都不见得是数据的生产者,数据不等于信息。


理解大数据:数字时代的数据与隐私2021


数据的两个本质特征决定了数据不同于其他生产要素的权益和责任机制。如果没有数据主体的活动,当然也不会有数据的产生;但是无论从生产意愿还是生产成本来说,数据主体都不见得是数据的生产者,数据不等于信息。

数据的第二个本质特征是不可分离性(non-separability),即数据使用的效果 无法和数据主体完全分离。虽然数据共享会带来隐私风险,但如果有恰当的机制设计和技术保障,风险和收益之间的权衡可以变得可控。信息处理和共享一直是人类进步的核心基石之一。

第 6 章 关于数据治理的几个核心问题

6.1 隐私保护面临的挑战

即便原则清晰,FIPs 在执行过程中也面临很多现实挑战。不理解这些真实的挑战, 隐私保护可能只是纸上谈兵。 FIPs 最初被引入到国家法律时,往往变成流程中的一些简化规定,如获得消费者 知情同意的“通知和同意”制度7 。信息透明原则简化为“通知”,要求数据主体须了解 自己个人信息被使用的内容和方式。“使用限制”简化为过于宽泛且实际上意义很小的 “同意”选项,即未经用户同意,为一个目的收集的数据不能用于另一个目的。

事实上,“通知和同意”制度已经越来越不适合作为现代隐私保护政策的基础。数 据量的爆炸性增长导致企业更难真正贯彻法规,用户也不得不忍受长篇累牍 且难以理解的通知和往往有限的选择。“通知”是 FTC 隐私原则中的“基本核心原则”, 但意义不大,面临海量数据时,决策的复杂程度和数量都在上升,获得和给予同意已变 得越来越困难。

此外,大数据不仅“大”,还变得日益聪明。大数据可提供超乎想象的丰富信息,但 也可能带来对个人隐私想象不到的重大威胁。庞大的大数据网络可能产生严重的负外部性,少数参与者可能以撤回自己对 共享关键数据的同意作为威胁,来破坏整个网络的运行,从而引发潜在问题。另一种可能是,少数人会愿意披露自己的信息,而这可能会暴露出其他人的相 关特征。勾选同意的少数人的选择可能会成为主流,但并未勾选同 意的多数人可能会因信息披露而遭受最大损失。

大数据常常出现不可预测的结果,可能会使 FIPs 中的很多权利变得意义不大。

6.2. 数据驱动业务的市场竞争

数字技术正在重塑经济格局,数据驱动的商业行为在竞争中会扮演越来越重要的角 色。采用适应这些行为的竞争政策是大数据时代“善治”(good governance)的重要组成 部分。其关键是要了解这些新的市场行为中,有哪些可能会促进或阻碍竞争。竞争或反垄断政策的目标很清晰,就是促进竞争和提高市场效率,从而确保消费者从各方的竞争中获益。制定合理的竞争政策,需要深入了解商业实践 的细节,以及具体分析某个商业行为潜在的危害和好处,同时有能力评估该行为对市场 效率的影响,即是否有利于提高生产和销售商品的数量和质量,是否以更低的价格提供 商品和服务。

6.3 充满潜力的隐私保护市场

随着隐私保护的重要性越来越大,由数字平台自行建立的隐私保护市场正在不断增 长,竞争激烈。事实上,数字平台之间正在隐私保护领域展开激烈竞争,以寻求更好的方法来提高 隐私保护的效率,一方面降低隐私保护的成本,另一方面真正打消用户的隐私保护顾虑, 去安全地分享和使用数据。市场竞争对于隐私保护可能起到的作用至关重要。

报告链接:理解大数据:数字时代的数据与隐私2021


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至