独家|一文了解AI时代的数据风险(后真相时代、算法囚徒和权利让渡)

本文主要是介绍独家|一文了解AI时代的数据风险(后真相时代、算法囚徒和权利让渡),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=png


当今,在基于数据的个性化推荐算法机制满足了人们猎奇心、窥探欲、表演欲,让人们在网络中寻找到共鸣感和认同感时,我们未曾意识到一些新问题和新风险的出现。这些新问题和风险能够影响个人对世界的认知,影响群体达成共识,甚至影响到整个时代的价值观。根据清华新闻与传播学院彭兰教授的观点,目前数据时代所面临的风险来自以下几个方面:


  • 客观性数据可能成为后真相时代的另一种推手;

  • 个性化算法虽然带来了个人信息服务水平的提升,但也给人们带来偏见、歧视、思想被禁锢等困扰;

  • 相关权利保护则受到更多挑战,特别是在隐私权和被遗忘权方面。


下面,我们将进行详细解读。


640?wx_fmt=png


风险一:大数据带来的假象


2016年,《牛津英语词典》将“后真相”(post-truth)作为年度词汇,揭示世界进入了后真相时代。罗辑思维曾对该名词做出一个精辟的总结:“过去,我们相信认知源于事实;现在,认知本身就是事实”。


这其中原因,技术自然逃离不了干系。例如谷歌和脸书等公司开发的算法是基于用户从前的搜索和点击进行的,随着每次搜索和每次点击,用户就发现自己的偏见再次得到确认。如今的社交媒体已成为大部分人获得新闻信息的主要渠道,其中的推荐算法机制引导我们进入观念类似者的小群体空间内,它只为用户提供他们喜欢、或选择相信的信息,是否真实并不重要。


后真相现象提醒我们,数据与算法这些看上去客观的手段与方法,并不一定能带来更多真相,反而可能走向它的反面。如果应用数据的过程不遵守一套完整的规范,或者在数据应用中出现了漏洞而未能察觉,未来我们或许会被更多由貌似客观的数据堆积成的假象所包围。根据彭兰教授的观点,数据生产的每一个步骤都存在导致假象的风险:


1. 数据样本偏差带来的“以偏概全”


尽管已经进入到“大数据”时代,而大数据的卖点之一是“全样本”,但事实上,在现实中,获得“全样本”并不是一件容易的事。

 

在国内,由于历史原因,很多行业本身就缺乏完整、系统的数据积累,或者由于隐私、信息安全等问题,能公开的只有不完整的数据。譬如医疗行业和政府部门,如何打破信息孤岛,在哪种程度范围内做到公开、透明、共享,依旧是急需攻克的难题。

 

至于互联网数据则更是资源紧缺。目前互联网数据都被少数拥有巨大流量的平台垄断,其他中小型企业由于先天数据不足的缺陷,只能依赖于网络爬虫从这些大平台爬取数据。此前马蜂窝被爆1800万条以上的所谓真实用户数据是抄袭自其他OTA平台,暴露了互联网行业普遍数据造假的潜规则。所以,用户所看到的对一个酒店或餐厅的好评,并不一定是真实信息,很有可能由网络机器人爬取而来。如果说数据缺失能够导致“以偏概全”,数据造假则是直接简单粗暴地蒙蔽用户了。总之,行业数据可能存在样本不完整的问题,这也必然对数据分析结果的完整性、代表性产生影响。


640?wx_fmt=png


2. “脏数据”带来的污染


除了样本的问题外,用各种方式获取的数据,本身质量也可能存在问题。部分缺失的数据、重复的数据、失效的数据、造假的数据等,都被称为 “脏数据”。尽管数据处理前都会要求数据清洗,但这未必能完全消除脏数据带来的污染。某些数据分析者也可能因为一些原因无视脏数据的存在,甚至会制造一些脏数据。

 

此前人工智能对话系统微软小冰刚上线时,由于她是用实时对话的数据进行训练的,所以用户给她一些不好的对话后,导致小冰飙脏话就是数据污染的很直接例证。不久前,亚马逊的AI招聘系统被爆出性别歧视也是同样道理。从技术上讲,机器学习过程不会引入任何偏差,但训练数据中存在的任何偏差都将在算法中忠实地展现出来。AI的性别歧视,只是成功模仿了亚马逊当前的招聘状态。

 

因此,数据质量永远是数据分析立项后首先要考虑的。首先要理解数据来源、数据统计和收集逻辑、数据入库处理逻辑;其次是理解数据在数据仓库中是如何存放的,字段类型、小数点位数、取值范围,规则约束如何定义的;第三是明确数据的取数逻辑,尤其是从数据仓库中如何用SQL取数的,其中特别是对数据有没有经过转换和重新定义;第四是拿到数据后必须要有数据审查的过程,包括数据有效性验证、取值范围、空值和异常值处理等。当这些工作都做充足之后才能进行下一步分析。

 

3. 数据分析模型偏差带来的方向性错误


在美国畅销书《大规模杀伤数器:大数据如何加深不公和危害民主》中,作者提到现在的数据科学家,习惯用模拟的方式概括人类的行为,以群体画像推导个人行为,依此判定。这本质上没有问题,问题出在反馈上:大部分的模型根本没有矫正的环节,如果模型的结果有偏差,系统本身无从得知,根据错误结果持续优化,最终反而变本加厉。此外,作者还认为建立怎样的数据分析模型取决于我们自己,我们的价值观、我们的欲望,影响我们种种决策:收集哪些数据,提起什么样的问题。所谓的模型,是指内嵌于数学的观点。


640?wx_fmt=png


除了以上三个环节可能造成假象外,包括数据挖掘能力有限、数据解读能力有限,都有可能带来偏差。总之,当今的某些大数据分析在某种意义上就是在分析甚至“制造”人们的视角,然后将符合视角的“事实”推送给他们,虽然推送的“事实”似乎是客观的,但是,当它们被放置在人们的“视角”下时,就成为了影响主观判断和态度的重要手段。

 

2016年美国总统大选,多家民调机构的预测结果的失败,让人们质疑数据的客观性与准确性。而时隔两年之后曝出的Facebook数据泄露事件,在某种意义上是对民调结果失灵的一个回应,尽管我们并不能确定剑桥分析公司对大选结果的干预究竟起了多大作用。这一事件还有着更深层的寓意,它提醒我们面临的一个新挑战:一方面,数据分析的目标是追求客观地描述事物;另一方面,数据分析也可能会成为对客观事物或客观进程的干预力量。可以预见的是,未来两者之间的博弈可能会成为常态。

 

风险二:数据时代个人所面临的风险


在大数据时代,从个人角度看,目前数据应用与他们最直接的关联,是各种具有个性化算法推荐的应用。但事实上,这种算法既会对个人视野格局产生影响,也会暴露用户隐私。

 

1. 算法是否会将人们囚禁在信息茧房中?


“信息茧房”一词出自于美国学者桑斯坦,在他看来,信息茧房意味着人们只听他们选择和愉悦他们的东西。

 

尽管每个人都有自己的阅读偏好是正常的现象,但如果每个人关注的只是自己兴趣内的那一小片天地,他对这以外的世界,就会越来越缺乏了解。这或许不会影响到他个人的生活,但是,在需要公共对话的时候,人们会缺乏共同的 “视角”。而共同 “视角”的缺乏,意味着人们对一些事实的判断会出现差异,共识难以形成。同时,信息环境的封闭与狭隘,也可能会进一步固化人们的某些观点与立场。


640?wx_fmt=png


从面向个人的算法角度看,要尽可能减少信息茧房效应,就要在算法设计时深入理解考虑用户行为与需求中的矛盾,例如能够及时预测用户需求的迁移或扩展,或者提供一些惯性之外的信息,给个体带来新体验等。

 

除了以算法来完成面向个体的内容推荐,算法也可以用于公共性内容的匹配,也就是通过算法洞察公众的共同心理,使具有公共价值的内容到达更广的人群,也同样可能帮助个体挣脱茧房的束缚。

 

2. 算法是否会将人们囚禁在偏见与固有的社会结构中?

 

算法的另一种风险,是对社会偏见的继承,以及这些偏见可能带来的文化或社会禁锢。当算法用于不当的目的时,会对某些人群或个体造成歧视与伤害。算法不仅在归纳与“同构”现有文化中存在偏见、歧视,还可能用某种方式将它们放大。譬如此前举例的亚马逊AI招聘系统性别歧视一样,机器的歧视来自于数据的偏差,而数据的偏差来自于人的偏见。

 

这一点,一些大数据的开发者体会更深,如国内大数据应用领域的代表性学者周涛所言,“让我们不安的是,这种因为系统设计人员带来的初始偏见,有可能随着数据的积累和算法的运转慢慢强化放大。”

 

3. 算法是否会使人陷入“幸福地被操纵”?


或许,个性化算法还会带来另一个深层风险, 那就是在个性化服务下,个体逐渐失去自主判断与选择能力,越来越多地被算法或机器控制。从人的本性来说,懒惰是天然的,想以最小的成本或付出获得最大的报偿,是人之常情,个性化服务在这方面迎合了人性,但是,它也可能正在以方便、幸福的名义,渐渐地使人们对它产生依赖,并在不知不觉中被其麻痹,被其囚禁。


640?wx_fmt=png


风险三 个人权利的让渡是数据时代的必然代价?

 

数据时代对普通个体的另一个深层影响,是个体的全面数据化。在未来,用户的数据将更为多元,将通过更多渠道生成、保存,这也意味着用户数据中暗藏的风险更大,数据权利的保护面临更大的挑战。

 

1. 用户缺乏对自己数据的知情能力


此前李彦宏一句“中国人对隐私问题不敏感,愿意用隐私换取便利、安全或者效率”的言论让自己成为众矢之的。事实上,对于普通用户而言,并非他们不介意隐私被暴露,而是并不知道自己的隐私会如何被侵犯,以及被侵犯到何种程度。他们与那些掌握并利用甚至可能出卖他们的隐私数据的公司之间是不平等的。在缺乏对自己数据的知情能力的情况下,隐私保护根本无从谈起。

 

虽然在某些时候,以隐私换便利是用户的一种不得已的选择,但用户应该有权利知道,出让的是哪些隐私数据,能获取哪些便利,以便他们做出权衡。但今天的网络服务提供者多数并没有提供充分的解释,即使有一些隐私条款,也往往语焉不详或者暗藏陷阱。

 

2. 用户数据的边界问题值得探讨


此外,还有用户数据使用权限边界问题。譬如之前第三方公司剑桥分析利用心理测试APP来收集Facebook用户数据一样。即使用户同意向某个服务商提供个人信息,但服务商是否有权向第三方透露?而第三方是否又可以再次将数据转手?网络中的数据都是相互关联的,获取未经授权的关联数据是否合法?或许在理论上做出限定是容易的,但在现实中的操作,又并非那么简单。

 

3. 用户是否应该拥有绝对隐身的权利


再一个事关用户隐私权的问题是,今天的用户是否应该拥有一种隐身能力,使自己的数据不被他人获取或存储,从而在根本上保护自己。或许,这在国内将很难被执行。譬如人脸识别技术已被广泛用于街头巷尾的摄像头,尽管“天眼”织就“天网”让罪犯无处可逃,而对于普通个体而言,同样让人感觉到这是一种无处不在的监视。

 

在个体被随时随地“数字化”映射的情况下,隐身,也是保护隐私的一个重要方面。虽然在法律上要独立形成一种“隐身权”或许并不现实(它更有可能是隐私权中的一部分),但至少在技术层面,需要给予用户更多的“隐身”可能。在物联网将广泛应用的未来,隐身许可将变得更为重要。

 

4. 保护用户隐私的法律并不能完全保护隐私


在保护用户隐私的法律方面,2012年欧盟出台《一般数据保护条例》,称信息主体有权要求信息控制者删除与其个人相关的资料信息。该权利被称为被遗忘及擦除权。在国内,2016年颁布的《网络安全法》正式确认了个人对其网上个人信息的“删除权”:“个人发现网络运营者违反法律、行政法规的规定或者双方的约定收集、使用其个人信息的,有权要求网络运营者删除其个人信息。”这些都是对数字时代个人信息的存留风险做出的法律回应。

 

不过,目前被遗忘权或删除权更多地是在学界和法律界被讨论,大多数普通人并不知道它的存在。并且,即使有被遗忘权或删除权,个体也会面临比以往更多的风险。虽然谨言慎行或许是人们自认为的减少风险的办法,但在算法通过若干点赞就可以判断用户的性格的情况下,在未来各种传感器可以随时随地捕捉人的数据的情况下,被记忆仍会是常态。

 

640?wx_fmt=png


以上是对数据与算法时代可能面临风险的探讨。尽管数据与算法应用的价值不可否定,但我们需要对数据和算法应用的失误或失范有足够的警惕,也需要增强对抗风险的能力。在国内,由于观念、基础条件、规范等方面的障碍,都意味着大数据应用的推进需要时间。任何功利、草率的思维和行为都是对数据应用的损害而非推动。在数据技术的大跃进过程中,我们也需要回归原点,完成一些基本建设,譬如数据素养的培养、数据资源基础设施建设、数据质量评估体系建立、信息伦理规范的约束等。在这个时代,数据、算法将会成为决定我们生存方式的重要因素。识别、抵抗这其中的种种风险,也应该成为我们生活的一部分,成为各种数据应用机构的基本责任。


640?wx_fmt=png640?wx_fmt=jpeg

这篇关于独家|一文了解AI时代的数据风险(后真相时代、算法囚徒和权利让渡)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/223986

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统