普通视图

发现新文章,点击刷新页面。
昨天以前透明思考

穷学IT(给侄女的一封信)

作者 Jeff Xiong
2018年9月3日 13:01

亲爱的侄女玥玥,

从上半年就想找时间和你深入谈谈,一直找不到合适的时间。我俩又都是内向的性格,面对面谈话也挺尴尬的,所以不如用文字的形式把我的想法写给你吧。

今天应该是新学期第一天吧?转眼你就上高三了。你父母对你未来的前途、尤其是应该选择什么专业,有很多担心,问到我的建议。我从自己有限的知识,能给你的建议就是:要学计算机相关专业,未来从事IT行业

网上有种说法,叫“富学金融,穷学IT”。金融和IT是目前中国薪资最高的两个行业。金融专业是不是只有富家孩子才能学、才能搞出名堂,我也不太清楚,不过确实看到很多学金融毕业的孩子也不太好找工作,要靠父母拉到存款、卖出理财,或者因为父母的背景关系,才能在银行里有比较好的发展。可能全中国也只有IT行业,至少到目前为止,还是一个相对公平、相对开放、相对透明的行业,是一个穷人家的小孩不靠关系、不靠家底、不靠父母的帮衬、甚至自己不用溜须拍马,也可以得到比较高的薪资,甚至实现阶级跃迁的地方。

现在的大人们不太说“阶级”这个词了,他们有时候会说“阶层”。中国正在很快地变成一个阶层固化的社会,意思是,父母一辈的生活什么样,孩子一辈的生活大概也就是什么样,甚至更差,想过上比父母”高级“很多的生活,很难,而且正在变得越来越难。我俩的家境都不算好,我的父母、你的父母,都是老工人,不是什么富贵人家,所以阶层固化这事,对我们来说是件很糟糕的事。我幸运一点,2000年代初的时候,阶层固化还没有很严重,即便如此,我事后回想,现在能有一个比较好、比我父母好的生活状态,最主要的原因还是因为搞了IT这一行。

我预计到2023年,你走出大学校门的时候,中国很多行业很多职业会严重过剩,会有大量的人失业。原因跟IT有关:软件的自动化、人工智能,这些技术会取代人的工作。比如我父亲以前开跨省的大货车,这种职业可能很快就会被无人驾驶的货车取代掉,整个高速公路段不需要司机,货车自动驾驶,只有从高速公路出口转运到城市这一小段由司机来开。那么司机的人数和待遇,都会降低很多。甚至很多传统看起来很光鲜的职业,律师、医生、教师,都会受到IT技术的挤压。整个社会的趋势会变成,少数精英收益很高,大多数一般人压力越来越大、待遇越来越差。IT行业、特别是搞技术的职业,可能是唯一一个不太受技术挤压、反而因为技术发展对人才需求越来越旺盛的行业。

在一个人才需求旺盛的行业,才会有公平的竞争、对员工的重视、对女性的尊重,才会有普通人不靠背景不靠关系靠自己努力一步步上升的可能性。在阶层固化严重的行业、在人力过剩的行业,论资排辈苦熬日子已经算好的,你会看到更多的关系户、更多的拼爹、更多的溜须拍马、更多的人情世故、甚至是更多的职场性骚扰。我知道你不太擅长数学,但是更希望你不用被迫变得擅长处理这些破事。所以我希望你能学计算机、搞IT。

可能你今天会觉得,搞计算机、编程,这些事情听起来太高深了,太难了,太不适合你这么一个秀气的女孩做了。我想告诉你,这些都是扯淡的。成为一个合格的IT技术人员,凭技术能力给自己挣到一份不错的生活,需要的知识水平并不比其他行业更高,甚至还要低得多,因为这个行业太缺人了。你只要有好奇心、勤学苦练、把英文学好,你就能做到。而且这个行业几乎没有体力要求,可以说是最适合女孩的。我知道有些人会跟你说文秘、柜员之类的工作更适合女生,他们没有告诉你的是,这些职业薪水比较低,而且很容易被人工智能取代。IT行业、特别是技术岗位,可能是全社会男女最平等的高收入职业了。

总而言之,现在中国经济形势不好,未来可能会更糟。经济不好,阶层固化就会严重。在一个阶层固化的社会里,我现在观察,IT行业可能是唯一需求旺盛的行业。现在学计算机相关专业、未来从事IT行业的工作,可能是像你我这样的穷人家孩子唯一的翻身机会。大学四年,可能是你未来人生中最后一段可以享受低成本教育的时间、最后一次改变人生轨迹的机会,一定要慎重选择。

祝学习进步。表叔上。

机器学习项目如何管理:看板

作者 Jeff Xiong
2018年6月13日 13:01

在前面的文章中我们看到,涉及机器学习、人工智能的项目,普遍地存在项目管理的困难。然后我介绍了针对这类项目如何设置合理的期望,并且深入分析了机器学习项目的工作内容。既然已经知道如何设置客户的期望、又知道可以做哪些事来逼近这个期望,那么围绕期望和动作进行任务的拆解、管理和可视化应该是顺理成章的。

前一篇文章中我们已经看到,一个机器学习项目涉及的三类九项工作内容当中,只有一项(“自行训练模型”,上图右下角标星星的部分)不是传统的软件开发任务。只有针对这项工作内容,我们需要新的任务拆解和管理方式,其他部分可以用标准的Scrum方法来处理。

对于“自行训练模型”过程中的具体任务,可以沿用学校里做实验的概念,将每次模型训练记录为一次“实验”。每次实验应该包含两个部分:

  • 输入部分,即实验的初始状态:数据从哪里来;如何对原始数据加工;选取哪些参数;如何训练模型
  • 输出部分,即实验的效果:模型是否准确描述训练集;模型是否overfit训练集;有多少false positive;有多少false negative

于是我们得到了一张“实验卡”,上半部分记录实验输入,下半部分记录实验输出。

把若干张实验卡放在一个看板上,就得到了可视化的实验管理墙。在项目启动时,首先制定一部分实验计划(以一批实验卡的形式),记录每个实验设计的输入部分。每做完一个实验,就在对应的实验卡上记录实验输出。在项目进展过程中,也可以不断增加新的实验卡。项目过程中,做实验的优先级由上一篇文章中介绍的“自行训练模型的流程”来判断:从一个简单的模型开始,首先尝试能降低Bias的实验,当Bias逼近期望时,再做降低Variance的实验。

作为项目管理者,对着这样一面实验看板墙,需要关注的信息有以下几个方面:

  • 看产出:实验效果(Bias-Variance组合)是否逼近预期?接下来应该做哪些实验?
  • 看计划:实验计划是否完备?是否考虑到各种可能的算法?是否考虑到各种数据来源?是否考虑到各种数据加工方式?
  • 看进度:做实验的速度有多快?训练集获取是否耗时太长?模型训练是否耗时太长?是否需要优化训练算法?是否需要增加计算资源?是否需要提高数据流水线自动化水平?

用这种方法,我们可以把看似神秘的机器学习项目拆解成独立、可讨论、有价值、可估计工作量、相对较小、可测试(INVEST)的实验卡,于是我们可以用Scrum方法来管理和度量围绕这些卡开展的工作。

区块链:原理和应用解读

作者 Jeff Xiong
2018年5月4日 13:04

(正值五四青年节之际,谨以此文送给有志青年们,祝大家多学技术,多写文章。)

区块链进入大众视野,是从比特币开始的——准确说,是从某些人因为比特币一夜暴富的传奇开始的。然而在随后的区块链热潮中,应该说大部分人是懵逼的。百度百科上,区块链的定义是这样:

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法。

嗯,看得懂的人请举手。

一种如此难懂、绝大多数人不知道它究竟有何特点的技术,突然获得如此大的关注,怎么可能不被用于割韭菜、收智商税?(用区块链收智商税的终极形态,请看“傻逼链”。)但是我要说,区块链不仅是一种可以被掌握技术的资本家和骗子用来割韭菜的工具,它还是可以有一些靠谱的应用场景的。

到底什么是区块链?

很多人大概都听过某个版本的关于“什么是区块链”的解释。但我这个版本,经过验证,没有IT背景的土老财也能听懂,因此很可能是最适合广大人文社科有志青年来听的版本。

想象一个场景。某甲和某乙,两人合伙做生意。他们马上就有一个挑战:由谁来记账?这两个人必须互相信任,否则任何一个人记账,另一个人都可以怀疑他:你是否少记了一笔收入中饱私囊?这两个人如果各执一词,没有办法调解,所以他俩脆弱的信任如果破裂,生意就做不下去。

现在两个人的合伙里又加入了一个某丙,三个人,情况会好转吗?并不会。丙负责记账,甲照样可以怀疑:你和乙是不是串通一气的?你们是否少记收入自己私吞了?

那么大家是怎么解决这个信任危机的呢?办法有两个。第一个,是大家常见的办法:新来的丙是个持证的会计师,那么大家都可以信任他了。我们深究一下,为什么这种方式可行?为什么丙拿一本证书,就突然建立起了信任?原因当然是,丙如果被发现营私舞弊,他可能被吊销会计师资格,甚至可能身陷囹圄。这种风险太大,使得丙不太可能在常规的生意中这么做。而这种风险(换个角度,即围绕这本证书的信任)是由谁来背书的?答案是政府。政府用国家机器的暴力力量确保了,绝大多数情况下,会计师不会营私舞弊,会计师记的账是可以信任的。这个信任的背后,是枪在背书。

有了这个认知,我们可以去看看社会上绝大多数的信任机制,你会发现,几乎所有陌生人之间的契约和信任,都是国家机器、是枪在背书。为什么我拿钱可以买到面包?纸币的背后是国家的枪在保障,任何人一定认可它的交换价值。为什么我刷个信用卡也可以买到面包?招商银行的背后是央行在保障它的承兑能力,央行的背后是国家的枪。为什么我在淘宝上买的东西不满意就可以退货?因为货款在支付宝里,支付宝背后有银行保障它的承兑能力,最终背后还是国家的枪。

基于枪建立起来的信任机制足以满足大多数商业场景。但假如这个三人合伙做的不是合法生意,他们不想让国家机器知道这个生意,他们的信任危机又该如何解决呢?这里有第二种方法:三个人各记一本帐,分别都记录所有交易。如果帐对不上,以多数人相同的记录为准。当然,在三个人的情景下,这种机制能建立的信任还是很有限,因为你只要收买一个人就可以占到多数。但如果参与记账的有成百上千人,收买大多数的成本就会很高。随着参与记账的人越多,整套记账机制的可信度就越高。

这种“每个人都记一本账”的机制,就叫“分布式账本”。围绕着分布式账本建立的信任,不需要国家的枪背书,也不会因为任何一个人的腐化或者退出而破坏。所以我们说,这是一种“去中心化”的信任机制。

同时,虽然分布式账本是不需要国家的枪了,但分布式账本能实现,依赖于一个关键技术:所有的记账能迅速同步到所有账本。区块链就是实现分布式账本的关键技术。在这种技术中,每一次交易被记录为一“块”(block)数据,这样的“块”又彼此串联成一条“链”(chain),任何一个参与者都可以从任何一次交易的“块”牵出整条“链”,从而得到完整的分布式账本,这就是“区块链”(blockchain)这个名字的由来。

比特币的价值从何而来?

区块链的应用,最广为人知的无疑是比特币。但是只看各种正式的比特币介绍,你恐怕看不出为什么它有如此高的价值。比如说,一个正式的介绍可能会说,比特币是一种去中心的货币,它不需要国家为它的信用背书。但是,货币从来是用枪背书的,枪杆子越硬,货币就越值钱。一个不需要枪杆子背书的货币反而很值钱,这个逻辑是不通的。而这个不通的逻辑大家还能讲得这么热闹,恨不得把民主自由人权隐私全都放上来,说这个没有枪杆子背书的货币就应该值钱,这是一个很奇怪的现象。

当一个东西很值钱但是大多数人都看不懂它为什么很值钱,大概会是两种情况。第一,有人在搅浑水养韭菜。第二,有些关键信息没有说出来。而比特币的情况,两者皆是。我们不谈养韭菜的部分,谈谈那些没有说出来的关键信息是什么。

前面说了,分布式账本背书的去中心化信任机制,是在一个前提下有意义的:这个账本上记的账,参与交易的各方不想让国家机器知道。不然直接使用枪杆子背书的信任机制就好了。比如我们说比特币是一种货币(当然比特币实际上不是货币,但无所谓了,既然大家都说它是去中心化的货币,那就当它是货币好了),货币是用来买东西的,那么你买什么东西需要一种去中心化的、国家机器不插手的机制来建立信任呢?或者说,你买什么东西不能到淘宝去买(顺便叫卖家给你开张发票)呢?

毒品。枪支。儿童色情。人体器官。代孕。各种只能在黑市上交易的非法商品。

这就是比特币的拥护者们不肯/不愿/不能说出来的关键信息:比特币的价值,就是黑市的流动性。黑市对流动性的需求越大,比特币就会越值钱。(想炒币的有志青年请牢记这条基本价值法则。)

带着这个知识,再反观国内的区块链热潮,你就会明白为什么我说现在国内做区块链项目的有一个算一个全都是割韭菜收智商税的骗子。为什么呢?现在你想做某个事情,做这个事情你需要一种信任机制,而这种信任机制你不能靠国家机器的枪杆子来给你背书,这意味着什么?你敢把这件事拿到互联网上来宣传,你的网站上还打着工信部的备案编号,然后你跟我说你做的这件事非得有去中心化的信任机制才行,不觉得自相矛盾吗?

作为写作平台的区块链

还别说,我在国内还真的看到过靠谱的区块链应用。比如说,如果把党建信息承载在区块链上(而不是保存在一个数据库里),效果是什么呢?效果是,假如有一天中国共产党的执政党地位被反动派颠覆了,党组织被破坏,党员被清洗,党组织的活动可以立即转入地下,整个党建链上记录的党组织信息不可伪造、不可篡改、不可删除。万一有那一天,党建链就是传递革命薪火的火种。这事情现在已经有单位在做了,可见我党的先进性和忧患意识。

最近北大某同学的一篇文章又让我们看到了另一种靠谱的区块链应用。大家可以打开下面这个链接:
https://etherscan.io/tx/0x2d6a7b0f6adeff38423d4c62cd8b6ccb708ddad85da5d3d06756ad4d8a04a6a2

这是以太币(跟比特币相当的另一种去中心化数字货币)的一次交易记录。非常平淡的一次交易,这次交易本身的编号是“0x2d6a7b0f6adeff38423d4c62cd8b6ccb708ddad85da5d3d06756ad4d8a04a6a2”(以“0x”开头表示这是一个16进制的数字),它发生的时间是“Apr-23-2018 07:02:20 AM +UTC”,从编号“0x44938b01da1feb3f6fa1cf38870ee564e25d9bf3”的钱包转出,转入编号“0x44938b01da1feb3f6fa1cf38870ee564e25d9bf3”的钱包,转账的金额是“0 Ether ($0.00)”——对的,没真的打钱,不过没关系,金额为0也可以发起一次交易。所以真的是一次很无聊的交易。

这个交易真正有趣的部分,在于它挂载的数据,也就是下面的“Input Data”字段。区块链的每个“块”是有一定容量的,交易者可以把与这次交易相关的备注信息放进去,备注信息也会随交易块同步到所有的分布式账本。现在,在这个交易的“Input Data”字段,你可以看到一长串16进制数字:

如果你点击下面的“Convert To UTF8”按钮,你就会看到一篇熟悉的文章。我把这个探索的乐趣留给读者自己了,一定要去点哟。

这篇文章,现在已经同步到了全世界上千万个分布式账本。除非收买其中超过50%的人,否则这篇文章无法篡改、无法删除。也许你在豆瓣的转发会被删,也许这个查看以太币交易信息的网站会被墙,但是这篇文章会一直在那里,国外能看到,翻个墙也能看到,谁也删不掉,包括你自己也删不掉,哪怕你妈跪下来求你也删不掉。

所以,各位有志青年请记住,如果下次你想写一篇文章,并且你确定一定以及肯定绝对不会想删除这篇文章,不管是辅导员、校长、你妈、还是别的谁来求你,你都不会删除这篇文章,那么你可以把以太币、比特币之类的区块链平台用来做你的写作平台。你把文章发表到一次区块链交易的备注信息里,然后给大家发一个查看这次交易的链接。

要我说,这才是区块链技术正确的打开方式。

浅谈大数据平台基建的逻辑

作者 Jeff Xiong
2018年3月16日 13:04

这篇文章主要目的是面向初接触大数据的朋友简单介绍大数据平台基础建设所需要的各个模块以及缘由。

数据仓库和数据平台架构

按照Ralph Hughes的观点,企业数据仓库参考架构由下列几层构成:

  • 接入层(Landing):以和源系统相同的结构暂存原始数据。有时被称为“贴源层”或ODS。
  • 整合层(Integration):持久存储整合后的企业数据,针对企业信息实体和业务事件建模,代表组织的“唯一真相来源”。有时被称为“数据仓库”。
  • 表现层(Presentation):为满足最终用户的需求提供可消费的数据,针对商业智能和查询性能建模。有时被称为“数据集市”。
  • 语义层(Semantic):提供数据的呈现形式和访问控制。例如某种报表工具。
  • 终端用户应用(End-user applications):使用语义层的工具,将表现层数据最终呈现给用户,包括仪表板、报表、图表等多种形式。
  • 元数据(Metadata):记录各层数据项的定义(Definitions)、血缘(Genealogy)、处理过程(Processing)。

把数据放到一起:数据湖

企业大数据平台的核心是把企业数据资产汇集一处的数据湖。ThoughtWorks的“数字平台战略”这样描述数据湖:

数据湖……的概念是:不对数据做提前的“优化”处理,而是直接把生数据存储在容易获得的、便宜的存储环境中;等有了具体的问题要回答时,再去组织和筛选数据,从中找出答案。按照ThoughtWorks技术雷达的定义,数据湖中的数据应该是不可修改(immutable)的。

来自不同数据源的“生”数据(接入层),和经过中间处理之后得到的整合层、表现层的数据模型,都会存储在数据湖里备用。

数据湖的实现通常建立在Hadoop生态上,可能直接存储在HDFS上,也可能存储在HBase或Hive上,也有用关系型数据库作为数据湖存储的可能存在。

接入原始数据:数据通道

企业大数据平台创造价值的基础是能把各种与业务有关的数据都接入到数据湖中,这就需要针对各种不同的数据源开发数据通道。数据接入的连接器(connector)通常是一个定时执行的任务,技术选型随数据源而定,有些项目采用定制开发的数据接入任务,也有些项目采用像Talend这样的套装工具。对于来自企业之外乃至互联网上的数据,可能需要编写爬虫。

数据加工处理:数据流水线

在数据湖内部,数据会经过“接入层 => 整合层 => 表现层”的加工处理链,逐步变成用户可用的形式。其中每一层的加工处理,至少包含ETL(提取-转换-装载)、指标计算、异常检测、数据质量管理等工作,还可能对数据进行语义标签、分类预测等更深入的操作。

数据流水线的技术选型主要分为流式数据和批量数据两大类。在Hadoop生态中,Spark常被用于批量数据处理,Kafka和Spark Streaming的组合常被用于流式数据处理。

面向业务领域:数据集市

整合层存放了整个企业的数据,并且以规范化的、巨细靡遗的形式(例如Data Vault)对数据建模。表现层则与之不同:数据集市中的数据是针对业务应用领域选择出来的,并且建模形式更方便查询(例如宽表)。数据集市的技术选型也是为了查询的便利,例如采用ElasticSearch或关系型数据库,因为这些工具都支持很完备的查询功能,而且用户也非常熟悉。

保障数据质量:数据治理

在实施数据湖的时候,有一种常见的反模式:企业有了一个名义上的数据湖(例如一个非常大的HDFS),但是数据只进不出,成了“数据泥沼”(或数据墓地)。造成这种现象的原因之一,就是因为缺乏必要的数据治理:数据缺乏一致性、数据质量不佳,导致用户无法从数据中获得可靠的洞察。

数据治理的基本工作包括了数据脱敏、数据质量管理、主数据管理等。AtlasFalcon等工具提供了数据治理的技术能力。

探索未知:数据实验室

数据自服务能力的一大亮点是鼓励小型的、全功能的团队自行从数据中获得洞察。为了形成从数据到洞察的快速响应循环,业务团队需要对整合层甚至接入层的数据做快速的探索和实验,而不是先完成接入-整合-表现的整个数据处理链。数据实验室提供模型管理和数据沙箱的能力,让业务团队能用Python、Java等通用编程语言快速展开数据探索和实验。PyTorch、Jupyter、Pandas等工具提供了便捷的途径来搭建数据实验室。

供给应用:数据商店

确定要提供给业务团队使用的数据,就可以进入数据商店,包装成数据产品或服务的形式供应出来。基础的形态可以是直接对外提供数据(通过数据库同步、事件订阅、文件服务等形式),在微服务语境下我们更鼓励的方式是以API的形式对外暴露数据服务,更进一步的想法可能是以SaaS服务的形式对外提供。例如Forbes认为以下几种数据服务已经具有较高的成熟度和接受度:

  • 用于benchmark的数据
  • 用于推荐系统的数据
  • 用于预测的数据

大数据平台的全貌

到这里我们已经看到了大数据平台各个组件的来由和形状:以数据湖为中心,由数据通道接入原始数据,经过数据流水线的加工处理,根据业务需求进入不同的数据集市,业务用户或是通过数据实验室探索、或是从数据商店获得自己需要的服务,整个过程接受数据质量和一致性的治理。再加上系统监控、日志管理、身份认证、任务调度、配置管理、项目管理、持续交付等通用的能力,我们就看到了一个企业级大数据平台的全貌。

数字化企业的实验基础设施

作者 Jeff Xiong
2018年2月27日 13:04

前文中我们说到,传统企业在逐步建设自己的数字平台过程中,需要抓住交付基础设施、API和架构治理、数据自服务、创新实验基础设施和监控体系、用户触点技术这五个支柱。今天我们讨论的主题是数字平台战略的第四个支柱“实验基础设施”,看看一个倡导消除摩擦、建设生态、推动创新的数字化平台如何赋能快速、有针对性的商业实验。

DPS全局观

什么是实验基础设施

作为数字化企业的代表,亚马逊是众多怀揣数字化梦想的企业学习的榜样。今天的亚马逊,在零售、广告、消费电子终端、应用商店、云服务等多个领域与各领域的领先企业竞争。更可怕的是,除了丰富的业务线,亚马逊还有Dash Button、Echo、Prime Air、AWS等大量创新。最可怕的是,据AWS的CEO说,除了这些大家知道的、获得了一定成功的创新项目,还有更多创新项目失败了——而亚马逊认为完全OK。亚马逊强大的创新能力,背后体现的是更为强大的快速实验、快速学习、快速调整的能力。缺少这种能力,就算把亚马逊的产品和模式摆在面前照抄,也无法跟上它不断创新的步伐。

为了支撑数字系统的快速实验、快速学习、快速调整,需要在快速交付基础设施与数据自服务的基础上再考虑下列问题:

  • 需要从多种来源采集关于系统、关于顾客的数据
  • 需要根据业务目标在系统中埋设监控点,并及时把监控结果可视化呈现给业务用户。
  • 为了降低实验试错的风险,在把新版本发布给全部用户之前,应该以金丝雀发布的形式首先发布给一小部分用户,确保新版本不造成重大损害。
  • 系统需要支持功能切换开关(toggle),允许团队在不修改代码的前提下改变系统的行为。
  • 路由技术支持蓝-绿部署和A/B测试,方可高效地开展受控实验。

实验基础设施详解

数字平台中的实验基础设施由以下特性共同支撑。

数据采集

精益创业的核心逻辑是缩短“Build-Measure-Learn”的周期。为了从实验中学习,就需要全面采集实验数据。交付基础设施通常会包含技术性的监控和数据采集(例如基于ELK的日志监控体系),提供性能、资源、系统告警等角度的数据。

单纯技术性的数据不足以对业务实验提供反馈,需要贯串用户体验,获取对业务有指导意义的数据。一个可供参考的框架是“海盗度量”:聚焦关注创新业务的获客、活跃、保留、推荐、创收(AARRR)这5个环节,从这个5个点上提出假设,然后用数据来证实或证伪假设。

金丝雀发布

金丝雀发布是一种控制软件发布风险的方式:在把新版本发布给全部用户之前,首先发布给一小部分用户,确保功能完好可用。金丝雀发布的主要目的是为了降低风险。新的软件可以先在与用户隔离的环境中接受UAT测试;如果新的软件有问题,受到影响的只是一小部分用户,不至于立即造成巨大的损失;如果新的软件有问题,可以立即回滚到旧版本。

金丝雀发布最基本的形式,就是在前端反向代理上用路由技术把一定比例的用户导向“金丝雀”版本(例如Nginx可以支持多种筛选用户的方式)。在路由技术的背后,应该以凤凰服务器不可变服务器来实现每个服务,服务的创建和回收应该是完全自动化的。同时还需要需要端到端的综合监控,根据有业务语义的目标(例如转化率)是否发生突变来判断金丝雀的效果。

Toggle架构

Feature Toggle的目标是,通过架构设计允许团队在不修改代码的前提下改变系统的行为。常见的一些需要Toggle的场合包括:避免多个交付版本的代码branching/forking;避免未完成功能的代码branching/forking;运行时动态改变系统行为,以实现一些特定能力,例如:线上受控实验、针对不同用户权限提供不同服务、回路熔断和服务降级等。

常见的Toggle可以分为4类:

  • Release Toggle:某些功能已经存在,但暂时不向用户发布。主要目的是为了基于trunk开发、避免开发分支。静态,生存周期短。可以用Togglz之类工具。
  • Ops Toggle:回路熔断,高负载或发生故障时自动降级服务。较动态,生存周期长。工具如Hystrix等。
  • Experiment Toggles:用于支持线上实验(例如Canary Release、A/B Test等)。动态,生存周期较短。采用路由技术实现。
  • Permission Toggles:用于给不同权限的用户提供不同的服务。引入统一的toggle router和toggle configuration,避免在代码中写条件。动态,生存周期长。

Feature Toggle也应该以服务API的形式暴露出来,并且鼓励用结构化的、人类可读的配置文件管理Toggle。

路由技术

通过路由切换的方式,让用户在不同的时间、不同的场合访问到不同的服务实例(可能是不同的版本)。路由技术可以用来支撑多种实验性部署技巧,包括蓝-绿部署(零宕机部署)、A/B测试、金丝雀发布等。这篇文章介绍了这些部署技巧直接的关系。

路由技术的实现与下层的弹性基础设施有很大关系,以AWS为例,有几种比较简单的实现蓝绿部署的方式:

  • 对于单个EC2实例,可以修改它的Elastic IP
  • 对于EC2集群,可以切换ELB背后的Auto Scaling Group
  • 可以用Route53修改DNS重定向
  • 可以用BeanStalk切换整个应用环境(如果应用部署在BeanStalk上)

Cloud Foundry也有一组实现蓝绿部署的最佳实践

可视化和埋点

通过埋点获得系统运行时的信息,收集之后显示出来,从而把运维环境中的信息及时反馈回开发团队,缩短反馈周期。

常见的埋点方式有:

  • 代码中埋点(例如New Relic、AppDynamics、Dynatrace)
  • 监控进程(例如StatsD、collectd、fluentd)
  • 日志(例如Splunk、ELK)

数据需要用一体化的、直观可视的仪表板展示出来,从而快速指导业务调整。GrafanaKibana等工具提供了很好的仪表板功能,不过还是需要针对自己的情况加以定制。

小结

很大程度上,大部分组织的IT建设都谈不上“科学”。科学的基础建立在假说和实验之上,而在很多组织里,“有可能失败的项目”恐怕根本无法立项——更不用说“很有可能失败的项目”。降低做实验和犯错误的成本、从经验中尽可能多学习,是企业面对未知世界的唯一出路。然而快速的受控实验背后隐藏的是基础设施、软件架构、数据等多方面的技术支撑,把实验基础设施作为企业数字化旅程的阶段性目标,拉动各方面基础能力的建设,是建设数字平台的合理路径。

精准投放的原理及其担忧

作者 Jeff Xiong
2018年2月17日 13:01

从WWW网站发源之初,网站的经营者们就清楚地认识到,自己经营的是一份媒体,就跟报刊杂志一样。媒体的收入,第一是来自读者付费,第二也是更主要的,是来自广告。于是站长们在自己的网站页面上开辟出或大或小、或纵或横的广告位,广告主则可以采购广告位。据笔者亲眼所见,迟至2001年,中国很多网站的广告销售方式仍然是由销售人员拿着一份打印出来的“刊例”(这个词也同样是来自报刊出版领域),直接向广告主介绍。购买广告位的方式,也通常是一家广告主承包一个广告位一段时间(通常是几天,有时长达几周),只有在最热门的广告位(例如首页顶部Banner)才有简单的轮换机制。广告收费是按照广告位与放置时长计算,网站几乎不向广告主反馈投放的效果。简而言之,这是在线广告的初创阶段,网站基本上是被当做报刊来经营的。

这种投放方式显然是很原始的,最大的问题有两个:首先,广告主需要自己接洽多家媒体,分配各家媒体的投放预算,媒体则要自己管理多家广告主的投放排期,这对于广告主和媒体都是个很大的工作量;而且,广告投放出去以后效果如何,哪些媒体效果更好,后续投放应该如何调整,这些信息广告主无法获得,即使媒体有回馈数据,其中有多大成分的数据夸大,广告主也无从知晓。在这两个痛点的催生下,就出现了“媒体采买平台”的服务形式:经营这个平台的广告代理公司向大量媒体(即网站)购买广告位,广告主只要把广告投放到这一家代理公司,代理公司自会通过软件程序把广告派发到媒体。如此一来,广告主和媒体不用彼此一对一接洽,工作量都减少很多。并且在这个阶段,广告收费模式也改为按点击付费(通常会承诺一定浏览流量),广告主可以更准确地知道广告的效果,按实际效果付费。

在媒体采买平台的基础上,相关的技术与业态又不断升级,逐渐形成了广告交易平台(ADvertisement eXchange,ADX)、供给方平台(Supply Side Platform,SSP)和需求方平台(Demand Side Platform,DSP)三大类平台协作的格局。供给方平台(SSP)为媒体服务,它负责汇集媒体广告位资源,尽量把广告位卖出最高价;需求方平台(DSP)为广告主服务,它负责汇集广告投放诉求,尽量以最低价格投放达到最佳效果;广告交易平台(ADX)则保持中立态度,为供需两方撮合交易,就像股市一样:只要有一个最高买价能匹配到一个符合条件的最低卖价,就会完成一次广告交易,DSP就会向SSP进行一次投放。

IT技术创造的奇迹在于,这一系列看似复杂的竞价采购、交易撮合,可以在极短的时间内完成,因此交易的单元可以极小、交易量可以极大。在ADX发生的一次交易,标的物通常是“一次投放”,或者说是“一次浏览”。当你轻点鼠标,打开一个网页时,这个页面上的几个、十几个广告位就分别被SSP发送给ADX“叫卖”,匹配到出价最高的DSP“卖主”,然后把广告呈现在你面前。这整个投放决策的过程,业界标准要求在0.4秒以内完成。

由于广告投放已经被细化到按次采购,于是广告位本身是否热门变得不再重要,竞价采购的对象变成了流量本身。当然,即使在网站发展初期、甚至在报刊杂志上,广告主和广告代理也会选择流量。例如雷克萨斯不会选择在城市晚报上投广告,而是会更多地在时尚杂志和飞机杂志上出现,这就是对“流量”(也即读者)做过筛选的结果。在这个例子里,丰田公司(或者其广告代理)从媒体属性上对读者的身份、职业、收入水平(统称为“流量属性”)有一个大致的推测,基于这个推测做了投放决定。然而受限于纸媒的技术特质,这个投放决定是非常粗糙的:第一,它能够获得的流量属性信息非常有限;第二,它只能对相当大的人群、在相当长的时间段上做决定;第三,它能得到的效果反馈非常少。

而程序化的广告投放则完全克服了这三个局限:投放决定是基于每一次浏览、每一个流量来做出的;投放效果(有多大比例的用户点击广告)可以当天回馈给广告主;最重要的是,在线广告业务的经营者能够获得空前丰富的关于“流量”的信息。比如说,当你在微信中点开一个带广告的页面,DSP就有可能获得下列关于你的信息:

  • 你是谁:你的微信ID,你的手机号,你的性别、生日、星座、身高、体重、血型……
  • 你是个什么样的人:你的收入,你的生活方式,你的价值观世界观,你的意识形态,你的观点态度……
  • 你做哪些事:你上网看什么内容,你喜欢什么品牌,你买什么东西、在哪里买,你跟谁交朋友……
  • 你身边的环境:你在什么地方,你周围在发生什么,你在什么时间上网,你在乘坐地铁、公交车、还是滴滴专车……

在线广告行业里把这些信息都称为“标签”,DSP就是基于这些标签来判断,现在点开网页的这个流量值多少钱,并在0.4秒内决定是否要投标竞价。所以当你听到“流量经济”、“流量就是钱”这样的说法,你应该意识到:这说的就是字面上的意思,每次浏览、每个流量都是有价的。

也许你会怀疑,DSP怎么会知道我这么多信息?笔者可以透露,上面列举的这些标签,都是一个真实的IT系统中已经存在的标签,实际上DSP能获得的信息比这个列表只多不少。而且DSP非常有意愿知道更多流量属性,因此又衍生出了“数据管理平台”(Data Management Platform,DMP)。这些平台专门从各种来源收集与用户相关的信息,并把这些信息汇集起来形成“统一客户视图”(Single Customer View)——也就是给这个用户、这个流量贴上更加丰富的标签。

举个例子来说明DMP的工作方式。当你在机场连上免费WIFI,你会看到一个登录页面,你输入手机号获得验证码,连上网络,这时WIFI热点背后的程序已经知道你的手机号、你用的手机款式、你所在的地点,这些信息马上被发送给一个DMP。这时你的朋友从微信发给你一篇文章,是介绍大明星的座驾,你细细欣赏了贝克汉姆的腹肌和他的奔驰G系越野车,于是这个网页背后的埋点程序知道了你对汽车品牌的偏好,这个信息和你的微信ID一起也被发送给一个DMP——很可能是同一个DMP。看完文章,你打开购物软件,买了几样水果送到家里,于是电商平台知道了你的消费能力和居住的小区,这些信息和你的手机号一起同样被发送给DMP。通过手机号、微信ID、身份证号……这些唯一身份标识,DMP建立起了关于你的统一顾客视图,可能会给你贴上成百上千个标签。

基于这些标签,DSP就可以展开非常精确的广告投放。例如对于奔驰投放的Banner广告,DSP可能会优先考虑这样一些标签:30~40岁,年收入40~60万,居住在一二线城市,本科以上学历,从事IT、金融、房地产等职业,现在车龄6年以上,近期流露换车意向……一旦高度符合这些标签的流量出现,DSP就会高价拍下广告位。一些技术领先的DSP已经开始使用机器学习技术,不用人手挑选投放目标标签,而是由人工智能自动识别目标流量,使广告投放更加精准。

然后,当你开始跟老婆讨论是不是该换台新车的时候,你无意间发现,手机上打开的网页里有一辆漂亮的奔驰C200休旅车,你点开广告链接,跟老婆一起左看右看,觉得这辆车既有面子又实惠,跟你家的风格简直是天作之合,于是你开心地按下了“预约试驾”。你大概不会多想,这个广告出现的时机怎么那么恰到好处。最终你买下了这辆车,就好像这完全是你自己的决定一样——就在你快要付款的一刻,你又瞥见手机网银的界面上有一个刷信用卡买车免息分期的活动,多巧呀。

既然广告可以定制,有什么道理媒体上呈现的内容本身不能被定制呢?感兴趣的话,你可以自己做一个实验:首先看看你的知乎首页上有哪些内容,一般来说不会出现跟火影忍者相关的问答,毕竟火影大结局也有段日子了;然后下载腾讯动漫,每天看上几十话火影,用不了几天,你的知乎首页上就会出现一堆讨论鸣人和佐助的帖子。笔者亲身观察到这个现象,好奇地搜索知乎的投资方,腾讯果然在列。大胆猜测一下,知乎即使不是直接使用腾讯的DMP“广点通”,技术原理也相去不远。既然都看见“小樱的实力能到影级吗”这么有吸引力的帖子,怎么能不打开看看呢?于是现在笔者的知乎首页上,各种忍术已经连绵不绝了。

内容定制正在成为数字化营销的主流工具。和纸媒不同,数字化产品的每次打开、每次浏览都可以是动态的、个性化的。DMP已经掌握了如此丰富的用户洞察,媒体没有道理继续保持一成不变的内容呈现,一定会利用DMP的数据来达成更高的转化率——可能是转化为购车的消费者,也可能是转化为支持某个政策的变革、某种意识形态的观点。于是我们看到,像今日头条这样的媒体,呈现内容的原则不是“外面在发生什么”,而是“读者喜欢看什么”——当然纸媒也有过度迎合读者的风险,但纸媒毕竟只能面向大群读者做一个粗糙的推测,而互联网媒体(和社交网络)则在技术的推动下形成了一个完美的、牢不可破的回音壁。至于传统意义上媒体要客观中立地展现世界样貌的职责,在转化率这个KPI的驱动下显得有些苍白无力。

精准投放可能带来什么危害呢?数据科学家Cathy O’Neil在《数学大杀器》(Weapons of Math Destruction)一书中介绍了一些已经现实发生的场景。其一,基于数据的精准投放如果被用于教育、医疗、保险等与生活休戚相关的“商品”上,就可能造成对特定人群、尤其是弱势人群的歧视和损害。在美国,有一些质量低劣的教育机构,把自己的广告定向投放到收入低、教育程度低、并且新近遭遇人生重大打击的人群——例如刚离婚、或刚被解雇。这样的人群、处于这样的心理状态下,更容易被这些心灵鸡汤式的广告吸引,从自己原本就已经拮据的经济中再拿出一笔不菲的资金,来参加一个对自身能力没有提升、也不被人才市场承认的培训计划。在中国我们也看到,尽管百度宣称其中立性,但莆田系在百度上投放的医疗广告同样精准地找到了教育程度较低、经济状况较差、已经饱受疾病损害的那些弱势家庭。

另一方面,当精准投放被应用于政治目的,它能够强化大型利益团体对群众观点和政治议程的操控。2011年奥巴马的竞选团队与IT咨询公司埃森哲合作,首次在美国总统选举中引入了大数据和精准投放技术。在2015年的大选中,“共和党犹太人联盟”的领导者们在拉斯维加斯的威尼斯人酒店开会,在酒店上网时他们看到候选人泰德·克鲁兹承诺加大对以色列安全支持力度的广告宣传。他们不知道的是,这条广告只在这家酒店、只在他们开会的这几天播放。当政治家和利益团体可以不必保持连贯统一的公众形象、而是可以针对受众“定制”其形象和政治观点,这种变化究竟会给公共生活带来什么影响,可能答案还并不清晰。

在《数学大杀器》中,O’Neil提出了一些限制大企业过度利用个人数据的途径,例如效仿欧洲对互联网数据的管制模式:只有在用户明确同意的情况下,企业才能采集用户数据,且采集到的数据不能用于其他用途。“明确同意”的规定,可能仍然容易通过隐晦的用户协议等方式来绕过;但“不作它用”的规定,对于数据滥用是一个很好的预防措施。至于国内的相关管制会在何时、以何种形式出现,目前仍是未知。在可见的将来,恐怕我们还得继续享受互联网提供给我们的精准得有点细思极恐的广告和内容。

智能技术的伦理风险:研究框架

作者 Jeff Xiong
2017年11月28日 13:01

前一篇文章中我们已经提到,当下常见的关于智能技术伦理危害与风险的讨论总体上强调人工智能对人类整体的影响,并不凸显其对当前社会不同人群造成不同影响的情况,并且在分析这些风险时往往聚焦于技术层面,而并未将社会和政治层面的因素纳入考虑。从这个角度出发的分析难免失于片面,无法充分认识智能技术的潜在风险。由于缺乏一个全面的、结合科技与人文视角的研究框架,使得对于这一问题的研究普遍零散而不成体系,且容易陷入“机器 vs. 人类”的未来学视角。

例如在分析智能技术对就业造成的影响时,以Kevin Kelly为代表的未来学家认为人工智能取代人类工作是必然趋势,并乐观地相信“被失业”的人群能找到更有价值的工作。另一些研究者则认为应对大规模结构性失业的关键是社会保障,例如在就业之外提供全民最低收入保障。然而更早的计算机伦理学、乃至科技伦理学研究已经指出,就业对于人而言不仅是提供生活保障的方式。正如维纳在70多年前就已经指出的,人需要发挥创造力和灵活性,人需要做决策、需要感受到自己为社会与他人做出的贡献,而工作是满足这些需求、使人获得尊严与成就感的重要途径。如果只看到失业对收入的影响,忽视智能技术在其他方面对人的影响,便无法全面理解智能技术的潜在风险。

Peter Cullen提出了一个用于讨论伦理问题的框架。在这个框架中,抽象的“伦理”被表述为“价值观”——即个人与群体定义人生意义或集体目标所基于的核心信念与理想,随后价值观再以“原则”的形式具体表述出来,从原则引申出“政策”或“指导方针”,最后通过规则、流程、评估、培训、工具等方式得以“实现”。

早在1950年代,维纳就已经指出,在与自动化机器并存和协作这个上下文中,需要关注人的一些核心价值,例如生命、健康、快乐、安全、资源、机会、知识等。基于对这些价值观的重视,他提出了计算机伦理的4条基本原则:

  • 自由原则:人应该有选择各种可能性的自由。
  • 平等原则:不同的人群应该享有同样的权利。
  • 博爱原则:人与人之间的善良愿望应该得到鼓励。
  • 最小侵犯自由原则:团体对个人自由的侵犯应当限制在最低程度。

基于类似于这些被普遍认同的价值观和基本原则,在智能技术的上下文里,不同的研究者提出了大致相似的一些指导原则。例如IBM在“大数据与分析的伦理要求”中指出,技术本身可能是技术中立的,但技术的使用者不仅应该考虑技术的可能性、组织的诉求和法律的约束,还应该考虑一系列伦理的指导原则,包括适应社会环境、给人们选择的权利、使用合理的数据深度和广度、适当的数据和分析结果所有权、公正性、访问权、可追责等。再例如,King和Richards提出了几条大数据伦理规范

  1. 隐私应该是信息规则的基础
  2. 分享出来的私人信息应该仍然保密
  3. 大数据需要透明性
  4. 大数据可能导致身份泄露

针对“隐私”这个受到广泛关注的话题,Rijmenam提出了几条大数据隐私指导原则:企业应该更主动地提供透明度;从系统设计之初就考虑简明性;为潜在的安全事故做好准备;在所有环节全面关注数据隐私。英国商业伦理研究所(IBE)则提出了6个与隐私相关的问题,包括数据如何使用、如何采集个人数据、如何评估风险、如何保护数据等。

除了隐私之外,另一个重要的问题是智能技术的可追责性(accountability)。正如Harpin所说,在社会越来越多地由算法运转的同时,机器学习等智能技术使支撑社会运转的算法变得越来越不透明MIT的两位研究者指出,智能算法可能在人无法理解的情况下强化结构性歧视、拒绝为某些人群服务、甚至破坏民主制度的根基。因此他们提出了算法可追责性的五项指导原则:算法应该负责任、可解释、精确、可审查、公平。围绕着这五项指导原则,他们又提出了更加具体的实施策略,建议至少在系统设计、上线前和上线后分别进行一次评估,并列举了一些基本的评估问题。

这种将“系统生命周期”作为一个维度纳入伦理框架的方式,在Etlinger这里得到了进一步发挥,形成了一个二维的大数据伦理框架:数据使用的伦理原则(例如有益于人群、推动进步、可持续、尊重、公平)构成一个坐标,数据的生命周期(例如数据采集、处理、分析、存储、治理、使用、交流)构成另一个维度,两个维度交织形成一个完善的伦理框架。

伦理框架的落实仍然是一个难题。在层出不穷的新技术和新挑战面前,传统的机构审查委员会(IRB)明显缺乏大数据时代伦理判断的能力。与此同时,又有像ORCAA这样专门从事算法审计的企业。“数据与社会”研究机构的建议是,应对智能技术带来的伦理问题,需要政策、教学和业界网络共同努力。在“平等、可追责和透明的机器学习”研讨会上,研究者指出:平等和偏见等问题不是抽象的概念,而是与实际的人和人群相关的,因此智能技术的伦理问题必须由科技专家与人文学者共同研究,包括有意图地设计实验,才能深入理解问题并找到解决办法。

智能技术的伦理风险

作者 Jeff Xiong
2017年11月27日 13:01

(旧文一篇,已发表于土逗公社

人工智能的风险已经不再是一个新话题。在过去几年中,很多研究者提及了人工智能(以及与之紧密相关的技术,尤其是机器学习和大数据技术)可能带来的危害与风险。值得注意的现象是:在公众话语空间中流行的关于智能技术伦理危害与风险的讨论,大多将“人类”整体视为潜在的被损害的对象。大量的叙事被构建为“机器 vs. 人类”的形式。而关于智能技术如何被当前社会的权力结构主导、并反过来强化当前社会的权力结构、加深对弱势边缘群体的压迫,这一方面的讨论数量较少,且较缺乏系统性。本文将介绍一些关于智能技术伦理危害与风险的讨论,并着重介绍一些智能技术强化社会与经济不公正的案例。

一些关于智能技术伦理危害与风险的讨论已经进入了流行文化空间,吸引了大众的兴趣。这类讨论通常呈现未来学的形式,试图推测人工智能技术成熟、尤其是具备了自我完善的能力之后可能的未来图景。如超级智能人工智能毁灭人类技术奇点等讨论吸引了大众对于智能技术的伦理问题的广泛关注。

比起这些事关人类存亡、略带科幻感的宏大叙事,另一些由智能技术带来的伦理危害与风险正在更加现实地发生。例如智能技术对就业的影响,是一个经常被提及的主题。Kevin Kelly认为,机器在工作中对人的取代是一个不可逆的过程,有一些工作暂时只有人类能做或做得比机器更好,但机器终将胜过人类,绝大多数人类在几十年后将不再需要从事生产工作。麦肯锡的一个研究则更具体地列出了各种职业被机器取代的可能性,其中生产线工作、准备食物、包装物品等“可预测的物理工作”是最容易被机器取代的。

除了造成大面积、结构性失业,对人工智能的常见担忧还包括赛博空间和物理空间的战争:控制了大量资源甚至自动化武器的人工智能是否会攻击它们本不应该攻击的对象?这种危险甚至不必以战争的形式出现:人工智能的错误行为、甚至只是不恰当的优化,考虑到它们已经在社会经济中扮演如此重要的角色,是否会造成极端恶劣的结果?

可以注意到,以上几类常见的关于智能技术伦理危害与风险的讨论总体上强调人工智能对人类整体的影响,并不凸显其对当前社会不同人群造成不同影响的情况。同样的趋势也出现在对智能技术的风险进行的分析当中。众多这类分析聚焦于技术层面,而并未将社会和政治层面的因素纳入考虑。例如一位斯坦福大学的研究者认为,通过机器学习尤其是深度学习得到的统计学模型具有以下特征,使得它们存有安全隐患:

  • 不透明:很难、甚至根本无法看懂其中的逻辑;
  • 整体不可分:无法通过局部分拆理解输入输出之间的关系;
  • 脆弱:输入的微小变化可能引起输出的重大且无法预测的变化;
  • 不被充分理解。

作为对比,《Weapons of Math Destruction》一书的作者Cathy O’Neil也提到了广泛影响人们日常工作与生活的众多智能算法工具的几个危险的特征

  1. 它们是秘密的,经常是某家公司的商业秘密;
  2. 它们是不透明的,被它们影响的人群不了解这些算法如何运行;
  3. 它们应用的范围很广;
  4. 它们对“成功”的定义值得置疑,被它们影响的人们未必赞同
  5. 它们制造了有害的反馈环。

相比前一组特征,O’Neil识别的这一组特征具有一个值得注意的要点:她在其中提及了特定的人群。尤其是在第4点中,O’Neil指出了一个极其重要、但绝非总是明显的问题:智能技术对人的影响是有区别的,同一个技术可能让一部分人受益、同时让另一部分人受损。她举了这样一个例子:2010年在伊利诺伊州开始实施的教师绩效评估算法引发了芝加哥教师的广泛反对乃至游行抗议。正如Linnet Taylor不无洞见地指出的,在进行伦理评估时,人们倾向于抽象地谈论智能技术可能造成的伤害,而具体地谈论它带来的收益,于是实在的收益总能压倒模糊未知的伤害,从而使项目通过评估。通过将社会和政治因素纳入讨论范围,O’Neil提出的对具体人群的关注给了我们一个重要的视角,来重新审视智能技术可能带来的损害和风险。

透过这个视角,我们首先可以注意到,智能技术对劳动力市场的影响并非均质。正如Erik Brynjolfsson和Andrew McAfee在《与机器赛跑》一书中指出的,教育程度较低、薪酬较低的劳动者更易被智能技术取代,同时也是这部分劳动者更难以获得新的职业技能,从而加重他们在结构性失业中受到的损害。正如Paul Krugman一针见血地指出的,全能且高效的工作机器人(workbot)的出现未必会让世界变得美好,因为没有能力拥有机器人的那些人的处境将非常悲惨。尽管这方面的研究还很少,但一些现有的研究显示:在高度自动化、智能化的工作环境下,教育和技能水平较低的劳动者正在面临劳动环境恶化、劳动强度增大、收入降低、缺乏劳动和社会保障等挑战。此种现象在“分享经济”形态中普遍可见。在一些极端的情况下,劳动者被异化成“数字机器上的幽灵”和“生产线上的奴隶”。

实际上,智能技术可能正在加深对社会弱势群体的偏见和歧视。正如Wendy Chun所说,“机器学习就像偏见的洗钱”。通过机器学习,偏见和歧视被包装成模型和算法,使不公正变得更加隐秘而影响深远。职场社交网站LinkedIn的搜索引擎更青睐男性求职者,Google的广告平台Adsense存在种族偏见,饱受争议的“预测性执法”(predictive policing)对非裔美国人和穆斯林形成结构性歧视,低收入人群会因为智能技术更难从贫困中逃脱。性别、种族、宗教信仰、收入……现实中的各种偏见与歧视,似乎都在智能技术中找到了落脚点。

智能技术不仅被用于实施对弱势群体的损害、歧视和隔离,而且被用于控制大众情绪。通过操控用户从新闻订阅渠道看到的信息,Facebook成功地调节了用户发帖的情绪,从而证明情绪可以在大量在线用户之间传染。一份曝光的材料显示,JTRIG(联合威胁研究智能小组,隶属于英国情报和国家安全机关政府通信总部)已经在通过Youtube、Facebook、Twitter、博客、论坛、电子邮件、短信、自建网站等渠道操纵大众情绪,从而消除“犯罪、安全和国防威胁”。当用于政治领域,正如Cathy O’Neil指出的,智能技术可以诱导选民做出片面的判断;当用于商业领域,邱林川则指出,智能技术可以向消费者灌输消费理念,使他们成为对不断更新换代的消费品上瘾的“被制造的奴隶”(manufactured slave)。

早在1980年代中期,研究者们就围绕“计算机伦理是否具有独特性”这一问题展开了讨论。Johnson认为,计算机伦理只是把标准的道德问题以新形式呈现,逼迫我们在新的领域中延续旧的道德规范,它本身不是一个独特的新题目。而Moor则认为,计算机会大幅度转化/强化现有的伦理问题,并且造成过去未曾出现过的新的伦理问题,因此计算机伦理本身就是一个独特的新题目。这两种观点对于我们全面认识智能技术的伦理问题有着重要的启发意义。我们既需要充分了解智能技术的独特性、及其对伦理问题带来的独特影响,又必须认清新技术背后潜藏的旧有的冲突、斗争和伦理准则,这样才能准确把握智能技术的伦理方向,使其向着对广大民众有益的方向发展。

❌
❌