普通视图

发现新文章，点击刷新页面。

昨天以前知識分子 | 資訊「人工智能」

知識分子 | 資訊「人工智能」
人工智能，如何 “拯救” 不堪重负的天文学家？
人工智能在天文学中正发挥着实实在在、不可取代的作用 | 图源：pixabay.com- 导读 -“天文数字” 量级的观测数据，对于天文学家来说既是欢喜，也是烦恼。如何处理分析这些巨量数据，是一个令人头疼的问题。如今，科学家们从越来越强大的人工智能身上找到了解决办法。撰文｜邸利会责编｜陈晓雪 ● 　● 　●一周之内，独自对5万个星系进行手动分类后，牛津大学的天体物理学家 Kevin Schawinski 有点受不了。怎么办呢？他和同行们想到，不如发动群众。星系动物园（Galaxy Zoo）项目由此诞生，科学家希望找到3万人，对90万个星系分类，比如一个星系到底是属于漩涡星系还是椭圆星系。90万的工作量，即使让一位业务熟练的研究生来做，一周7天，每天24小时，也得花个三到五年。没想到，公众热烈响应，10万志愿者花了175天就完成了4000万个星系分类，一个星系平均分类了38次。这是在2007年。“斯隆数字巡天” 项目七年时间内拍摄的百万张照片，其检测和分类已经让天文学家不堪重负，不得不借助群众的力量。今天，大型巡天项
2038年1月19日 11:14

人工智能，如何 “拯救” 不堪重负的天文学家？

知識分子 | 資訊「人工智能」

2038年1月19日 11:14

人工智能在天文学中正发挥着实实在在、不可取代的作用 | 图源：pixabay.com

- 导读 -

“天文数字” 量级的观测数据，对于天文学家来说既是欢喜，也是烦恼。如何处理分析这些巨量数据，是一个令人头疼的问题。如今，科学家们从越来越强大的人工智能身上找到了解决办法。

撰文｜邸利会

责编｜陈晓雪

● 　● 　●

一周之内，独自对5万个星系进行手动分类后，牛津大学的天体物理学家 Kevin Schawinski 有点受不了。怎么办呢？他和同行们想到，不如发动群众。

星系动物园（Galaxy Zoo）项目由此诞生，科学家希望找到3万人，对90万个星系分类，比如一个星系到底是属于漩涡星系还是椭圆星系。90万的工作量，即使让一位业务熟练的研究生来做，一周7天，每天24小时，也得花个三到五年。

没想到，公众热烈响应，10万志愿者花了175天就完成了4000万个星系分类，一个星系平均分类了38次。

这是在2007年。“斯隆数字巡天” 项目七年时间内拍摄的百万张照片，其检测和分类已经让天文学家不堪重负，不得不借助群众的力量。

今天，大型巡天项目的数据规模更是大到惊人。

比如，明年即将发射的欧洲的空间望远镜项目 “欧几里德”，预计将观察100亿的星系，数据量达到几十PB（1PB = 100万GB）；再比如正在智利建设的维拉 · 鲁宾天文台一旦运行，每晚将产生多达20TB（1TB = 1000GB）的原始数据，差不多是斯隆数字巡天十年的数据规模，预计总共处理的数据量将达到几百PB。粗略理解，100PB如果用来播放高清视频，可以一直放700年。

如此庞大的数据，即使找大众帮忙，也不容易做到了，天文学家转而向人工智能求助。

“河图” 问世

Artificial Intelligence

最近，上海天文台安涛研究员为天文学中雄心勃勃的项目——平方公里阵列射电望远镜（SKA），设计了一套名为 “河图” 的人工智能系统，采用了深度学习的方法，能自动实现对海量天体的快速识别和准确分类。

位于上海天文台SKA中国数据中心的运行人工智能系统“河图”的原型机 | 受访者供图

今年的2月4日，SKA天文台正式宣布成立，中国是成员国之一。SKA的第一阶段（占总规模的10%）会在南非的Karoo地区建设197个碟形天线，在西澳建造131072根天线，预计将以每秒几个TB的速度产生原始数据，每年产生的预校准科学数据达到700多PB，也就是7亿GB。

可以说，在天文大数据上，SKA到达了新的高度。

为了完整地处理这些海量的数据，方便全球的科学家使用，也为了控制预算，SKA在2019年就开始筹划由成员国在各国或地区建设SKA区域数据中心。中国SKA区域中心的建设由安涛所在的上海天文台负责。2019年8月，该数据中心原型机的部署和测试在该台的佘山科技园区完成。人工智能系统 “河图” 也是在这台机器上进行开发和各种实验。

这台原型机的一个特点，是针对SKA不同的科学任务的需求，设计了不同的架构，同时也要适应SKA巨量数据的存储与提取。

“像SKA这样的，处理的都是大数据。一般的计算机，一个CPU对应的内存也就几个GB，无法满足SKA数据密集型的运算需求。而我们差不多得几百个GB，就是几十倍的差距。为了实现这个技术要求，硬件架构、软件系统都要做相应的优化。” 安涛告诉《知识分子》。

“河图” 人工智能系统的主创，上海天文台研究员安涛 | 受访者供图

软硬一体化的设计让原型机性能得到充分发挥。不过，仅仅这些还不够，数据处理的智能化也必不可少。说起来，安涛研究员带领的团队设计人工智能系统的想法比原型机的建造还要更早些。

2018年11月，SKA组织发布了第一期的科学数据挑战赛，参与者可以自行下载9张4GB的高清图片，用各自的软件和方法来对图片中的天体进行识别和分类。在不同的噪音水平、曝光时间和波段下，这些模拟的图片中预计可探测到的天体数目也不同，如在1000小时的曝光下，高频段可以达到10万的量级。

一张图片10万个天体，听起来很多，但其实也只是完整SKA数据的 “冰山一角”，使得这样的挑战也变成了热身赛。实际上，位于澳大利亚西部的SKA探路者（ASKAP）巡天项目预计将探测到7000万个射电星系。

在这次挑战赛中，安涛团队设计了三种传统的方法，虽然当时也用了人工智能，但效果却一般。同时，安涛也注意到有其他团队用到了当时最新的人工智能的技术，比如残差网络。残差网络最初是由微软亚洲研究院于2015年开发，属于卷积神经网络的一种。

在安涛看来，以卷积神经网络为代表的新一代人工智能技术在天体识别和分类方面具有巨大的潜能，一时的落后可能是由于网络的设计等方面还没有达到最佳。在分析了深度学习网络设计的优缺点后，在 “河图” 的设计中，安涛团队一方面将残差网络的深度提高，这样有助于提高精度；同时引入金字塔网络，可以在一张图片中同时检测多个不同形态的天体。

实验结果表明，河图的检测和分类速度，比传统的软件快20倍，达到了一张图万分之一秒。

自动和准确的天体普查工具，对于大型巡天项目的图像分析尤为重要。

“ ‘河图’ 不仅具有更高的识别精度，而且在识别延展源和弱源方面也有卓越的能力。” 安涛告诉《知识分子》，他们未来将进一步提高 “河图” 的识别性能和速度以支持更大规模的图像处理，并更多地关注特殊形态天体，预计在SKA先导（ASKAP）巡天中将发挥重要作用。

“神经网络对数据的理解比预期的要深，但它需要大量的数据集进行训练（学习），浩瀚的宇宙为神经网络提供了天然的巨大数据量，人工智能的发展无疑将对天文学产生深远的影响。” 安涛说。

越来越大的影响

Artificial Intelligence

在天文学中，对天体进行识别分类是基础性的工作。在这方面，如 “河图” 所展现的，人工智能的表现令人惊艳。事实上，在天文学的其它领域，人工智能也正发挥巨大的作用。

“AI、机器学习、深度学习等在天文学中应用是不可避免的，在大型巡天中海量天体自动分类、稀有特殊天体识别证认等研究中发挥了越来越重要的作用。我自己也已参加利用机器学习对天体分类的研究。” 北京大学物理学院天文学系教授、系主任吴学兵告诉《知识分子》。

在论文预印本arxiv网站上，用关键词 “卷积神经网络” 搜索天体物理领域，可以得到400多个结果，最早的文献从2014年开始；而同样搜索条件下，过去12个月的文献达到了193条。从题目看，涉及到的问题也多种多样——

● “用CNNs在GeV级冰立方事件中重建中微子能量”

● “暗能量巡天项目第三年数据用卷积神经网络处理生成的星系形态分类目录”

● “DPNNet-2.0第I部分：从原行星盘间隙的模拟图像中寻找隐藏的行星”

……

确实，系外行星的搜索也已经处在了大数据的时代，人工智能的上场也顺理成章。

美国航空航天局（NASA）的开普勒空间望远镜，通过测量17万颗恒星的亮度变弱（由绕行而过的行星短暂遮挡造成）特征来发现系外行星，这中间就用到了人工智能技术。来自伦敦大学学院的研究人员，也已经开发了深度学习网络RobERt，“投喂” 模拟的85000条5种类别的系外行星光变曲线，训练完成后，能以99.7%的准确度确定真实系外行星光变曲线中的大气层分子成分。

除了系外行星，人工智能还能帮忙找新的恒星。

2017年6月，欧洲空间局（European Space Agency, ESA）的Gaia卫星，在人工智能网络的协助下，发现了6颗极速运行的恒星，这种新型恒星是因为与一颗巨型黑洞的相互作用所推动。

天体之外，人工智能还能检测天文现象，比如引力透镜。

这个又大又蓝，可以环绕整个星系的是什么？是引力透镜造成的海市蜃楼。如上图所示，一个明亮的红色星系（LRG）的引力使来自更远的蓝色星系的光发生引力扭曲。更典型的是，这种光线弯曲会导致遥远星系的两个可辨别图像，但这里的镜头对准非常精确，以至于背景星系被扭曲成马蹄形——一个几乎完整的环。

引力透镜是由极大质量引起的时空变形，比如星系团就可以看作是一面宇宙的放大镜，可用来观察其身后更遥远的天体。2017年10月，荷兰的格罗宁根大学、意大利的那不勒斯大学和波恩大学的研究者，就开发了检测引力透镜的方法，用的也是人工智能中的卷积神经网络。

尚需改进

Artificial Intelligence

当然，现在的人工智能还不能称得上完美，一些普遍性的缺点在天文应用中也有出现。

首先在训练人工智能模型中，需要准备很多带标签的数据，这还得有经验的天文学家手动完成，工作量不少。

此外，还有业界诟病的 “可解释” 难题——深度学习网络就像是一个黑匣子，无论是奇迹发生还是智障在线，你都无法知道，它到底是如何做出这个决策的。

第三，如果预训练的数据存在某种 “偏差”，等人工智能模型训练完成后，也会影响到结果的准确性。

不过，有些缺陷也许会随着人工智能的进一步发展得到解决。

“未来的人工智能也许可以直接学习望远镜产生的真实数据，而不需要用预先打了标签的数据进行训练。这样既省下了工作量，也避免了数据偏差。” 安涛说。

尽管如此，安涛对未来人工智能的发展仍抱有信心，毕竟它在天文学中正发挥实实在在、不可取代的作用。如果哪天人工智能首先发现了适宜人类生存的系外行星，或者揭开暗能量、暗物质等宇宙最深邃的奥秘，天文学家应该会感到庆幸而不是嫉妒。

参考资料：（可上下滑动浏览）

1. Baoqiang Lao, Tao An, Ailing Wang, Zhijun Xu, Shaoguang Guo, Weijia Lv, Xiaocong Wu, Yingkang Zhang. Artificial intelligence for celestial object census: the latest technology meets the oldest science, https://doi.org/10.1016/j.scib.2021.07.015

2. Scientists seek galaxy hunt help, http://news.bbc.co.uk/2/hi/science/nature/6289474.stm

3. Wu, C., Wong, O. I., Rudnick, L., et al. "Radio Galaxy Zoo: CLARAN - a deep learning classifier for radio morphologies". Monthly Notices of the Royal Astronomical Society, 2019, 482: 1211

4. https://www.skatelescope.org/news/china-ratifies-skao-convention/

5. https://www.skatelescope.org/news/ska-launches-science-data-challenge/

6. A Bonaldi, T An, M Brüggen,et al. Square Kilometre Array Science Data Challenge 1: analysis and results, https://doi.org/10.1093/mnras/staa3023

7. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Deep Residual Learning for Image Recognition". Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. Retrieved 2020-04-23.

8. https://theconversation.com/four-ways-artificial-intelligence-is-helping-us-learn-about-the-universe-163740

制版编辑 | 卢卡斯

当人工智能研究遭遇匿名逼问、威胁：交出你的代码！

知識分子 | 資訊「人工智能」

2038年1月19日 11:14

pixabay.com

撰文｜王飞跃

编辑｜邸利会

● 　● 　●

五一节前，收到几封邮件，大致意思都是想要我文章的源代码和数据，进行复现。

我对来信的突兀程度感到十分诧异，一问学生，才知道他们也收到大量的来自qq、hotmail、outlook等非单位邮箱的邮件，大多是信口开河，说学生的文章有写作和逻辑问题，但却没有给出任何细节，最终都落到一个要求—— “提供代码”（见图1）。

学生告诉我，每年这个时候都会集中收到类似邮件，大概是因为毕业生要准备毕业论文了。

我忙问学生，这种情况持续多久了？他们告诉我有一段时间了，但近年来愈演愈烈，几乎成了套路和风气。比如这几天一些学生还被同一个qq匿名邮件以每天三封的频率持续骚扰。

图1 匿名想要源代码或具体实现的邮件例子。

虽然我相信世界上几乎没有人可以保证自己的研究成果是100%正确，但向学生们和合作者强调学术伦理道德和底线，是我一贯的做法。因此，尽管可能会有一些瑕疵，但我相信他们的研究成果是经得起学术推敲的。

为了让学生免于这些无聊干扰、专心致志科研，我立即表示：对于这种匿名骚扰的邮件，拒绝回复并直接拉黑发送方。

没想到，稍晚时候，我竟然又收到了匿名者邮件，他带着威胁地声称——文章有着疑点，“非常有礼貌” 地询问了我的学生，却被拉黑了（见图2）。

图2 匿名威胁发我的邮件截图（文章信息、发送方和文章作者信息已经做处理）

我认真读完这份邮件，并没有找到他们叙述的任何有关我们文章的疑点，但就是要详细的实现。

我感觉匿名者似乎缺乏基本的知识和文献背景。从邮件猜测，匿名发送人大概是大学生或低年级的研究生，邮件中的一些疑惑本应在研究前，由其指导老师所教的基础知识和基本的文献阅读就能解答。

当然，最使我吃惊的是，邮件所透露出来的貌似隐约但直截了当的威胁。

为此，我向海内外的朋友们了解了一下情况，发现很多人也收到了类似的邮件，甚至有几位朋友说，他们天天都有收到此类邮件，让我不要大惊小怪。

这些来自实名 “伸手党” 或匿名 “威胁党” 的邮件，让我十分悲愤——深度学习时代的人工智能研究怎么出了这种乱象？

写不如逼，逼不成恐吓

我们知道，深度学习模型的复现和重用需要人力研发与计算设备的投入。我们实验室为了搭建相应的软硬件环境，花费了数以亿计的经费。即便如此，我们自己的复现结果，有时也不尽人意。

自己编程写复现代码困难重重，有些人便来找捷径了——直接向作者要源码和具体实现。

实名要的，一般会说看了文章但是复现难度大，所以要代码或者实现细节。可有些人要的方式也似乎太不礼貌、太懒了——甚至于在邮件里连作者的名字和文章题目都写错了，丝毫没有看出对方是看过该文章的。

匿名要的，因为担心作者举报，通常不会用实际单位邮箱而用社会上的通用邮箱发送。这些匿名邮件不会表露出要代码或者要实现细节的目的和用途，而是在言辞上拐弯抹角地逼问恐吓，例如指责疑点很多、将举报论文作者等等。可一旦作者将代码或者实现细节回复匿名者，并询问对方发现的具体疑点后，往往就没有下文了。

拿到作者的源码，用于学术研究当属正常，但瞒着作者直接将其商用的，也不在少数。例如，著名目标检测算法YOLO的作者 Joseph Redmon 宣布，将停止一切计算机研究，原因是自己的开源算法在未经过他同意的情况下，已经被其他人用于引发军事冲突和侵犯隐私的系统里。

更可耻的是，有了作者的源码，却没有运行出作者的结果，那便继续逼问作者。

可气的是，有些人根本不花气力去了解论文和具体的实验步骤及其所必须的软硬件实验环境，出现过许多可笑的情况。

一位朋友曾告诉我，仅仅因为匿名者自己的软件版本与作者不同而导致程序报错，就去 “讨伐” 作者；当作者好心相助后，匿名者竟然连程序报错日志是什么都不知道。

还有一位朋友告诉我，在他认真回复之后，匿名者仍然再问稍有基本知识就知道是相同问题的问题，一旦没有及时回复，那就天天、过几小时甚至几分钟后发一封，被迫成为了 “义务” 指导老师，而且是 “保姆型” 的。无奈之下，朋友把数据、代码与模型封装成一个Docker作为回复，匿名者竟然回问朋友Docker如何安装和使用？真是当老师不够，“保姆” 才行！

更有甚者，匿名者被一个作者拉黑后，就威胁其他合作者或作者单位的其他人。这样不成功，再换个 “马甲” 甚至几个 “马甲”，把这个过程再来一遍。例如，一位朋友告诉我，他的团队收到过来自不同匿名者的邮件，这些邮件除了邮件地址之外，邮件内容竟然一字不差！

总之，这些人没有底线、目的只有一个：交出代码！

了解了这些情况，让我极度悲哀。面对这种邮件，为何有人没错却把代码给了匿名者？为何匿名者又连错误的代码都要？与朋友讨论完后，我的认识是这样的：

● 如果文章的算法没有问题，交出代码，一是真心帮助，这本就是学术界的传统；二是息事宁人，由于深度学习文章往往需要多人合作，作者一长串，有些作者深度参加，有些作者较少参与，并不是所有作者对其结果有着同样的信心和定力，这就为匿名者提供了各个击破的机会。

● 如果文章有问题，出乎我意料之外，错误的代码有时也有价值，而且是正确的价值。比如，可以用它们 “交差”，完成KPI甚至是毕业、升职；还可以进一步地分析并修正这些代码，大大缩短开发周期。

在与朋友的交谈中，让我感觉这种 “写不如逼、逼不成就威吓” 的现象在一些高校学生以及企业的实习生中，愈演愈烈、泛滥成灾，开始从 “潜规则” 向不健康的 “亚文化” 发展。

如此发展下去，不但不能解决深度学习模型的可复现性问题，而且让人担心商用深度学习系统的可用性和可靠性。特别是，更让人担心对于年轻人在文化和精神层面上的损害。

难以复用的深度学习困境

深度学习改变了人工智能的面貌，这是一个巨大的进步。一个新的、规模化的以大数据和算法为核心的行业革命方兴未艾，而其关键就是深度学习模型。学术圈与企业界的研究重点已经转入深度学习模型的设计与应用，其第一步往往就是复现和复用他人的工作。

在传统的机器学习时代，理论算法与实现步骤基本上是等价的，因为其步骤都是确定的，所以大部分算法都是可以被近似或者完美复现。但在深度学习时代，深度网络从本质上就是大规模参数的随机寻优问题，而且包含着很多随机步骤。

因此，在作者不开源的情况下，特别是不明确软硬环境的情况下，复现者得不到作者声称结果的现象就会变得正常和普遍。

虽然计算机学科开源的风气越来越好，可重复性问题得到了很大的改善，但是，在为数不少的情况下，即使作者将源代码和数据都发布在论文中，其他机器学习研究人员仍然很难复现其结果。

例如，去年4月3日，图灵奖得主杨立昆（Yann LeCun）在其推特上公开质疑谷歌大脑的论文无法复现，而且表示即使是NLP的一些顶级研究人员也无法复现谷歌大脑的语言模型 Transformer-XL 所得到的结果。

其实，同一问题在不同的软硬实验条件下，两个或三个研究小组得到相同研究结论，但与原作者差距较大的是常见的。另外，可能由于软硬环境的升级，即使是同一作者不同时期实现的同一算法，算法的效果也会差别巨大，这是我在文献检索时亲自经历的一件事。

个人认为，一般来说，造成深度学习难以复现的原因主要由算法水平和硬件水平两方面导致：

● 从算法水平上讲，比如论文作者可能会从多组不同的实验环境中挑选出最好的结果，以达到最好的水平；或者使用一些技巧，例如，数据集的划分、针对数据集来调整机器学习模型的参数、在一个较大的私有数据集进行预训练等等，以提升实验结果。

● 从硬件水平上讲，由于不同的CPU和不同的GPU计算能力的差异，在不同的硬件平台上训练不同类型的深度网络时，不同的深度学习模型会有不同的特性和运行性能。一些研究人员与普通研究者相比，有着难以匹敌的超级算力（超级计算、超大规模云计算等等）。

此外，由于金融、医学、能源等领域有着技术和数据隐私的特殊性，这些领域的深度学习算法的数据、代码和模型大多是不能公开的，是极度保密的。和有些公司合作的论文，有时公司要求技术的保密，不能公开数据、代码和模型。

综上，目前的算法训练技巧、软硬件实验环境和软硬件实验条件成为了深度学习模型的关键技术的一部分。由于知识产权和其他不得已的保密因素的影响，作者不愿分享和不能分享的现象也变得日益普遍，这就造成了一个难以复现、难以复用的深度学习困境。

最后，深度学习的不可解释性也是造成目前困境的原因之一。从理论上，我们无法要求一个不可解释性的模型总是给出一个可以解释的结果。

客观上，投机分子抓住了深度学习的这一特点，一批人造假欺骗换取名利、一批人威逼恫吓掠取成果，从正反两个方面，殃及广大无辜的科研工作者。

破局的可能之路——联邦智能与联邦生态

由于各方面原因造成的数据、代码与模型的孤岛问题限制了深度学习模型的复现与应用；与此同时，社会对于数据隐私保护与知识产权保护的愈加重视，相关监管措施逐步出台，导致数据的收集与技术的分享变得更加困难。

面对当前深度学习的困境，一味地让作者开源并不能彻底地解决问题。而且，数据的价值源于其孤岛性，知识产权的价值在于其可保护性，那么有没有更好的解决设想或者解决方案？

一方面，我们要大力发展开源平台和托管中心等现有手段，但是要改变这些组织间相互独立、各自为营的现状。运用以以太坊DAO等为代表的加密管理技术，将各个开源与托管组织间的深度学习的数据、代码与模型进行协同管理，以协同发挥 “组织智能” 的优势，突破DNN、GNN等算法中心论思维。最终，上 “真道”，真就是可信，可靠、可用、良效（Effective and Efficient）；道就是分布自主有序组织化, 形成人类智能（Human Intelligence）、人工智能（Artificial Intelligence）、组织智能（Organizational Intelligence）相互协作的好（HAO）智能，以解决深度学习的困境。

另一方面，许多朋友都知道，我的希望是构建联邦生态来解决这一问题（详见《联邦生态：从联邦数据到联邦智能》，智能科学与技术学报, 2020, vol.2，no.4, pp.305-313）。

我们设想的联邦生态指在分布式的联邦节点间，以基于区块链的联邦安全、联邦共识、联邦激励、联邦合约为支撑技术，以联邦数据、联邦控制、联邦服务、联邦管理为核心内容的面向隐私保护和数据安全、技术和资源协同管理的统一整体。

联邦生态以数据和算子交换时的隐私可控为前提，通过联邦控制实现数据联邦化，通过联邦管理实现服务联邦化，借助人工智能和大数据技术实现联邦智能，驱动整个产业和服务生态的创新和进步。在一定程度上，联邦学习为我们提供了一个初步的案例。

我希望联邦智能与联邦生态以及其他智能手段是破除深度学习困局的可能之道，推动智能系统研发的更加深入与普及，使其早日具有广泛造福于人类社会的可靠性与合法性。

应对有理有节，绝不屈从

话说回来，在我们学术生活中，学术交流扮演着极其重要的角色，我们必须捍卫其纯正性。这种匿名逼问、骚扰威胁的行为不但损害了学术交流，而且实际上是保护了真正的学术作弊行为。若是大行其道，那就没有了正常的学术生活。为此，我们必须有礼有节、绝不屈从于这种行为！

面对这种匿名、污蔑、骚扰、威胁行为，我特地为实验室暂时制定下了如下规则——无理由要源代码和数据集的一律不回，多次发送并骚扰的，请直接拉黑发送方；邮件应该由通讯作者统一回复；其他作者收到关于自己文章的问题的邮件告知对方，问题应由通讯作者回答；通讯作者应该核对邮件发送方，确认是否匿名、是否是骚扰，是否是单位邮箱发送，若是学生，是否抄送其导师的单位邮箱，是否有胁迫威胁言论？通讯作者应根据上述情况进行相应处理，并将结果上报实验室。

希望这 “约法三章” 可以帮助我们的学生远离匿名逼问、骚扰威胁，回归到正常的学术生活。

“

作者简介

王飞跃，中国科学院自动化研究所研究员、博士生导师，复杂系统管理与控制国家重点实验室主任。

”

制版编辑 | 卢卡斯

人工智能向何处去，今年它还能成为我们热议的焦点吗？

知識分子 | 資訊「人工智能」

2038年1月19日 11:14

图片来自eurekalert.org

撰文 | 尼克

人工智能的发展过程，如果用谷歌Ngram来衡量，从控制论算起，目前经历了两次高潮。

控制论之后的一次高潮是在20世纪80年代，正是专家系统和日本第五代计算机项目得势的时候。但进入20世纪90年代后，人工智能又呈现出下滑趋势。现在的新一轮高潮是进入21世纪之后开始的。如果按照麦卡锡的说法，控制论不算人工智能的话，现在尚处人工智能的第二次高潮，但我们不知道这一次还能持续多长时间。

人工智能专利、论文及Ngram人工智能曲线

2016年AlphaGo战胜李世石引起了新一轮对超级智能的讨论，焦点是将来会不会有一个全新的物种在智能上全面超越人类。

牛津大学的哲学家博斯特罗姆（Nick Bolstrom）在2014年写了本未来学的著作《超级智能路线图、危险性与应对策略》（Superintelligence : Paths, Dangers, Strategies），讲到了人类在面临不断发展的机器时代的存在危机。物理学家霍金和企业家马斯克都附和博斯特罗姆的立场。

畅销书《未来简史：从智人到智神》（Homo Deus: A Brief History of Tomorrow）的作者、另类历史学家赫拉利（Yuval Harari）为这个潜在的新物种起了个有意思的新名，叫“神人”（Homo Deus），恰是这本书的英文书名。“神人”就是超级智能的主体。

赫拉利的前一本书《人类简史》从7万年前的认知革命一直讲到当下，为《未来简史》做了铺垫。用不同的时间颗粒度看待过去，会得到不同的结论。《尤利西斯》中的几个小时，茨威格作品中人物的一生，或赫拉利的7万年，关心的是不同的过程。颗粒度也可以是主体的，一个基因，一个人，一个群体，不一定非得是一个小的物质颗粒只配得上小的时间单位。想想基因人类学，基因在几万年的时间空间分布，帮我们了解人类的起源和迁移。当用太大的颗粒度研究历史时，历史学家的用处就会令人质疑，因为那本该是初中历史课本的使命，任何结论都不会令人惊奇。

在人工智能研究的早期，就有AI和IA（智能辅助Intelligent Assistant，或智能增强Intelligence Augmentation）之分。而人工智能又有强弱之别，强人工智能是说机器会全面达到人的智能，强人工智能有时也和“通用人工智能”（Artificial General Intelligence）同义；而弱人工智能是说机器会在某些方面达到人的智能——AlphaGo就是弱人工智能的代表。

目前，不会再有人质疑弱人工智能了，但强人工智能立场的主张者却面临各种挑战，其中之一是不同智能功能的整合。机器人可以比人更快地跑步，更好地下棋，更准确地识别语音和图片。如果功能整合是可能的，那我们可以想象，比如谷歌的AlphaGo整合IBM的沃森（Watson），除了能下棋赢人类，还能通过美国行医执照考试。更进一步，如果把这个混合物架在波士顿动力公司（Boston Dynamics）的机器狗上，它还能5秒就跑个百米。到底是感知更难还是认知更难，这又是一个长话题。曾经有人说，人对机器的最简单控制就是断电，但现在最简单的扫地机器人也知道快没电时找回基座充电。把人工智能教科书中的n种智能功能整合起来（例如下棋、图像识别、语音识别、规划等），是不是就会达到强人工智能或者超智能？

当下，人工智能系统功能的单一性会不会只是一种错觉？乐观主义者会认为弱AI走向强AI的过程是个进步的过程，虽不是一夜之间。《终极算法：机器学习和人工智能如何重塑世界》的作者多明戈斯（Pedro Domingos）代表了一类乐观主义者，他认为会有一种统一的终极的机器学习算法，只要机器按照这个算法一直学下去，某一天就会超过人类。他给出的5类算法是进化的、连接主义的、符号的、贝叶斯的和类比的。他的研究领域是如何把这些算法统一起来。

我们不禁怀疑，即使这些算法都能整合起来，就能构成终极算法了吗？难道不会有新的算法被发明出来吗？例如多明戈斯列的单子里明显缺失了强化学习，这是一个很老的算法，在2016年随着AlphaGo才得以扬名。有些机器学习的从业者缺乏对计算理论的了解。他们不知道面对这样的问题应该怎么办。“终极算法”的提倡者应该借鉴图灵机和丘奇灵论题这样令人信服的理论方法。悲观主义者的立场正在退缩：在每一个单独的领域，都有可能超越人类，不一定会在整体全面超越人类。如果这个整合的整体在我们可以想到的各个方面都超过人类，那我们如何对付这个新时代的“弗兰肯斯坦”。

人工智能作为学科，经历了几次大起大落。每一次高潮都是一个旧哲学思想的技术再包装，而每一次衰败都源自高潮时期的承诺不能兑现。这一次的浮夸轮到了机器学习，被压制多年的机器学习研究者们号称，尽管机器学习是人工智能的子学科，但很快就会独立，并且会比人工智能更宏伟。他们说人工智能是让机器达到人的水平，而机器学习是让机器超过人的水平。这倒是一个省事的赶超。还有人宣称科学家的职业也将会消失——因为机器可以学得更快，但计算机科学家例外。日本第五代计算机的失败似乎从来没有发生过。历史学家都忙着参与预测未来，当下是一个不需要总结教训的时代。AlphaGo在输给李世石的那个晚上，可以在和自己不断对弈的过程中学习并克服自己的弱点。无论对错，机器学习的速度确实有可能快过人类进化的速度。

过去的机器旨在节省人的体力，现在的机器开始代替人的智力。人通过两性繁殖的进化速度远远赶不上机器。机器的进化速度服从摩尔定律——每18个月性能提升一倍，而人的进化速度则是20年一代人。人作为物种，是不是不再具备进化的竞争优势？依靠硬件的摩尔定律，是不是可以达到超级智能？

新的智能存在可以是人工智能的“主体”（agent），也可以是生物学意义上的物种。2016年夏，在美国公共电台（Public Radio）热议的一个话题是，通过修复一个受精卵的一小段染色体，就可以避免或治疗某种疾病。这是一个真实的伦理问题，因为已经有这样的病例发生。如果孩子出生，那么他/她的父母是谁？反对方的理由也很简单，多小算是“一小段”，1%还是49%？甚至更进一步：可不可以有更多不同来源的基因参与？英国《经济学人》2017年2月的一期封面标题就是“Sex and Science”，基因编辑是热门话题。这种“转基因”疗法如果目的不是为了治病，而是作为物种改良的手段，人类可以接受吗？

图灵在1936年那篇文章《论可计算的数》中证明了图灵机和其他计算装置的等价性，并由此有了所谓丘奇图灵论题，也就是说任何计算装置都等价于图灵机。这个论题不是数学定理，但却是整个计算机科学的基础。这个论题隐含着强人工智能的可能性：智能等价于图灵机。近年，也有人探索超计算（hyper-computation，计算能力超越图灵机的装置）。量子计算作为超计算的一种潜在设备，被彭罗斯用来论证人的智能要超越图灵机。

不懂计算理论的历史学家如赫拉利以及未来学家如博斯特罗姆，分不清“超计算”（hyper-computing）和“超级计算”（super-computing），自然也分不清“超智能”和“超级智能”（super-intelligence）。其实，他们所谓的“超级智能”早就被数学家和密码学家古德（Irving John Good）在20世纪60年代想过了，只不过那时“超级智能”被古德称为“智能爆炸”或Ultra-intelligence，或“超人智能”。

维纳曾经说：“我们最好能够确认我们给机器设定的目的确实是我们想要的目的。” 物理学家改行的科幻作家阿西莫夫曾提出机器人三定律，第一条就是机器不能伤害人，但“什么是伤害”本身就不好定义。AlphaGo战胜李世石和柯洁，算是对他们的伤害吗？即使是科学家兼幻想家，也未必就能把不远的未来想明白。维纳和阿西莫夫可能都不懂计算理论，但畅销人工智能教科书《人工智能：一种现代方法》的作者罗素（Stuart Russell）也提出了所谓“价值观对齐”问题（value-alignment problem），即把机器的价值观对齐到人的价值观，这是个计算理论问题还是个道德问题？

图灵在1950年那篇被广为引用的文章《计算机与智能》的结尾处说：我们只能看到当下，但看见的这些就够我们忙活的了。这真是实干型科学家和揣度型历史学家（speculative historian）的区别。

本文节选自《人工智能简史（第2版）》，《人工智能简史》由人民邮电出版社出版，全面讲述了人工智能的发展史，几乎覆盖人工智能学科的所有领域，以宏阔的视野和生动的语言，对人工智能进行了全面回顾和深度点评。

“

作者简介

尼克，乌镇智库理事长，曾任职哈佛和惠普。无论忙闲不忘读书写字，作品多发表于《上海书评》和《中国计算机学会通讯》，并有著作《UNIX SYSTEM V内核剖析》和《哲学评书》。

”

制版编辑 | Morgan

人工智能向何处去？

知識分子 | 資訊「人工智能」

2038年1月19日 11:14

图片来自ibc.org

撰文 | 尼克

人工智能的发展过程，如果用谷歌Ngram来衡量，从控制论算起，目前经历了两次高潮。

人工智能专利、论文及Ngram人工智能曲线

2016年AlphaGo战胜李世石引起了新一轮对超级智能的讨论，焦点是将来会不会有一个全新的物种在智能上全面超越人类。

本文节选自《人工智能简史（第2版）》，《人工智能简史》全面讲述了人工智能的发展史，几乎覆盖人工智能学科的所有领域，以宏阔的视野和生动的语言，对人工智能进行了全面回顾和深度点评。

“

作者简介

尼克，乌镇智库理事长，曾任职哈佛和惠普，早年师从人工智能大师，后来创业投资，往返于大陆和硅谷。无论忙闲不忘读书写字，作品多发表于《上海书评》和《中国计算机学会通讯》，并有著作《UNIX SYSTEM V内核剖析》和《哲学评书》。

”

王立铭：人工智能预测蛋白结构再获突破，意味着什么？ | 巡山报告

知識分子 | 資訊「人工智能」

2038年1月19日 11:14

编者按

最近，DeepMind 开发的程序 AlphaFold 在一个蛋白质结构预测大赛中夺得冠军，并将蛋白质结构预测做到了基本接近实用的水平。

这一事件对生命科学的发展意味着什么？人工智能的发展对于人类理解世界的方式有何影响？且看 “智识前沿学者”、浙江大学教授王立铭今日 “生命科学·巡山报告”。

让别人替你运动，也能延缓衰老？

造假、剽窃和荣誉：何谓科学研究

吃啥补啥，心诚则灵与针灸的最新生物学解释

灵魂出窍，科学上终于有了新解释？

让你好吃懒做的 “节俭基因”，真的存在吗？

撰文 | 王立铭

● 　● 　●

大家好，我是王立铭。2020年12月6日，生命科学·巡山报告又和大家见面了。

说起来有点惭愧，刚过去的这个月，生命科学领域值得专门拿出来讲的重大新闻似乎不多，我本来以为这期巡山能偷个小懒。结果在11月的最后一天，居然从天而降了一个可能是本年度、甚至是最近十年最重要的生命科学突破。

所以，今天这期巡山报告，我还是得打起12分精神，和你聊聊这个话题。

简单来说，2020年11月30日，谷歌旗下的人工智能公司 DeepMind 开发的程序AlphaFold2，在2020年度的蛋白质结构预测大赛CASP14中，取得了惊人的好成绩。不仅力压世界范围内参赛的100多个团队，获得冠军，还有史以来第一次把蛋白质结构预测这个任务，做到了基本接近实用的水平。

说起 DeepMind，你应该不陌生。你大概还记得曾经横扫棋坛、并且战胜人类排名第一的棋手柯洁的围棋程序——AlphaGo。长久以来，围棋被看作是人类发明的最复杂、最具开放性的智力游戏，很多人预测，计算机在几百年时间内都不可能在围棋上战胜人脑。但在2017年，横空出世的AlphaGo让很多人真正意识到了人工智能和深度学习的强大力量。AlphaGo也是这家叫 DeepMind 的公司开发的。

和AlphaGo名字类似的 AlphaFold2 又是何方神圣呢？我猜，这几天你从新闻上已经看到不少介绍了，不过我的感觉是，大部分介绍都没说到点子上，光顾着激动了。这期巡山，你不妨先把最近看到的那些信息都忘了，我们从头开始，把这件事的来龙去脉和价值说清楚。

蛋白质折叠：

生物学最核心的未知问题之一

首先，我们看看AlphaFold2解决的到底是什么问题。

刚才说了，它的目标是蛋白质结构预测。在我看来，这可能是整个生命科学领域最重要的三个问题之一。其他两个，我认为分别是生命的起源问题，和人类大脑的工作原理问题。

“蛋白质结构预测”，听起来有点专业，外人也不那么容易理解它的意义。如果说得大一点儿，这个问题关系到遗传信息的本质是什么，遗传信息是如何流动、如何影响地球生命的各种特性的。

你大概听说过生物学里所谓的 “中心法则”。在充满例外的生命科学领域， “中心法则” 几乎是唯一一个被冠以 “法则” 之名的规律，重要性可想而知。

中心法则说的是，在地球生物世代繁衍的过程中，上一代生物会把自身携带的遗传物质，也就是DNA分子，照原样复制一份，传递到后代体内，一代代传递下去，永无止境。而在每一代生物从生到死的过程中，这套DNA分子能以自身为设计蓝图，指导生产大量的微型分子机器，也就是各种蛋白质分子，执行各种各样的生物学功能，共同支持每一代生物的生存和活动。

本质上说，中心法则指明了遗传信息的两个流动方向：

一个方向是在世代之间，DNA通过DNA-->DNA的自我复制，持续一代代传递，保证上一代和下一代之间携带的遗传物质非常接近，因此也呈现出高度的相似性。在这个过程中，随机出现的基因突变，会让每一代生物出现微小的差异，自然选择和生物进化也得以实现。另一个方向是在同一个生物体内的每一个细胞中，DNA通过RNA分子指导蛋白质生产（DNA-->RNA-->蛋白质），让各种具体的生物活动得以开展。

从上个世纪五六十年代至今，中心法则的很多技术细节都得到了深入研究。我大概数了下，在半个多世纪中，至少有二三十个诺贝尔奖和中心法则相关。DNA分子如何实现自我复制和自我修复，DNA如何指导RNA的生产，RNA如何被剪切和拼接，RNA如何指导蛋白质的组装，蛋白质分子如何被降解等等。有意思的是，搞清楚中心法则的技术细节能得奖，找到中心法则的反例也能得奖。这样的例子也挺不少。

但是，在中心法则的完整图景里，有一个最大的空白、一个最关键的遗留问题，就是蛋白质分子机器到底是怎么组装完成、开展工作的。

我们现在知道，DNA分子指导蛋白质分子生产的原则很简单，DNA链条上三个相邻的碱基分子，对应蛋白质分子中一个特定的氨基酸分子。比如，ATG三个碱基对应的就是甲硫氨酸，GAG对应的就是谷氨酸，等等。忽略掉所有技术细节，你可以这么想象：在细胞内部，一条300个碱基长度的DNA链条，能指导生产出一个蛋白质分子，也就是由100个氨基酸首尾相连组成的链条。

DNA分子作为遗传信息的载体，它的物理结构可以认为是无关紧要的，是拉成一条直线、团成一团毛线球，还是干脆抄写下来存在笔记本里，只要这300个碱基的名称和先后顺序不乱，它记载的信息就始终是完整的、不变的。但蛋白质分子则不然。这个由100个氨基酸组成的链条，一定要在细胞中折叠、扭曲、缠绕成某个特殊的三维结构，才能开始工作。

我类比一下你就明白了。比如你要生产小轿车，设计图纸是打印出来还是存在电脑里，是摊平放还是卷成卷，是红色墨水写还是蓝色墨水写，其实都无关紧要。但是在生产过程中，每一个零件，从发动机到雨刷器，都必须被严格的放置在特定的位置，按照特定的方式组装起来，小轿车才能正常工作。

那真正的问题就变成了，蛋白质分子怎么知道如何形成某个特定的三维结构呢？我们还是说那个由100个氨基酸组成的链条，在形成三维结构的过程里，它怎么知道每个氨基酸应该出现在什么位置，需要和哪几个氨基酸靠近呢？

早在上个世纪，人们就做出了正确的猜测。简单来说，这些空间位置信息，就蕴含在蛋白质分子自身当中。说得更具体一点，组成蛋白质的氨基酸分子一共有20种，它们有的带正电荷，有的带负电荷，有的大一点，有的小一点，有的喜欢结合水分子，有的讨厌水分子。因此，蛋白质一旦被生产出来，组成它的氨基酸就会根据上面这些不同属性，开始移动和组合。

这个过程有点像磁铁组装玩具，拿一堆零件放一起晃一晃，它们就能自己吸附在一起形成一大坨。当然，蛋白质分子里那些氨基酸分子的顺序和特性，保证它在大多数时候能扭曲折叠得一模一样，批量生产出好用的蛋白质分子机器。

这个猜测在1950年代被美国科学家 Christian Anfinsen 用实验手段证明。Anfinsen发现，即便用化学方法人为破坏蛋白质分子的三维结构，但只要洗掉这些干扰，蛋白质分子就能自己重新扭曲折叠成完全一样的三维结构。DNA分子的碱基顺序，决定了蛋白质分子的氨基酸顺序，也决定了蛋白质分子的三维结构和生物学功能，因此成为共识。

但是，这么说并没有解决全部的问题。理论上我们已经知道，蛋白质分子能自己决定扭曲折叠成什么样子，但是我们实际上并不知道蛋白质分子是如何做到这一点的。要知道，一个100个氨基酸的蛋白质分子，这100个氨基酸在三维空间上的排列组合方式几乎是无穷无尽，一种一种尝试的话，可能试到宇宙尽头也找不到正确的那一种。真实世界里的蛋白质，怎么做到几乎是瞬间就能扭曲折叠到最合适的位置的呢？

说到这里，我想你应该能明白为什么我说蛋白质折叠是生物学最大的三个未知问题之一了。

首先，它关系到代代相传的遗传信息，到底是怎么指导生命活动的。其次，它有很强的应用价值。因为绝大多数药物都是通过结合特定的蛋白质来起作用的，如果能搞清楚蛋白质分子怎么折叠、三维结构长什么样，我们就能更方便的设计出专门结合它的药物来治疗疾病。最后，当然是因为这个问题非常非常非常非常的难。

解决蛋白质折叠问题的传统思路

如此重要的问题，当然吸引了大量科学家的注意，在过去几十年时间里，也取得了一些不错的进展。这里简单回顾一下。

一个最容易想到、也最早取得突破的思路，是干脆通过实验的手段 “看到” 蛋白质分子的三维结构——不管这个结构是怎么来的，先搞清楚它长什么样子再说。

1959年，英国科学家 Max Perutz 利用X射线衍射的方法——你可以通俗理解成用X射线照射蛋白质分子，然后根据射线被散射的角度推测电子的位置——解析了肌红蛋白分子的三维结构。这是人类历史上第一次彻底看清蛋白质分子机器的细节。

在那里之后直到今天，有超过17万个蛋白质分子的结构被解析出来。除了X射线衍射之外，核磁共振以及最近火热的冷冻电子显微镜技术也发挥了重要作用。半个多世纪以来，研究蛋白质结构的相关工作也已经拿过20多项诺贝尔奖。

这个“眼见为实”的思路，好处是一锤定音，看到什么就是什么，但这个思路的问题也显而易见——技术上太麻烦。历史上，动辄有科学家耗费几年、几十年时间才能得到一个清晰的蛋白质三维结构，这就导致蛋白质三维结构成了生物学领域非常要命的瓶颈。比如，因为基因测序技术的高速进步，人类掌握的基因序列已经有1.8亿条，换句话说，我们已经知道氨基酸顺序的蛋白质分子已经有1.8亿个，其中三维结构信息被彻底看清的只有17万个，还不到0.1%。

这也因此催生了一个反其道而行的思路：既然我们知道氨基酸的顺序决定了蛋白质的三维结构，有没有可能不做实验，直接从氨基酸的顺序出发，推测蛋白质分子的三维结构呢？

沿着这个思路，人们也取得了一些值得一提的进展。技术上最容易实现的方法，是从已知结构出发推测未知结构。

比如所谓的 “同源建模” 的方法。这个方法的逻辑很简单，既然氨基酸顺序决定了蛋白质三维结构，可想而知，如果两个蛋白质的氨基酸顺序非常接近，那它们的三维结构也应该接近。打个比方，猪的胰岛素分子和人的胰岛素分子都是由51个氨基酸组成，其中只差了1个氨基酸，那两个分子的三维结构肯定可以互相参照。如果前者的三维结构已经被解析出来了，推测后者的三维结构就比较容易了。

如果两个蛋白质的氨基酸序列并不是那么接近，同源建模就不太管用了。人们也发展出了所谓 “蛋白质穿线” 或者叫 “折叠识别” 的方法。和同源建模类似，穿线的逻辑也是把未知蛋白质的结构往已知的结构模式上套。它的默认逻辑是，不管蛋白质分子多么千变万化，基本的折叠类型是有限的，大概就是1500种。所以只要试的足够多，总能套上一种比较靠谱的。

除此之外，还有人开发出了一类抛开已知结构，直接通过计算推测蛋白质结构的思路。代表人物包括华盛顿大学的 David Baker 教授，他开发了一套名为 “Rosetta”（罗塞塔石碑）的计算机程序来预测蛋白质结构。

这个方法摆脱了对已知结构的依赖，直接从 “蛋白质氨基酸顺序决定了其三维结构” 这个结论出发。它的工作逻辑是这样的：在蛋白质折叠的过程中，氨基酸分子会自发地寻找让自己呆着最稳定、最舒服，也就是能量状态最低的位置。比如，带正电的氨基酸就会倾向于找带负电的；讨厌水分子的就倾向于被包裹到蛋白质内部，离水远一点；两个大号氨基酸相邻的缝隙里可能能塞进去一个小号氨基酸，等等。因此，如果能够穷尽两两氨基酸分子之间所有可能的位置及其对应的能量状态，就能计算出一个整体能量最低、最稳定的空间组合，蛋白质的三维结构就有了。

这个逻辑从理论上说没毛病，但真要落实是很困难的。因为计算能力的局限，我们不可能在有限时间内把所有氨基酸分子两两组合的所有位置都穷举一遍；因为物理学基础理论的限制，我们实际上也不知道如何精确计算每一个位置对应的能量状态。举个例子你就明白了。你大概看过刘慈欣的《三体》，三个物体遵循牛顿定律在空间中的运动，实际上已经无法预测了，要预测几百上千个氨基酸分子在各种约束条件下的相互作用，物理学都不允许。

因此，这套Rosetta的办法实际上也做了很多妥协，不追求穷尽所有氨基酸之间的两两组合，而是把蛋白质分子分割成一个一个小片段，考虑片段之间的相互作用，然后再进一步考虑原子之间的精细作用和位置。如果用来处理氨基酸数量很小、排列比较规则的蛋白质，效果往往还不错。但稍微复杂一点的蛋白质，预测能力就不怎么值得相信了，大概只能说是聊胜于无。

这里简单小结一下：

解决蛋白质折叠问题，搞清楚蛋白质分子的三维结构，是生物学里悬而未决的几大终极难题之一。但是截至目前，这个难题最主要的解法还是费时费力的用X射线衍射、冷冻电镜等方法直接观察。想要直接计算和预测出蛋白质结构，这些传统的思路效果并不好。

人工智能的解题思路：

AlphaFold1和2

有了这些铺垫，我们终于要说到这次的主角，AlphaFold了。

如果你熟悉AlphaGo的故事，可能大概明白人工智能，特别是深度学习方法解决问题的基本逻辑是什么。简单来说，这是个指望大力出奇迹的思路。

传统上，人类学围棋，讲究的是学习棋谱，是反复练习，是各种只能意会不能言传的 “悟性”。而AlphaGo根本不管那么多，它要做的是，尽可能穷举所有可能的下法，再看这些下法分别可能产生什么后果，接下来自己还有哪些可能的下法，又会带来什么后果…… 通过反复训练，AlphaGo能积累足够的 “经验”，知道在某个时候哪个下法最终获胜的概率更大。通过这样的暴力训练，后期的 AlphaGo Zero 甚至可以做到，只需要知道围棋的基本规则，比如怎么吃子、怎么判断胜负，就可以在完全无视人类所有经验的条件下学成绝技，笑傲棋坛。

2018年，DeepMind的第一代蛋白质折叠算法——AlphaFold1——参加了第13届CASP比赛，就已经拿了第一名的成绩，也在业界震动不小。但它在大众当中引起的水花并不很大。我猜，原因主要有两个，首先，AlphaFold1虽然拿了第一，但是比第二名的优势并不明显，也没有表现出比传统思路，有什么革命性的差异。但更重要的是，AlphaFold1并不能算是人工智能完全体，它还借鉴了不少学术研究的成果，特别是David Baker教授的Rosetta程序和芝加哥大学徐锦波教授的 RaptorX-Contact 程序。顺便我还多说一句，在CASP13结束后，南开大学的杨建益教授和 David Baker 教授合作，开发了新一代的trRosetta程序并且公布了全部核心代码，这个程序的性能已经超越了AlphaFold1，还被今年参加CASP 14的很多队伍所借鉴。

但是，今年的AlphaFold2就完全不同了。它并不是1代的升级版，可以说是一个全新的蛋白质折叠算法。

尽管目前DeepMind还没有公布AlphaFold2的技术细节，但是大致原理已经公开。AlphaFold2的工作原理非常接近刚刚讨论过的大力出奇迹的AlphaGo。我来粗糙地解释一下这套算法的训练过程：

从17万个已经知道三维结构的蛋白质分子中，科学家们挑一个，把它的氨基酸序列信息 “喂” 给算法，算法大致 “猜测” 出一个三维结构。然后，算法把它的猜测和已知的三维结构进行对比，并且根据猜测的结果是不是靠谱，继续调整猜测的策略。这样反复用17万个三维结构训练，算法逐渐就获得了直接从氨基酸序列预测蛋白质三维结构的能力。

当然，我这个说法肯定是过度简化了。要是没有任何抓手，算法压根不知道从何猜起，那也是不行的。比如，我们从DeepMind的介绍里也能看到，算法需要一种所谓 “多序列比对” 的信息。顺便强调一句，这个思路可不是DeepMind首创的，它是1993年由德国科学家 Chris Sander 提出的技术路线。

简单来说就是，对任何一个蛋白质分子来说，数据库里应该都有大量和它序列非常类似的蛋白质分子。比如我们说过的胰岛素蛋白，人的、猪的、牛的、鸡的、牛的，彼此之间都只有一些细微的差别。当我们把这些接近但不同的序列放在一起看，就能发现某些位置的氨基酸特别保守，几乎不变，有些位置的氨基酸总变来变去，还有些位置的氨基酸要么都不变，要么一起变。

而这些信息，其实也能反映出在蛋白质三维结构里，氨基酸之间的关系。比如有两个氨基酸，要么总是都不变，要么总是同步变，我们大概可以猜测，这两个氨基酸在三维空间里很近，必须彼此配合。AlphaFold2也需要这些信息帮助它完成初始的猜测和训练过程。

最后的结果怎么样呢？

我们可以从两个维度看看AlphaFold2的表现。

首先横向比较一下。

CASP大赛的规则大概是这样的，组织者给参赛选手提供了一批蛋白质分子的氨基酸序列，这些蛋白质分子的三维结构要么正在被实验解析过程中，要么已经被实验解析出来了，但是没有公开给参赛者。参赛者完成蛋白质结构预测之后，把他们的结果和真实结构进行对比，评分，然后排名。

在2020年的第十四届CASP大赛中，AlphaFold2高居第一，而且得分远远超过排名第二的 David Baker 教授实验室。第一名和第二名的差距，甚至比第二名到最后一名的差距还大。

接着再纵向比较一下。

从1994年CASP大赛开始，人类预测蛋白质结构的能力一直在缓慢但持续提高。对于很小、结构简单的蛋白质，利用刚才讲的传统方法，准确率已经非常高了。但是对于尺寸比较大、结构复杂、也没有太多已知结构可以参照的蛋白质，一直到2018年AlphaFold1参赛的时候，表现还乏善可陈。

但是，AlphaFold2改变了一切！对于所有90几个蛋白质，它预测的结构得到了92.4的中位数得分，即便对于最难的那部分蛋白质，它也得到了87分。这个分数怎么理解呢？首先，90分的得分被认为是个门槛，得分到了90，就说明预测结果已经和真实结构基本一致。

也就是说，AlphaFold2实现了人类在蛋白质结构预测领域史无前例的巨大进步。有史以来第一次，人类可以说，我们不用做实验，也能从氨基酸序列直接推测出蛋白质的三维结构。中心法则的最后缺环，眼看着就要被填补了。

当然，和所有科技进步一样，AlphaFold2也不是十全十美的。

比如，它的表现并不是非常稳定。我们刚说了，得分超过90就意味着正确，AlphaFold2的得分中位数已经是92.4，但是在其中几个蛋白质的结构预测里，它的得分并不高——关于具体原因人们有一些猜测，但是还需要更多研究看看它是不是可以避免的技术问题。这样一来，它的实用性当然就会受到影响，毕竟要是放一个全新蛋白质进去预测，你也不知道这一次AlphaFold2到底是做对了还是抽风了。

还有，AlphaFold2对于那种超级巨型的蛋白质复合体，对于蛋白质和DNA/RNA/小分子结合形成的复合物，预测能力还有待检验。

但我倒是觉得，这些技术方面的优化很快就能得到解决。打个比方，人类想飞的历史足有上千年，但从1903年莱特兄弟的飞机跌跌撞撞飞了36.5米之后，人类只用了十几年就造出了能够飞跃大西洋的飞机。在从0到1的原始突破完成之后，在从1到100，到10000的路上，人类往往能迸发出惊人的战斗力。

这项成就意味着什么？

最后，我们花点时间展望一下这项突破意味着什么。

有些前景很容易想到。我想，可能在几年之后，AlphaFold就将具备替代实验研究、直接从蛋白质氨基酸序列大批量生产蛋白质三维结构的能力。刚才说过，在人类已知的1.8亿条基因序列中，只有不到0.1%的获得了三维结构信息。可想而知，随着AlphaFold的成熟，人类关于蛋白质分子的理解将会有一次革命性的升级。

也许，这些海量的结构信息，能让我们把对生命现象的理解往前大大推进一步：也许有一天，我们只需要测定一个物种的基因组DNA序列信息，就能相应地预测这个物种生产的全部蛋白质分子机器的三维结构，然后再猜测出这些分子机器到底是执行什么生物学功能的。到那个时候，我们不光能根据DNA信息凭空想象出一种生物的样貌和生物学特征，甚至还能反过来，根据我们想要的生物学特性，设计出需要的蛋白质分子，再到一个物种的遗传物质，真正做到从无到有的人造生命。

当然，在这种比较科幻的场景到来之前，AlphaFold也有很多实际的应用价值。

比如，我们完全可以设想这样的场景：一名癌症患者找到医生，医生测定了他体内肿瘤细胞的基因序列，发现他体内某一个特殊蛋白质发生了变异，因此导致了癌症。同时，医生还能对这种特殊蛋白质进行结构预测，有针对性地设计一个药物与之结合，破坏其功能，从而治疗癌症。所有这一切只需要几天时间。到那个时候，疾病的诊断和治疗将变得高度个性化，疾病-基因-蛋白质结构-药物设计会形成一个完整的闭环。

生物学范畴的价值可能已经让你心潮澎湃了？干脆，我们再彻底放飞一下。

从同源建模到Rosetta再到AlphaFold2，在蛋白质结构预测这个领域，我们能看到一个有意思的历史趋势——问题的解决方案越来越不依赖于人类的先验知识，也越来越无法被人类理解了。

同源建模的场景里，对一个蛋白质进行结构预测，需要非常具体的先验知识——得有一个氨基酸序列高度接近、而且结构已经被人类解析的样本作为参考比对才行。从已知到未知的脚步，迈得非常小。

Rosetta软件已经能够摆脱对已知蛋白质结构的依赖，处理全新的蛋白质结构信息了，但是它同样依赖于人类关于蛋白质的物理化学知识的积累——我们得知道哪些氨基酸彼此靠近会更稳定，哪些氨基酸天然排斥等等。

反过来，这些传统方法的结果，我们看了也能大概知道它是根据什么逻辑得出的。比如说，是根据氨基酸序列接近的蛋白质三维结构也比较接近，或者，是根据氨基酸分子之间的能量状态变化等等。

到了AlphaFold2这里，在完成初始的训练之后，它已经可以做到，不依赖任何先验知识做结构预测了。实际上，在AlphaFold2的运算过程里，它根本不需要知道自己处理的是蛋白质分子的三维结构。在它看来——如果它能看的话——自己处理的无非是大量节点在三维空间中的彼此距离，以及哪个组合方式得分比较高，至于处理的是氨基酸分子的排布，还是广场上一群人的运动，根本没有任何差别。

这也就导致了一个问题：我们知道AlphaFold2表现很好，但我们无从理解AlphaFold2到底是根据什么规则、什么原理得到了这样的表现。就算AlphaFold2具备了自我意识，能够和我们对话，它充其量也就是告诉我们，在人工智能算法里使用到的成百上千个参数分别是多大，而已。至于为什么会有这些参数，为什么这些参数的数值是这样的，它不理解，我们也不理解。

在我看来，这意味着在人工智能时代，人类获取知识的逻辑将要发生一次地动山摇的变革。

人类认识世界、获取知识的办法，无外乎是对小样本数据的归纳和演绎。我花了几天功夫观察绵羊，发现它们都是白色的，因此提出 “绵羊都是白色的” 这个命题——这是归纳法；我认为绵羊都是白色的，而我面前有一只黑色的动物，因此我判断它不是绵羊——这是演绎法。归纳和演绎得到的结果并不总是正确的，我刚刚这个例子就是错的，但它是人类认知世界的起点。

反复利用归纳和演绎的方法，人类对世界的认知过程大概是这个样子的：对有限的小样本进行观察和分析，试图提炼出一般性的法则，再对这个法则进行更多的检验，进一步证明或者推翻它。

比如，通过观察部分星体的运行轨迹，人们总结出了开普勒三定律和牛顿定律，并在这些定律的指导下预测和发现了海王星，而在这些定律出现问题的场合，人们找到了全新的规律——广义相对论。要是脑子里没有这些定律，我们在夜晚抬头望向星空的时候，看到的只是随机运动的一团乱麻。

但是在人工智能这里，这套认知方法论可能是无效的、至少是不必要的。大力出奇迹的做法，让算法知其然的同时完全不需要知其所以然。今天，算法可以在不懂围棋精神也不看人类棋谱的条件下，战胜围棋世界冠军；可以在完全不知道什么是人脸、什么是眼睛鼻子嘴的条件下，做到精确的面孔识别；可以在不知道什么叫语法、什么是主谓宾、什么是名词形容词的条件下，做到人类语言处理；可以在不借助任何蛋白质化学理论的条件下，预测蛋白质结构……所有这一切，只需要大量数据的训练。必须承认，这是一种全新的、人类并不习惯也无法真正理解、但是非常管用的认知方法论。

这对于人类来说意味着什么呢？

想要推测是很困难的，毕竟人的推测依靠的也仅仅是归纳和演绎。但我想，有一点是肯定的，我们不得不习惯和大量的 “异类” 新知识相处，我们确实知道它们是对的、是有用的，但就不知道它是怎么来的。

要知道，对于曾经的人类来说，所有的知识都来自归纳和演绎这种能够理解的认知方式，用归纳和演绎也应该能得到所有我们需要的知识，这是一种无以伦比的智力骄傲。希尔伯特说，“我们必将知道，我们必须知道”，背后的精神支持正是如此。

但慢慢的，我们会不会干脆放弃自己寻求新的知识，放弃归纳和演绎的方法，完全依赖于算法为我们提供的新知识？打个比方，我们小时候大概都通过摆弄小石子知道了为什么一加一等于二，二加三等于五。如果一个人从出生起就只能通过计算器了解数字，他当然也会掌握一加一等于二，二加三等于五，但是会不会从头开始就完全不理解、也不想理解这些算式背后的意义是什么？我们会不会慢慢地也像算法一样，习惯于知其然而不知其所以然？

在AI快速进步的时代，太多人担忧AI取代人类工作，甚至是战胜和消灭人类。相比这些猜测，我倒是更担心AI对人类认知的冲击。生活在一个答案显而易见、唾手可得、但推导过程完全隐藏在黑暗之中的时代，对我们到底意味着什么呢？

哦，在故事的最后，也请允许我吐槽一下。

最近这段时间，互联网行业最热门的话题就是巨头纷纷砸下重金，加入社区团购的赛场。利用数据，利用算法，利用手里的钞票，巨头们苦苦研究的话题是怎么把瓜果生鲜便宜、快速、精准地送到每一个消费者手中。在购物、打车、外卖这些热点之后，买菜成了互联网最时髦的话题。

这当然是个好生意。但我总是忍不住想，我们能不能干点别的？掌握着海量的数据和牛叉的人工智能算法，互联网巨头们能搞出类似AlphaGo和AlphaFold这样可能改变人类世界面貌的东西吗？

有两句话我特别喜欢。一句话来自PayPal的创始人彼得·蒂尔（Peter Thiel），他说，“We wanted flying cars, instead we got 140 characters”，我们需要能飞的汽车,但结果却得到了140个字符。一句话来自登月英雄巴兹·奥尔德林（Buzz Aldrain），他说 “You promised me Mars colonies. Instead, I got Facebook”。你答应带我们殖民火星,可我们最后只得到了 Facebook。两句话其实都在表达，对掌握海量资源和先进科技的互联网巨头的失望之情。

我想也许我也能吐槽一句：咱们能不能别光惦记着几捆青菜、几斤水果，说好的星辰大海呢？

好了，这就是本期的巡山报告。下个月6号，我继续为你巡山。

关于智识前沿学者计划

“智识前沿学者计划”，由公益组织 “智识学研社” 在今年7月推出，在影响人类未来生活的若干前沿科技领域，选拔出一批为科学进步或其应用做出努力的杰出青年学者，资助和鼓励他们持续追踪和分析前沿科技领域的新发现、新动向和新机会，并积极分享他们的专业判断，促进前沿科技信息的交流和公共讨论，为正在快速进展的前沿科技留影、存档，为读者提供重要的文献式的科学指路牌，记录参考消息式的科学当代史。

首批入选 “智识前沿学者计划” 的青年学者，生物学家、浙江大学教授王立铭将为大家带来生命科学领域的 “巡山报告”，他计划深入挖掘生命科学领域新发现、新思想背后的来龙去脉，全面探讨生命科学领域的发展方向和未来影响，将这一项目打造成中国生命科学研究瞭望未来的灯塔, 为各个利益相关方，包括科学家、政策制定者、科研资助者、媒体和公众，提供公共议事的基础和意见交锋的平台，见证生命健康领域的长期健康发展。

一个彩蛋

知识分子总编辑、生物学家饶毅点评本期巡山报告：

“请允许吐槽：预测蛋白质结构不可能是生命科学三大问题，三千大问题也许算一个。不仅预测不那么重要，大部分生物学家也不依赖蛋白质结构，只有很少一些蛋白质结构对于推进生物学理解很重要。”

AlphaFold真的对生命科学发起了颠覆性的冲击吗？

今晚7点，由智识学研社与智源社区策划共同发起的"智²平方"论坛，与腾讯新闻独家合作，力邀结构生物学、生物信息学和人工智能等领域的专家学者，将带来更多精彩解读，再次探讨人工智能与人类的未来。欢迎收看直播。

制版编辑 | 卢卡斯

包云岗：同台积电的差距不只在技术上，还有生态和服务能力

知識分子 | 資訊「人工智能」

2038年1月19日 11:14

图片来自tsmc.com

撰文 | 包云岗（中科院计算技术研究所研究员）

责编 | 叶水送

● 　● 　●

导读：

芯片之痛是很多中国人心中挥之不去的阴影。从重金投入到成立“芯片大学”，在芯片这一卡脖子技术上，国内已经狠下心来要走独立自主之路。10月12日，中国国家专用集成电路系统工程技术研究中心主任、东南大学集成电路学院院长时龙兴教授透露，中国第一所专门培养芯片人才的高校“南京集成电路大学”将在这个月底在南京成立。

在我们追求高精尖芯片工艺的同时，也应理性看待市场的需求，一味追求先进的芯片到头来可能并不能在市场上获得相应的回报。最近，台积电公布了第三季度的营收报告，中国科学院计算技术研究所研究员包云岗对此进行解读。在他看来，我们同台积电的差距不仅体现在工艺技术上，还在芯片生态以及后期服务等方面，只有把“中低端工艺变成稳定的现金流来源，这样再去攻克高端工艺也许更有把握”。

台积电每个季度都会发布营收数据，其中有两个数据分别是按工艺细分（by Technology）和按平台细分（by Platform）。这两个数据放在一起，我们可以得出以下结论：

比28nm先进的工艺节点（20nm、16nm、10nm、7nm）收入占台积电2019年Q3总收入的52%，2020年Q2占55%。这表明28nm以下的中低端工艺的收入占台积电年收入的比例仍然超过45%。按照台积电2019年度大约340亿美元的年收入来算，28nm以下中低端工艺的收入大约150亿美元。

2019年第三季度和2020年台积电不同工艺芯片收入占比比较

相比而已，中芯国际2019年全年收入是31亿美元，国内其他芯片制造企业的年收入则更低，和台积电的150亿美元相比差距很大。这也意味着如果国内企业把中低端工艺的市场竞争力做上来，还是有很大的市场空间可以去争取。

台积电芯片在不同应用平台的数据

从芯片的应用平台细分数据来看。智能手机与高性能计算（HPC）收入占台积电的78%-80%。结合前面的数据——16nm以上的先进工艺占总收入的52%-55%，这意味着在智能手机与高性能计算领域使用28nm以下工艺制造的芯片仍然占相当比例，占台积电收入的25%左右，大约85亿美元。

这个信息对于中国的芯片产业来说是积极的，这表明28nm对于很多处理器芯片来说是可以接受的，并不是一定需要10nm、7nm这么先进工艺。事实上，龙芯去年发布的3A4000就是采用的28nm，通过架构优化、软件优化，也能发挥出很好的性能。

而对于IoT、汽车电子、DEC这些行业加起来大约20%的份额（约70亿美元），基本上都是采用28nm以下的中低端工艺了。

简而言之，台积电的两个数据都指向同一个结论——10nm / 7nm先进工艺固然重要，但28nm以下的中低端工艺仍然大有可为。

中低端工艺对于国内企业来说基本上不存在大的技术壁垒，但这部分的收入却和台积电的150亿美元差距巨大。在我看来，这是生态的差距，是服务能力的差距。相比于研制先进工艺的投入，完善中低端工艺的投入要小得多，但收益却可能会更显著。

根据我的周围同事、业内朋友的经历来看，国内芯片制造企业的服务能力确实还有很大提升空间。如果能进一步提高服务意识和服务能力，那将会吸引一大批铁杆客户，形成互信，从而加速技术的迭代优化。

所以，国内芯片制造企业不应该把所有人力都投入去研制更先进工艺，也许应该分配足够的资源来提升中低端工艺的服务能力，加大投入把中低端工艺的生态完善起来，从设备、材料、单元库、EDA、IP等都积累起来，打磨好，力争在国际上形成市场竞争力。当中低端工艺能成为稳定的现金流来源，这样再去攻克高端工艺也许更有把握。

制版编辑 | 常春藤