亚马逊机器学习总监Alex Smola：深度学习触手可及，架构Gluon高中生就能用（47PPT）

2017-11-13 21:38 新智元

摘要：

中国人工智能资讯智库社交主平台新智元主办的 AI WORLD 2017 世界人工智能大会11月8日在北京国家会议中心举行，大会以“AI 新万象，中国智能+”为主题，上百位AI领袖作了覆盖技术、学术和产业最前沿的报告和讨论，2000多名业内人士参会。新智元创始人兼CEO杨静在会上发布全球首个AI专家互动资讯平台“新智元V享圈”。

全程回顾新智元AI World 2017世界人工智能大会盛况：

新华网图文回顾：http://www.xinhuanet.com/money/jrzb20171108/index.htm

爱奇艺（上）：http://www.iqiyi.com/v_19rrdp002w.html

爱奇艺（下）：http://www.iqiyi.com/v_19rrdozo4c.html

阿里云云栖社区： https://yq.aliyun.com/webinar/play/316?spm=5176.8067841.wnnow.14.ZrBcrm

新智元 · AI WORLD 2017

演讲嘉宾： Alex Smola

【新智元导读】亚马逊AWS Machine Learning总监Alex Smola在新智元AI WORLD 2017世界人工智能大会上进行分享。Alex从数据、硬件能力的发展讲起，介绍深度学习在海量数据和不断提升的计算能力的支持下实现的强大能力，并介绍了亚马逊的深度学习工具和产品。

新智元 AI World2017世界人工智能大会开场视频

Alex Smola：你好，谢谢你们邀请我来做演讲。其实思考我们在机器学习上将会如何发展是一件有趣的事情，而思考未来的一个好的方法就是去回顾一下我们是从哪里的走到今天的，然后进一步推测为什么这几年深度学习可以取得的这样的成绩。

可使用的内存小，计算能力却很丰富，深度学习需要设计算法去适应内存

我想谈一下对此有所贡献的几个方面，第一个就是数据，比如 Pinterest每天都有几千万亿字节数据涌入，每个月有超过两亿的用户使用。而在中国，大概十个服务器上的用户数就有这么多，这制造了不可思议的巨量数据，它们对于算法来说十分重要的。这个报告中显示网络搜索量每分钟都超过三百万，当然还有网站上的推文和邮件，这个数据量是很大的。

同时，我们的计算机也实现了迅猛的发展，有意思的是计算机的发展方式并不是统一的。如果我们来看一下七十年代的情况，在当时觉得一个KB所记忆的数据量就很多了，8080CPU 有100kF。我们来看一下数据量增长，几乎每十年都以十倍的速度增长，到了2000年数据增量近1000倍，到2010有了计算机广告之后达到1000倍增量。社交网络出现后，数据量也一定会有100到1000倍的增长，一直到这个十年结束。

所以在过去的几十年里，数据量在不均衡地增长，而内存的发展却不多，每十年只是增长了10到100倍，这就意味着我们有非常多的海量数据，但是计算机的内存并不是特别多。计算能力上，的确也增长了不少，而最近又出现了一个引人注目的事情，就是在2010年的时候我们有了GPU，它代替了原来的CPU，随着前几周P3 Volta的投入使用，现在计算能力又出现了一个以万为增长量级的增长。这说明了计算能力的冗余：我们总是面对巨大的数据量，而可存储的空间不够多。

我们再来看一下，在八十年代后期和九十年代其实就有了AI的爆发和深度神经网络的爆发，这时出现了核方法，也有很多相关论文发表，后来不知如何深度网络重回我们的视野。那么为什么深度网络这时候回归？一定程度上来说是因为数据和计算能力上的成熟，这就是深度学习的最佳时机。

这样的发展不止是单一的机器，我们现在看一下集群的发展。我们其实看到网络速度并没有增长太多，这意味着我们在本地有很大量的数据和处理能力，而对于储存这些数据的压缩版本以及它们之间的传播并不容易。现在云是大家都感兴趣的概念，比如说像智能手机等等，像华为、苹果都推出了具有1 TF GPU和深度学习的SoC，也有了10-100 GF的 CPU 计算和内存。现在，在这些设备上我们可以做一些有趣的计算，云的相似发展轨迹也可以运用到这里，这也是为什么我相信深度学习的存在是有原因的。

总结一下，就是我们有海量的数据，传感器的价格降低了，储存器的价格也降低了，而可使用的内存小，但是计算能力却很丰富，这就允许我们去设计算法，也要求我们设计算法去适应内存，这就是现在深度学习所面对的情况。说句后见之明的话，2020年之前我们都可以预测说，深度学习大概至少还会存在十年。

我们现在有非常高级的框架，能够让我们进行有效的深度学习

那么深度学习到底是什么？大家都在讨论 AI，讨论深度学习，那么深度学习到底有什么样的特点？实际上深度学习能够改变人机互动的过程。一般来讲，就是你在计算机上写一个程序，现在一般你写程序的时候都需要一些相关的数据，比如说你想把狗和猫进行分类，写一段相关的代码就可以做到，不过做一个分类器也是一件琐碎的事。这也就是将数据编程。

让我来举一个例子，大家可能会觉得这比较简单，做一个分类器的程序就只是一些输入一些数据，分析，然后输出。在2013年的时候，我给我的博士生布置了这样的作业，他们需要做很长时间。而最近几年，随着效率很高的深度学习架构的发明，比如 Gluon，高中生就能做这样的作业，这只是一个四行的代码编程。我不会再把这样的作业布置给我的博士生了，现在用这样的高水平工具就可以很好完成了。

现在我们来看一下20世纪90 年代的技术水平状况。1995年，Yann LeCun提出的卷积神经网络是一个非常巨大的突破，如果你看一下2012年的 AlexNet，这和之前的也没有很不一样，现在不过层级数多了，在激活的功能上有一些更改，用的是GPU而且有更多的数据。这样很多事情变得简单，至少我们现在可以坐下来用十到十五分钟的时间写段编码，用这几行Gluon的编码，就可以建立起1995年时算作技术突破的东西了。

当然，如果在2017年只是复制1995年的技术突破是件很无聊的事，所以大家想做更厉害的事。不过，由于我们觉得非常困难的工作现在做起来非常的容易了，我们可以思考更有趣的问题了。比如我们可以做视觉问题的回答，比如一张网球运动员挥拍的照片，你会试图为幻灯片上的这个问题寻找一个好的回答，你需要理解问题，找到照片里出问题的地方，然后才能回答。这就是2015年的技术水平。

举个例子，比如我们可以照一张照片，如果你想问有多少人是用手杖帮着他们上山的话，你首先要找到人们在哪里，你可以看到这个网络在照片里框定了爬山者的位置，之后计算数量就是相对简单的工作。同理，如果你想知道这个女人头上的角是什么颜色，你首先要找到角在哪里，这个网络就会经历几个阶段来锁定角的位置，然后回答角是红色的就很容易了。

刚才我所讲到的只是我们可以用的很多应用的冰山一角。如果你看看档案就知道，基本上每天都有两三个新应用。现在可以这样做主要的原因就在于我们现在有非常高级的框架，它能够让我们来进行有效的深度学习。

现在我们来看一下真正的产品。

亚马逊深度学习三大产品：Polly，Rekognition，Lex

现在我们看一下亚马逊在人工智能方面的应用情况。如果你想查询一个产品的话，你会希望找到那个对的产品，所以这个寻找发现的过程需要机器学习、人工智能、深度学习。同样的，在物流这个领域，我们需要了解到我们的供需，我们的仓储在哪里，该在哪里放置过称器，如何操纵那里的机器人等等。这些都需要人工智能。

当然，我们也需要人工智能对于我们现在有的产品进行更新，或者推出新的产品种类，比如 Alexa。Alexa是一个很好的语音远程开关，比如可以对它说“Alexa，打开咖啡机”，这是我每天早晨说的第一句话。或者我们也可以将机器学习带给所有人。关于这部分，我想分享几个产品。

现在我们可以用人工智能实现文声的转换。这是我们去年推出的一个完整的服务，有47种声音和27种语言，我们来听一段话。如果我们必须要读一个长的文件，用这个就会很方便，把它放到随身听里，这样你边走路就可以听到整个文件了。而要求更高的是做出自然的声音。比如大家看这第一句话，该怎么读呢？如果你不知道WA是华盛顿的话，那就会变得很有趣了。我们来听一下。（音频）大家可以看到在这里它就知道WA是华盛顿，F代表华氏。

声音是一个方面，另一个方面就是影像了。现在我们再来看一下影像的分析。比如我们可以做实时的批量图像分析，物品识别，脸部识别、分析，脸部搜索等。

比如这张照片里有一个美丽的海滩，我们的应用也分析出了这是一个美丽的海滩。

我们再来看一下这个女孩，这个女孩非常的冷静，她也没有戴太阳眼镜，看起来很开心而且没有胡子，这些都是自动分析的。通过这样的方式我们可以做不同的影像工作，特别是脸部图像。

现在我们来看一下LEX。LEX是非常好的工具，它推动了使用者界面的进步。曾几何时，做一段程序其实就是在卡片上打孔，这时候界面的成功就只要保证卡片不会蹦出来。接下来，就是以控制为主导的界面，出现了触摸屏，或者微软的Windows系统。在第三个阶段，你可以跟界面进行对话和沟通，界面是以你的意图、目标为主导的。

通过LEX技术，你可以建立起自然的、交互式的界面，它是语音与文字的Chatbots，支持 alexa，在手机、网页等进行语音交互，在 Slack & Messenger 进行文字交互等功能。所以说这在很大程度上是在你个人层面的深度学习，也就是写一个很棒的研究报告和做出一个人人能用的应用的区别。

深度学习触手可及：提供工具，降低门槛

我们再来看一下工具。用一些应用助手大家就可以在亚马逊云服务上做很多事，但也可能想做出新的东西来，也许你可以做出比我们还厉害的东西。首先就是大家都知道的带NVidia Volta芯片的P3的服务器，它可以提供 120 TFlops/GPU。我们还有P2、G3、C5、F1等等，过去的不同版本芯片都已经有了，我们也有英特尔的 Skylake芯片等。当然还我们需要在不同的设备之间获取到数据，我们有三个完整的300Gbps 内部相连的闭环。

当然我们也需要深度学习的框架来应用这些工具，这是我们上周做的一个对比结果。与其他两个热门的深度学习框架作对比，我们可以看到，尤其是在8个GPU的条件下MxNet比其他高出了18%。你会觉得这没什么，因为这是P2。

那我们现在来看一下P3，P3比 P2的速度要高6.4倍，每秒可以训练2500多个图像。所有这些内容现在已经触手可及：代码是开源的，服务器的价格也可接受。如果我们想让所有人都能用深度学习的话，我们必须提供工具，同时降低门槛。

在价格的可承受性方面，正常的价格都是在12美元左右可以买四个 GPU，这个价格是非常低的。我们再全面地看一下，差不多每小时花2000美元左右你就可以拿到和世界上最快的计算机太湖之光一样快的计算能力。当然我这里也撒了一点谎，天湖之光提供480TF/s。但是前提是你能够买得起最贵的超级计算机，不过我想大多数人没有办法买到它，所以这也是一个不错的选择。

硬件是一方面，而整体的生态系统是怎样的？我们做出的Gluon基本上是延续了MXNet，包括像框架和后台工程，但它主要是和 Chainer、Pytorch 等合作。微软很喜欢它，所以也决定加入Gluon的 API，所以也许未来你也可以在CNTK 上用Gluon 的编码。

最后用可拓展性来总结一下，有的时候人们告诉我在一个 GPU 上应用深度学习很简单，但如果是多个GPU、多个机器呢？可能就会让人担忧了，但们人们争论的其实也是一些附属问题。在16个GPU当中，我们有15倍的加速，你会觉得已经很好了，在128个GPU中我们就有了155倍的加速，所以说也是非常不错的。

对于很多的数据科学的工程师来说要了解一些正确的软件包，或者安装的实验室的驱动器等等，第一次来做这件事情可能要花半天的时间。所以如果很多工程师想进入深度学习的领域比较困难。于是我们决定帮他们减轻困难，这个深度学习AMI提供了各种各样的深度学习软件包，当然我们很喜欢 MXNet，不过我们也提供了TensorFlow、Torch、Theano、PyTorch等等，你也可以用Anaconda、Jupyter、Python等等来提高效率，当然这需要提前安装NVIDIA 或者英特尔的驱动器，它可以让每个人都易于使用深度学习。我们的工作可以让每个人自由地选择他们想用什么框架或者想做什么，也帮他们消除了一些枯燥的前期工作。

讲到这里就到了我演讲的最后一部分。我希望我给大家提供了一些观点，让大家了解了我们现在的硬件和数据情况、深度学习、它如何变成真正的产品，以及我们现在的一些可以让每个人使用的开源工具。

由于中国的人工智能有一个非常大的市场，我非常荣幸能够来到这里，我们也做了非常大的努力去实现深度学习的中文培训。在我们的zh.gluon.ai网站上，可以找到Gluon 深度学习课程，有30到40个的Jupyter笔记，这些大家都可以使用，可以用它们来培训你的工程师或者学生。这实际上是一个教授写的课程，当然它写的目的是针对大学进行教学的，但同时它也非常有实用性，你可以使用这些教程获得深度学习的更多知识。如果大家有什么问题可以用中文发上去，我们有比较大的用户群体，可以帮助回答你的问题。

到这儿我的演讲就结束了，非常感谢新智元对我的邀请！