技术人攻略访谈三十五|小猴机器人：征途路上，星辰大海

siberiawolf 发布于2019-06-26 18:12 / 2639人阅读

摘要：导语本期访谈对象小猴机器人，清华人工智能专业博士在读。或许因为成长于广袤的内蒙，小猴身上带着大山和草原一般的洒脱与乐观，在他钟爱的无人车上，印上了一个美好的我们的征途是星辰大海。技术人攻略除了规则挖掘，人工智能遇到的难题还

文：Gracia,摄影：周振邦
(本文为原创内容，部分或全文转载均需经作者授权，并保留完整的作者信息和技术人攻略介绍。)

导语：本期访谈对象@小猴机器人，清华人工智能专业博士在读。2009年开始，他参与实验室的无人车项目，和军事交通学院共同研发“军交猛狮III号”无人车。这辆由黑色现代ix35改装的大家伙，配备雷达、摄像头和GPS传感器，可精确识别路况、判断障碍物，并自主进行刹车、油门、制动、换挡等操作。身为概率论、AI、Python的狂热爱好者，小猴正致力于用概率图模型方法，让机器变得更聪明。

攻略君的书柜顶层，放着侯世达的《哥德尔、埃舍尔、巴赫：集异璧之大成》，这本被誉为人工智能“圣经”的厚重大部头，出版于70年代中期，曾获得普利策文学奖，轰动一时。其后，人工智能领域研究进入拐点，关注“人类思维如何运作”的传统研究方式进入死胡同，逐渐淡出公众视野。直到80年代末期，人工神经网络发明，基于大量训练样本的机器学习模型，取代传统人工规则，这一领域才重新取得突破性进展。

随着大数据与人工智能结合，我们逐渐进入一个算法主导的世界，无所不在的机器智能，精确记录着你的点滴，计算着你的喜好，推荐你需要的物品，物理世界和虚拟世界的分界变得模糊。在欢天喜地迎接万亿级别新市场同时，也不乏对科技和人类未来的反思，对技术“奇点”的担忧是其中之一。大约一万年前，人类在改造自然的能力上逐渐占据主导，迎来了自身的大繁荣。当机器智能超越人类智能，意味着第二个临界点到来，这种智能会在多大程度上操纵人类的认知方式？一个有人性的世界是否会由此终结？人工智能这把通往未来的钥匙，究竟能打开一扇什么样的门？需要每位参与者谨慎思考。

“三清团”（清华本科、硕士、博士）的经历，让小猴养成了严谨、务实的科学态度。他喜欢用“科技工作者”称呼自己，并且善于用通俗易懂，带点戏谑的方式，把那些看起来高深的理论，解释得通俗易懂。他曾做过一份《机器学习周刊》，用自己鲜明的个性，把严肃、枯燥的技术新闻，解读得无比鲜活。即使整整一下午，我耳边回荡着“卷积神经网络”、“约束玻尔兹曼机”、“马尔科夫随机场”这样的专业名词，听起来仍是津津有味。或许因为成长于广袤的内蒙，小猴身上带着大山和草原一般的洒脱与乐观，在他钟爱的无人车上，印上了一个美好的Slogan：我们的征途是星辰大海。

技术人攻略：你们的无人车项目始于何时？做到了什么程度？有哪些难点？

我现在清华“不确定性人工智能实验室”读博士，主要做和不确定性相关的东西，例如：知识挖掘、知识图谱、读心机器人、视觉识别、四旋翼、自平衡车、足球机器人等项目。

实验室的无人车项目从2005年开始启动，目前已和若干高校，以及上汽、北汽等公司联合，共有100多人参与。我2009年加入该项目，从做模型车开始，逐渐做到大车。目前为止，该车已通过约5万公里测试，在全程无人工干预情况下，高速路跑下来没问题。2012年12月，央视曾跟拍过我们从北京收费站入口，跑到天津收费站出口的全过程。

接下来的挑战是错综复杂的城区道路，解决复杂问题的方式是剥洋葱，剥到我们能解决的那一层。城市道路抽象地看，可分成机场高速、环路、普通城市道路、小区道路，难度依次提升。以“机场接人”这个任务为例，无人车需要从机场一号航站楼，跑到天安门旁的工信部大院。这段路涉及机场高速、东二环、前门大十字路口等许多交通元素，逐步搞定预计要用两年时间。

无人车行走依靠三大工具，一是GPS卫星定位，二是激光雷达，三是相机。雷达和相机实现局部定位，GPS实现全局定位。这里面有很多技术难点，其中之一就是如何实现高精度定位。

普通车道线的宽度是3.3米，手机上的GPS号称误差2.5米，一旦出现5米左右的误差，会导致从左拐车道偏移到直行车道。针对高精度定位需求，已出现了一些高层次GPS定位方法，例如RTK-GPS、差分GPS，通过静态GPS基站和卫星同时定位，精度可达到50厘米。一辆无人车的总成本高达200万人民币，激光雷达国外卖6万刀，国内加上税得到80万人民币，用精度更高的航天级传感器，成本会高达上百万。差分GPS市价30万，基站覆盖范围10公里。从机场到天安门这段路约29.1公里，想实现全程信号覆盖，至少得建3个基站。如果用3G，不用搭建基站，但信号覆盖效果会是个问题。所以最后的定位方式会结合多种传感器做融合推理。

Google无人车依赖GPS，及传感器做特征抽取，并把这些信息连到一块分析。分析过程用到了SLAM（协同定位与绘图）技术，它是一个机器学习算法，在机器人领域应用得很广。根据车的移动，不断调整地理位置估计，当搜集的信息足够多时，就能实现精准定位。如果有足够完善的地图，就不需要用到SLAM，直接把场景和地图特征做Mapping就可以。

技术人攻略：你现在主要的研究方向是什么？

我个人的兴趣是用概率模型（例如概率图模型）方法解决人工智能问题。在无人车这块，正尝试通过深度学习模型，对人的驾驶及周围环境建模，训练出一些模型，和车的控制算法结合，让机器变得更聪明。

传统控制方式会写一些if、then条件，例如：如果视野里出现红色，则前方有红灯。但仅凭这一条规则判断，结果会存在一定不确定性。图模型则会连接更多前件和后件，根据已有知识，去推论图里面某一个节点或者某一条边，是否会存在或发生。仍然拿红灯举例，根据先验知识，红灯一般在高处。除了判断颜色之外，还需要判断红灯和地面之间的关系。如果在地面上检测出来一个红色物体，那么它是红灯的可信度不会很高，如果在天空上，那么很可能是一个红灯。

除无人车外，我还对自然语言处理感兴趣，例如做Email的Intention Direction分析，怎么知道某封邮件是找你要资料的Email，还是老板通知你去开会的Email。再进一步，通过智能助理提醒你，回复前两天别人找你要资料的Email，或只对老板让你开会的Email做出响应。如何理解你老板，和开会这两件事，涉及到对人和事件的识别与抽取，这中间可以做大量的尝试，会让你对人工智能的能力感到很振奋。

我参与过最有趣的人工智能项目是MSRA的“读心机器人”：你在心中设想一个公众人物，它能通过一系列问题，猜出你心里想的那个TA是谁。这实际上是一个排序算法，根据用户的每一次回答调整 Ranking。其中的技术涉及到知识库构建，所有人物的背景知识都从互联网上抓取。还涉及到群体智能，通过用户的回答调整算法。

技术人攻略：刚提到用图模型方法解决人工智能问题，图模型有哪些好处？如何实现？

用图模型解决问题的方法，在人工智能里被称为“连接主义”。过去我们常把数据看成一个个孤立的点，针对点做假设。但实际上，可能很远的地方一个毫不相干的信息，会触发你这里致命，或决策性的响应。所以用图来研究人工智能是很自然的方式。

Google知识图谱（Knowledge Graph）就是根据图模型构建起来的，我们一般叫它知识库（Knowledge Base）。例如你想搜索关于奥巴马总统的知识，传统搜索引擎做关键字匹配，难免会搜出一些不需要的东西。用知识图谱方式，全世界有1000个人叫奥巴马，但可能只有一个人和“米歇尔（奥巴马的妻子）”有关系，通过这类联系，迅速定位出目标。

但如何能知道米歇尔和奥巴马之间的联系呢？这就涉及到知识库的构建。构建分为两步，第一步是Entity Linking，找出材料中提到了知识库里的谁？第二步是Slot Filling，找出在说他的什么事？

人类的思考过程并不仅依靠输入的材料，而是会结合已有常识分析。例如大部分人大学毕业都在22岁左右，大部分人会在30岁之前结婚、生子，大部分人寿命不会超过100岁……这一系列概率分布构成了人的背景知识，利用这些知识可以辅助和改进人工智能效果。

常识一般分三类，第一类叫事实，例如：布莱尔是英国总理。这个层面的知识可以从大英百科全书或Wikipedia上拿到；第二类常识，例如：布莱尔是个人，他是个男人。涉及上下层级关系，要更难一些；第三层更困难，例如：布莱尔是个男人，男人通常会和女人结婚，通常会在结婚后两年生小孩。第三层涉及的规则，是真正的人类智力和人工智能之间的壁垒所在，如何能够有效挖掘出这些规则，是目前人工智能遇到的最大挑战。

技术人攻略：除了规则挖掘，人工智能遇到的难题还有哪些？

所有做人工智能和机器学习的人，遇到最普遍的难题是：缺乏被标记好的数据。举个例子，我们面前这一瓶可乐，网络上能找到成千上万张图片，但就是没有标记出来它是一瓶“可乐”。即使在电商网站上，这张图很可能也并不会标记为“可乐”，而是叫“解暑佳品”。在这样的情况下，机器又如何能知道对应的图就是“可乐”呢？

再举个极端的例子，你在朋友圈贴了几张美食的图片，发了一句感慨：今天真开心。这句话和美食没有任何关系，根本没法处理。而有的人会说：我在大众点评上找了一家烤肉店，味道非常不错。那“烤肉”这个词就能抓出来了。所以这不是技术上的问题，而是要看你能拿到多少数据。

怎样从这些没有标记过的数据中，搞出一点苗头出来，这就是当下最火的深度学习要做的事。有别于深度学习直接用原始数据的生猛做法，传统解决办法是用远程监督（Distant Supervision）技术获取数据，例如从网上抽出一些可能的标签，在“减肥佳品，消暑必备可乐”这句话里，会抽出“减肥”，“消暑”、“可乐”这些名词。统计相似的图片里面，有哪些关键词经常出现，用不确定性解决这个问题。算完之后给出一个概率：这个东西在谈可乐的概率80%，在谈减肥的概率20%。只要数据量够大，这些都不是问题。

机器学习上手很容易，关键是能挖出什么东西来。真实数据里噪声非常多，缺失的信息也很多，实践者要学会绕出这些坑，从纷乱的数据中找出规律。在深度学习还没到大家脑海里之前，大部分机器学习学者都在观察数据有什么特征，这叫做特征工程。例如你发现数据里所有单词的第一个字母都大写，就把它当成一个特征，别人如果没用到这个特征，你的算法就超前了。搞人工智能的人，必须对数据敏感，能从数据里发现一些别人看不到的端倪。机器学习是一个优化过程，但能从数据里挑什么来做优化，需要专业技术。而且数据特征和领域有紧密关系，广告、网页的、图片识别的特征各不一样，用到的模型也可能不一样。

技术人攻略：前阵子媒体报道已有机器通过图灵测试，你怎么看？

前阵子宣称通过图灵测试的那台计算机，模拟了一位13岁的匈牙利外国男孩，并且还是得了病的那样一个人的智能。做了许多限制条件，把AI设计成有缺陷的人，试图蒙混过关。

实际上，真正的人工智能学家根本不会致力于去通过图灵测试。我们不去争论什么是真正的人工智能，而做以下设想：如果有一台无人车，可以让驾驶过程中90%的场景全都和人一样。逐渐把这种算法应用到地铁、飞机驾驶，并且都做到效果无限和人逼近。最后这些综合起来，形成一个整体，你觉得它算不算人工智能？

人工智能分为两派，以Google为首的一派搞统计，以侯世达为首的一派搞规则。两派人总在争论，究竟谁才是真正的人工智能。讨论参与到最后，就变成了人和机器最后到底谁会控制谁的畅想。畅想完了之后总还要干活，作为科技工作者，不如埋头把活干好。在局部范围内让机器人去逼近人，如果能做到一个比较良好的状态，就称其为在这个领域内，达到一定程度的人工智能。比起通过图灵测试，这应该是更为实际的目标。

对于图灵测试智能与否，也有学者吐槽。去年人工智能大会（IJCAI）上，Hector Levesque就指出：人与机器的区别应该在于认知和理解，比如“指代消歧”能力，普通人可以轻松结合上下文，分辨出文中的“它”指的是谁，但目前机器要做到这点挺难。

技术人攻略：Yann LeCun（燕乐存）预测这两年会大量出现人工智能、机器学习的初创公司，你关注到有哪些这个领域的公司？

国外机器学习的初创公司很多，方向也相对比较杂，应用领域包括广告、机器人、智能家居等。例如今年初Google以4亿美金收购了DeepMind，这家公司的创始人之一是Yann LeCun的学生，他们把深度学习模型应用到游戏领域，做了个自动玩超级玛丽的算法，发了篇很厉害的Paper。

深度学习最牛的地方，在于完全不需要定义规则，所有规则都由机器自己学习得出。在超级玛丽游戏里，你根本不用定义马里奥和乌龟的距离，只需定义活下去这个目标，把整幅截图给机器，它自然就能找出在什么场景或什么动作序列下，游戏角色能存活最长时间。

这家公司价值如此大，关键还在于，超级玛丽通关的算法，实际上跟其它高精尖领域的控制算法原理一样。例如航天飞行器的控制算法，是在模拟器里，用模型驱动参数变化，给出结果并反复训练的过程。广告系统也类似，Google以前通过人，或者简单算法调整广告系统的参数，一方面效果达不到，另一方面浪费人力物力，深度学习或者超参优化能自动化地解决这个问题。

国内的创业环境更偏向于短平快，做机器学习初创的公司主要集中在广告、营销方向，包括舆情监控、精准投放等领域。也有像Face++这样的，用机器学习做人脸识别，并做到这个领域的世界冠军。

技术人攻略：机器学习、深度学习、人工智能、模式识别之间的区别与联系是什么？想进入这个领域的人应该如何提升？

人工智能是目标；机器学习是一种技术手段；模式识别与机器学习有交集，但不一定非要经历机器学习的训练过程，可通过给匹配给定模式的方式实现；和深度学习对应的是浅层学习，都属于机器学习的方式之一。

想进入人工智能领域，首先得了解它的发展历史。从技术上看，人工智能应用领域基本可以落在图像识别、声音识别，自然语言处理这三类。从中找到你的载体，再从载体上寻找和明确要解决的科学问题。接下来看别人的解决方案是如何实现的，世界冠军的标准是什么，朝着把世界冠军打败的方式去努力。这是所有做科研的人应该遵循的成长方式。

现在最火的深度学习领域的顶级牛人有4位，包括神经网络的发明人、就职于Google的Geoff Hinton；Facebook人工智能研究院主任Yann LeCun；加拿大Montreal大学教授Yoshua Bengio；百度首席科学家Andrew Ng。他们当年都曾在NEC Lab里共事。2006年之前，支持向量机模型（Support Vector Machine）占据了机器学习领域的江山。神经网络出来了之后，在性能上压倒式地超越了SVM，在语音和图像识别两个领域，把原有的世界机器学习纪录全干掉了，所以一下子火了。不过目前深度学习在自然语言上还没有特别好的解决方案。

大家普遍认为，人工智能这一行对数学有很高的要求，尤其是线性代数和概率论。以下几本机器学习的书，也可以看看：《Pattern Recognition and Machine Learning》、《Machine Learning——An Algorithmic Perspective》、《Programming Collective Intelligence》、《Machine Learning in Action》、《Machine Learning for Hackers》。想做得好，还得多看Paper。不管是Paper还是新闻，推荐都尽量看英文原文。

技术人攻略：你在清华从本科一直读到博士，谈谈在清华成长的感受吧？

外界对清华同学的吐槽比较多，比如情商低，自视甚高等。有些看法很片面，但至少我们做事情很认真。个体行为在一定程度上代表着学校，如果自己做事不靠谱，别人会说那个清华的谁不靠谱，有负于前面成百上千的师兄师姐营造出来的形象。

别人眼中的清华学子可能很乖巧好学。但真的乖吗？不一定。好学吗？有时候也会犯懒。这跟是不是清华其实没关系。我从小也算是“别人家的孩子”，除了学习和品行不错，内心其实很叛逆。许多同学来自于格式化的城市，我却成长于广袤的内蒙古，大兴安岭给了我洒脱的性格。我可能并不算典型的清华同学，所以这里谈的都是些个人看法。

我从小非常喜欢看书，语文和英语很好，差点去学文科。但后来发现应试教育里那些文科的东西，不像理科那么有确定性。比如历史，让你谈一下对鸦片战争的看法。我想这还不如解方程，于是学了理科。结果因为数学不行，各种被虐。

大一期中考试，我微积分考了52。从2004级开始，国内一些省份已经把微积分放进了高中数学，而我高中没学，对微积分一窍不通。当时心里有巨大压力，想着这回完了，我要被清华退回去了。后来一转念，数学天赋我没有，但刻苦这件事是可以做到的。为了向老师请教学习方法，我每天帮老师擦黑板（微积分上了三学期，我擦了整整三学期黑板），并把能找到的数学习题集都做了一遍。期末考试前，我做过的草稿纸，垒起来已足足有10公分高，但心里仍然是没底。老师说：你如果再不及格，我就放过你（这句话更多是为安慰我，后来才听说这位老师是名捕之首！）。结果是我考了98分，在半个小时之内做完了所有的题，许多题目熟悉得甚至不用算就知道答案。从那时候我就觉得，在清华混，努力是个很重要的因素。

技术人攻略：你未来一到两年的计划是什么？

我明年博士毕业，导师是国内人工智能领域的专家李德毅老师。他教导我做事要有载体、要思路清晰、要坚持，对我影响很大，完全能跟我长辈相提并论。

我现在大部分时间都在忙无人车。希望能在未来几年，把无人车做到世界顶尖，让中国自己的无人车在国际上占有一席之地。

毕业之后打算继续搞科研，通过一个载体，把自己的模型放上去不断优化。我不想完全去做产品，产品导向会有KPI要求，被虐成渣会影响家庭辛福。而且做科研可以经常换一些话题，新的事物一旦出现，就可以转过去。但做产品可能三、五年都得耗在一条产品线上，世界在变化，好多好玩的事情不断在发生，就没办法去做了。我是一个比较胆小的人，不适合一个人创业，让我抛下身家冒险，我做不来。如果有一个好朋友，他又对项目很有信心，我在里面帮他做一部分力所能及的事倒是可以。

我也搞不了偏商业化的东西。曾有人找我做高频交易机器人，但那不是我的兴趣所在。一旦你进入一个高频交易所，每天给他们写脚本，但那件事情并不是你想做的。只是你有的那块技术正好变成了他们比较重要的一块积木，上面和下面的积木都会挤压着你，带着你走向一个你不知道是什么样的地方。我想做一块独立、自由的积木，最好是变形金刚那种，最好周围的积木也不太规则，这样大家就不会完全拼在一块儿，求同存异，会更有趣。

作者介绍：技术人攻略访谈是关于技术人生活和成长的系列访问,由独立媒体人Gracia创立和维护。报道内容以“人”为核心，通过技术人的故事传递技术梦想；同时以小见大，见证技术的发展和行业的变迁。在这个前所未有的变革时代下，我们的眼光将投向有关：创造力、好奇心、冒险精神，这样一些长期被忽略的美好品质上。相信通过这样一群心怀梦想，并且正脚踏实地在改变世界的技术人，这些美好的东西将重新获得珍视。

联系方式 gracia@devlevelup.com
微博: @技术人攻略
订阅：微信搜“技术人攻略”或“dev-levelup”

感谢SegmentFault提供博客专栏及推广支持。
感谢迅达云成提供云主机及技术支持。
感谢七牛云存储对“技术人攻略影像拍摄计划”提供支持。

GPU云服务器云服务器技术人攻略访谈三十五技术人攻略实人认证购买攻略

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/19593.html

技术人攻略访谈二十五：运维人的野蛮生长

摘要：我一直认为运维工程师就是让跳舞的人，当我操纵几百台机器，整齐划一地做一件事情，那种感觉特别棒。技术人攻略你怎么看待，运维和开发的关系应该怎样平衡国内大家提得多 showImg(http://segmentfault.com/img/bVb66I); 技术人攻略：运维工作普遍很辛苦，你却能做得如此快乐，有哪些经验可以分享？流程比补位更重要，方法比拼命更重要。UPYUN运...

mating 2019-05-28 16:51 评论0 收藏0
技术人攻略访谈三十八|许式伟：十一年逆流顺流，首席架构师到CEO

摘要：导语本期访谈对象许式伟，七牛云存储，国内语言圈领军人物，社区发起人。许式伟的经历颇有传奇性，大学时就有狂外号的他，凭一份手写简历成功应聘金山，两年后成长为首席架构师，领导长达年的研发。在某技术大会的间隙，我第一次见到许式伟。 showImg(https://segmentfault.com/img/bVjLDc); 文：Gracia (本文为原创内容，部分或全文转载均需经过作者授权，...

Kosmos 2019-06-28 10:49 评论0 收藏0