邓力：如何把深度强化学习用于BOT开发

cnsworder 发布于2019-04-25 18:04 / 1705人阅读

摘要：月，谷歌宣布要开发驱动的，即谷歌助理。由于最近机器学习和有了巨大进展，人工智能现在已经成为可能。人工智能会采用迭代和反馈回路来自我发展，并趋于完美。这种的奖励函数用于深度强化学习算法先简单称之为情感智能不可能被轻而易举地量化。

今年三月，微软CEO Satya Nadella谈到现在的行业趋势是更普遍地使用人类语言与计算设备交互，他将这一趋势称为“对话即平台”（conversationas a platform）。

他还宣布了几项聊天机器人（bot）计划，包括微软公司的聊天机器人开发工具（bot framework）。今年四月，Facebook推出了带有 bot 的 Messenger platform。5月，谷歌宣布要开发AI驱动的bot，即谷歌助理。自此，bot被广泛认为是一种新的用户界面（UI），会从根本上改变人们对计算机的体验。

APP和网页模式有什么问题？

App平台是苹果公司多年前为其智能手机发明的，之后，谷歌也推出自己的Google Play Store。APP平台建立在一个统一的资源模型上（该模型假定具有一定的内存容量和处理速度的手机能为你提供所需要的一切）。但这也带来一个负面影响，那就是手机屏幕被大量的APP图标霸屏，虽然人们经常使用的APP还不足20个。

事实上，活跃的APP数量正在减少。整体而言，虽然已发布的APP数量有好几百万，可其中有许多从未被使用。这无疑是在浪费设备资源和用户下载、安装和管理APP的时间。

网页模式对于移动端的 UI 来说更加糟糕。通过手机使用web服务的频率很低，原因是许多热门网站的设计和优化都是针对非移动的PC端的，而PC通常都接入了宽带。

智能手机的带宽和计算能力有限，这对许多Web服务而言是很大的障碍。此外，大多数网站都遵循以页面为中心配置信息的规范，导致（非移动端）浏览器的就像是电子书阅读器。这对于移动设备而言，这并不是较佳选择。

这样带来的结果是：我们需要重新设计手机的UI，以实现移动时代的全部潜力。

移动端UI的新范式：对话

幸运的是，在重新设计和再实现过程中，出现了一种适合手机的新模式。这种新的“对话即平台”模式让移动用户能发现、访问和使用与日常生活相关的信息和服务。这种模式下，有用的信息和服务能自然地融入对话里。

这种对话式UI模式将会形成一个新的生态，该生态比以前的web生态和app生态有更大的规模优势。这很可能是因为信息产业正在进入一个物质世界数字化的新时代，正在将这些虚拟的联系与现实服务连接起来。这个物质的、交互的、以服务为中心的世界正在超越以往静态的web信息配置时代。

消息（messaging）是新型对话模式的核心，包括一连串的短文本、音频和视频消息。因其具有异步和实时两种性质，消息能推动数字对话的发展。用户不再需要为交互而提前挪出时间，就可以发起近乎实时的对话。

作为智能对话交互代理的Bot

对话交互提供的各种类型的智能服务对以对话为中心的移动UI模式更加重要。我们现在有智能个人助理，如Siri、Google Now、Cortana和Alexa。我们还有能通过自动会话界面来获取的个人聊天机器人（bot）。

在新的对话模式的最后阶段：用户可能不再需要下载APP；人工智能的 bot 利用语音和自然语言能力，能智能监控并通过消息UI做出响应，自动将必要的服务资源（很可能储存在云端）提供给用户。

由于最近机器学习和AI有了巨大进展，人工智能bot现在已经成为可能。这些进展使我们能将越来越多的我们所关心的东西自动化。过去几年发展起来的深度学习，特别是过去一年半里产生的深度强化学习（RL），高效利用了日益增加的数据和计算资源，提高我们为世界环境和所有与我们生活相关的应用领域建立计算模型的能力。

在机器学习技术中，RL具有鲜明的特色。你需要用户的反馈，同时也需要奖励用户。这和下国际象棋很像，你在玩的时候不知道奖励是什么，但是最终你会知道。你知道与AI的交互最后的结果是任务完成。你知道目标是预订航班，但是bot只会说那些可以实现这一目标的话，即便用户可能不明白的是，这个bot正在努力追求最终目标和奖励。

这些进展使得自动语音和自然语言理解触手可及，最终使我们能够解决在许多领域对话理解和对话的问题。基于深度强化学习的AI bot 会理解所有领域的语义，还能够扩展到现在还无法涉足的领域。

人工智能 bot 会采用迭代和反馈回路来自我发展，并趋于完美。人工智能bot的强化学习组件中内置的环境模式，能够自动地且精致地检测、获取、创造并积累新知识，让我们能发展越来越多的智能服务并积累更多经验，特别是像预定、支付等行为导向型的服务。

三种类型的人工智能bot

大体来说，人工智能 bot有三种类型。第一种是搜寻信息的 bot，其目标是明确的。第二种是要完成某种任务，其中也可能需要搜寻信息，但在短时间内其目标可能是不明确的。你可能问电影院的开放时间。这不是说你的目标只局限在答案上，而是说获得答案是你达到最终目标（看电影）的一个步骤。对于第一种类型，奖赏是明确定义的；而对于第二种类型，奖赏也是相当明确的（或者将会是这样）。

当使用强大的深度强化学习技术进行构建时，以上这两种 bots都有自己定义相当明确的奖励函数（这是强化学习的关键组件）---或者搜寻信息，或者试图完成特定任务（比如预定机票和酒店）。

第三种类型的AI bot 需要的指导最多，它们是社交 bot ，有时也被叫做聊天 bot 或闲聊 bot 。这种 bot 的奖励函数（用于深度强化学习算法）——先简单称之为「情感智能」——不可能被轻而易举地量化。举个例子，你可能向聊天 bot 寻求建议，或者问一些含糊的问题，比如今天做什么, 或者在同 bot 讨论买人寿保险之前先聊聊天。

处理聊天 bot 十分复杂的奖赏函数需要扩大能力，为了给这种能力提供数学基础，研究界和从业者需要深入调查。这里的目标是将普遍使用的强化学习算法（例如用于 AlphaGo 中的关键学习方法）扩展成更好的算法，这种算法能利用信息理论上的和内在激励的奖励。

在切换到其他试图完成任务的 bot 对话之前，这种奖励捕捉用户在与 bot 的对话中获得的情感上的满足感。对于计算机科学家和电子工程师而言，这是一个前景很好的AI研究领域。

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法，实际应用案例分享与讨论，分析工具，ETL工具，数据仓库，数据挖掘工具，报表系统等全方位知识

QQ群：81035754

云服务器 GPU云服务器深度强化学习和深度学习深度学习与强化学习深度学习和强化学习强化学习与深度学习

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/4392.html

利用遗传算法优化神经网络：Uber提出深度学习训练新方式

摘要：和的得分均未超过右遗传算法在也表现得很好。深度遗传算法成功演化了有着万自由参数的网络，这是通过一个传统的进化算法演化的较大的神经网络。 Uber 涉及领域广泛，其中许多领域都可以利用机器学习改进其运作。开发包括神经进化在内的各种有力的学习方法将帮助 Uber 发展更安全、更可靠的运输方案。遗传算法——训练深度学习网络的有力竞争者我们惊讶地发现，通过使用我们发明的一种新技术来高效演化 DNN，...

AlienZHOU 2019-04-25 18:22 评论0 收藏0
DeepMind、MIT等27位重磅论文，图网络让深度学习也能因果推理

摘要：康纳尔大学数学博士博士后则认为，图神经网络可能解决图灵奖得主指出的深度学习无法做因果推理的核心问题。图灵奖得主深度学习的因果推理之殇年初，承接有关深度学习炼金术的辩论，深度学习又迎来了一位重要的批评者。作为行业的标杆，DeepMind的动向一直是AI业界关注的热点。最近，这家世界最较高级的AI实验室似乎是把他们的重点放在了探索关系上面，6月份以来，接连发布了好几篇带关系的论文，比如：关系归...

Wuv1Up 2019-04-25 18:27 评论0 收藏0
深度强化学习：基于像素的乒乓游戏

摘要：在这个问题强化学习里，我遇到过很多人，他们始终不相信我们能够通过一套算法，从像素开始从头学会玩游戏这太惊人了，我自己也曾经这么想。基于像素的乒乓游戏乒乓游戏是研究简单强化学习的一个非常好的例子。这是一篇早就应该写的关于强化学习的文章。强化学习现在很火！你可能已经注意到计算机现在可以自动（从游戏画面的像素中）学会玩雅达利（Atari）游戏[1]，它们已经击败了围棋界的世界冠军，四足机器人学会...

hikui 2019-04-25 18:02 评论0 收藏0
90年代的兴衰——强化学习与递归神经网络

摘要：强化学习这就是神经网络流行起来的地方。而且，我们也在这一范围内取得了强化学习史上最重要的成绩之一一个学习并成为西洋双陆棋玩家的神经网络。递归神经网络图。这是「神经网络和深度学习简史」的第三部分（第一部分，第二部分）。在这一部分，我们将继续了解90年代研究的飞速发展，搞清楚神经网络在60年代末失去众多青睐的原因。神经网络做决定神经网络运用于无监督学习的发现之旅结束后，让我们也快速了解一下它们...

rozbo 2019-04-25 18:01 评论0 收藏0
Jeff Dean「Hot Chips 2017」演讲：AI对计算机系统设计的影响

摘要：谷歌也不例外，在大会中介绍了人工智能近期的发展及其对计算机系统设计的影响，同时他也对进行了详细介绍。表示，在谷歌产品中的应用已经超过了个月，用于搜索神经机器翻译的系统等。此外，学习优化更新规则也是自动机器学习趋势中的一个信号。在刚刚结束的 2017 年国际高性能微处理器研讨会（Hot Chips 2017）上，微软、百度、英特尔等公司都发布了一系列硬件方面的新信息，比如微软的 Projec...

explorer_ddf 2019-04-25 18:16 评论0 收藏0