资讯专栏INFORMATION COLUMN

深度学习将走向更加开放的未来

Render / 351人阅读

摘要:国内互联网巨头百度也在近期表明,将发起建立一个名为深盟的分布式机器学习开源平台,由旗下深度学习研究院牵头,联合来自卡耐基梅陇大学华盛顿大学纽约大学香港科技大学的多位系统开发者,共同推出旨在大幅降低机器深度学习门槛的虫洞项目。

当前人工智能之所以能够引起大家的兴奋和广泛关注,在很大程度上是源于深度学习的研究进展。这项机器学习技术为计算机视觉、语音识别和自然语言处理带来了巨大的、激动人心的进步,也相应的带来了具体应用的产品。科技巨头们——谷歌、Facebook、亚马逊和百度纷纷涉足这个领域:四处挖掘人才、建立研究实验室、高价收购创业公司、发布研究成果并将成果应用于产品,等等。

深度学习是机器学习领域中一系列试图使用多重非线性变换对数据进行多层抽象的算法,相较于在一大堆数据中自我生成任务的机器学习来说,这是一个巨大的进步。之前的机器学习可以称之为「肤浅的学习系统」,会受系统能计算的函数的复杂度的限制,例如,当使用线性分类器来识别图像时,将需要从图像中提取出足够多的参数特征来提供给它,但手动设计一个特征提取器非常困难,而且很耗时。或者使用一个更加灵活的分类器,比如说支持向量机或者两层神经网络,直接将图片的像素提供给它们,但这也不会提高物体识别的准确性。但深度学习的出现使这种情况发生了改观,互相关联的多层级为深度学习提供了「深度」,通过这样一种自下而上的工作,算法学着去识别特征、概念和类别,这就是人类非常擅长但一直很难用代码去实现的任务。

人工智能近几年的发展一方面取决于深度学习算法的成熟,另一方面取决于数据量的海量增长。百度的人工智能专家吴恩达把人工智能比作火箭,而深度学习是火箭的发动机,大数据是火箭的燃料,这两部分必须同时做好,才能顺利发射到太空中。

移动互联网和多种智能设备的普及使我们进入大数据时代,为人工智能的发动机——深度学习提供了足够多的燃料,早期的神经网络只拥有有限的数据处理能力。超过这个临界点时,为它们输入更多信息并不会带来更好的表现。而现在的神经网络系统所依赖的开发者的指导和调整要少得多。同时,不管你能输入多少数据,系统都能够对其进行充分利用。谷歌、Facebook和百度等互联网巨头坐拥海量信息,大量的搜索历史、社交信息和图片等。因此,他们才会积极布局深度学习,让机器不再惧怕信息过载的问题,反而是更好的从这些海量信息中挖掘中更多价值。

从另一方面来说,神经网络要发挥作用必须先接受训练。比如说,一台机器要教会自己识别人脸,必须先被展示一个「训练集」,其中包含成千上万的照片。也就是说,数据量的增长反过来也会提升神经网络的表现。也就是说,对于深度学习和人工智能,需要越来越多的数据。虽然谷歌、Facebook和百度这类科技巨头坐拥海量数据,但依然需要更加开放的互联网中的数据输入。例如,Facebook人工智能实验室负责人Yann LeCun在接受IEEE采访时表示,Facebook的人脸识别算法DeepFace在数据库中的测试结果是97.25%,但如果图片库里有数亿张脸,那较精确性就远不及97.25%。所以,这些科技巨头需要将深度学习和人工智能的研究更加开放,因为只有将他们已有的成果从一个相对封闭的环境中换到整个互联网中时,才能使深度学习模型更加完善,使人工智能得到更加广泛的应用。

在人工智能领域,有许多开放式案例,有的是科技巨头开放计算平台,有的是深度学习开源算法,但这都表明了科技巨头在人工智能开放化道路上的必然趋势。IBM在几年前就开始将人工智能系统沃森开放给金融、医疗、互联网(和Twitter合作)等行业使用,2014年投入10亿美元进行沃森开放平台的建设,当年年底沃森智能分析平台向公众开放,功能包括语音转文字、文字转语音、视觉识别、概念解读多维分析。支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架Apache Hadoop,是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。此外,还有分布式机器学习框架Spark。国内互联网巨头百度也在近期表明,将发起建立一个名为「深盟」的分布式机器学习开源平台,由旗下深度学习研究院牵头,联合来自卡耐基·梅陇大学、华盛顿大学、纽约大学、香港科技大学的多位系统开发者,共同推出旨在大幅降低机器深度学习门槛的“虫洞项目”。目前,已经参与合作的公司包括今日头条、汽车之家及微软亚洲研究院。深盟已有组件已成功覆盖三类最常用的机器学习算法,未来还则将致力于实现和测试更多常用的机器学习算法。作为中国国内第一个达到工业界应用水平的开源机器学习平台。

分布式机器学习开源平台对于人工智能领域有着重要意义,它解决了数据持续增长和机器学习模型逐渐复杂化与计算能力受限的矛盾,大幅降低机构和个人进入分布式机器学习应用的门槛。而随着产业界和学术界越来越多的研究人员使用该平台,这一方面会贡献更多的数据,才促进深度学习算法的完善。另一方面,人工智能的发展除了算法和数据之外,也离不开应用场景,现在,众多开发人员可以使用该平台进行自身领域的应用开发,比起科技巨头将深度学习仅用于自身业务有了更好的开放性,能够更加有利于深度学习技术更加广泛的商业化应用。

因此,不管是Apache Hadoop和Spark等开源平台,还是IBM的沃森开放平台和百度刚刚发布的「深盟」开放平台,都会借助这种开放式、分布式的合作机制充分调动群体协作和智慧,以更好的促进机器学习实现更加广泛的应用,更快的实现人工智能的产业化。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/4314.html

相关文章

  • 当云走向AI化,百度云正让整个生态走得更远

    摘要:就国内市场而言,百度云选择三位一体战略的时候不乏长远性思考。百度云将放在位的另一个用意正是在领域树立差异化优势,并通过等深耕垂直场景。至少就目前来看,百度云已经找到了最适合自己的竞争方式。2018年下半年,To B迎来了从未有过的热度,也把云计算重新捧上了风口浪尖。和几年前新兴业务的身份不同,处于风暴中心的云计算,早已成为互联网巨头和创业者们最激烈的战场,并相继宣布了酝酿许久的动作。阿里在财...

    daryl 评论0 收藏0
  • 浪潮云计算刘晓欣:2018 OpenStack市场透视

    摘要:浪潮云计算产品部副总经理刘晓欣近日,版本正式发布,其在可管理性弹性可扩展性等方面的持续提升,充分证明了正在日趋成熟与完善,已然成为业界公认的成功开源项目之一,在业内更是成了无可厚非的私有云实施标准。浪潮云计算产品部副总经理刘晓欣近日,OpenStack  Queens版本正式发布,其在可管理性、弹性、可扩展性等方面的持续提升,充分证明了OpenStack正在日趋成熟与完善,OpenStack...

    keithxiaoy 评论0 收藏0
  • 【董天一】一场IPFS引领下共享之风正在走向区块链

    摘要:网络启动开启了一个共享的新时代,与实体经济的结合让项目变得更加有意义,区块链已经走向了我们。直到年,互联网和区块链终于从概念上走到了一起,就是这场流行起来的共享之风。风险当然,伴随着区块链项目的毫无疑问是高风险如影随形。 作者简介:董天一 ,IPFS/Filecoin中国区技术布道人 ,《IPFS指南》作者。毕业于北京大学软件与微电子学院曾担任甲骨文亚洲研发中心(中国)数据库开发工程师...

    褰辩话 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<