资讯专栏INFORMATION COLUMN

二十年一轮回 AI将数据中心架构再次拖向分裂?

chuyao / 2409人阅读

摘要:而这对于数据中心来说则是一种巨大的挑战。显然,这一切在目前仍未引起足够的重视。

自从Alpha GO战胜人类围棋选手以来,AI就成为了整个商业社会中热度最高的一个名词。在AI的背后是对传统商业模式的巨大颠覆和对社会生产力的空前解放。虽然AI很可能在未来淘汰掉一部分重复性劳动很高的工作岗位,但因此所释放出的劳动力将在未来把人类的创造力推向新的高峰。

但除了已经沦为陈词滥调的AI光明未来,在实际的应用中,AI技术却仍旧处于萌芽状态。在目前的阶段,人工智能——Artificial Intelligence仍旧处于相当初级的阶段,还只能根据海量数据所构建出的模型来完成应用中的推理与判断,离真正的自主型人工智能或根据有限信息来自主拓展模型并作出判断的强人工智能还有很大的差距。

不过由于目前AI开发与应用的主要模式已经确认,对应的研究手段也就变得明确起来。在现有的技术方向下,企业需要利用神经网络技术并使用机器学习、深度学习算法来构建模型,在根据模型来开发对应的软硬件解决方案。而无论是训练AI模型还是利用AI模型来进行推理判断,强大的运算能力都是必不可少的。

AI两端的不同景象

在模型训练方面,由于输入的数据类型和使用的DL/ML框架不同,硬件不仅需要有强大的并行计算和浮点能力,更要具备强大的灵活性。但这两种需求都不是传统x86服务器所擅长的,因此就需要与x86异构的协处理器来完成对应的模型训练任务。在这一领域,最大的赢家无疑就是NVIDIA。面对这一市场的巨大需求和丰厚利润,NVIDIA不仅推出了针对不同性能和应用环境的多款GPU产品,更推出了对应的一体机甚至是为大规模GPU互联提供更高带宽的NVLink总线。此外,针对云数据中心的虚拟化环境和相关训练程序的开发,NVIDIA也有专门的GRID虚拟化技术及提高并行运算效率的CUDA语言。

以庞大的产品研发投入,NVIDIA几乎占领了AI中的模型训练市场。不过在利用成品模型进行实际问题的推理判断领域,NVIDIA却还没有获得相应的统治地位。

利用AI模型(程序)进行实际问题的推理和判断仍旧需要对应的硬件系统拥有强大的运算能力。但与模型训练的复杂场景不同,由于需要运行的程序和处理的数据类型的相对固定,硬件系统并不需要很高的灵活性。相反,在实际的AI应用场景中,用户往往对硬件的采购成本、能效和部署效率有着更高的要求。

于是,专门对应某种算法的AI芯片被越来越多的制造了出来。最近在资本圈和市场上引起广泛关注的华为海思、寒武纪、地平线、比特大陆等公司都是这一领域的新贵。在产品形态上,他们大多采用ASIC方式将AI应用固化在芯片中,从而获得更低的成本和更高的性能及能效。当然,传统科技企业也没有在这一领域缺席,包括Google的TPU、Intel的Arria 10系列(FPGA芯片)和Xilinx的Versal芯片(FPGA)等也纷纷进入AI推理判断领域。

与AI模型训练领域中NVIDIA的一家独大不同,推理判断领域却呈现出了百家争鸣、群雄逐鹿的景象。

云数据中心的AI隐忧

随着云理念和云优势被越来越多的企业认可,云计算市场也经历着一轮又一轮的高速增长。而将AI能力通过云计算的形式交付给企业和用户也成为了AI技术迅速发展并取得广泛应用的前提条件。于是,对于云数据中心来说各类计算卡和AI芯片就成为了扩容建设的重中之重。

但随着云计算市场和应用集中趋势的愈发明显,很快,大型云数据中心就会发现,越来越多的GPU、ASIC、FPGA会开始堆满数据中心,他们分别运行着不同的程序、发挥着不同的作用、并且有着不同的管理方式。而这对于数据中心来说则是一种巨大的挑战。

二十年前,当时的CPU性能远没有现在的强大,而面对庞大的数据存储和管理压力,大多数企业都开始研发运行效率更高的ASIC芯片,并使之成为存储系统的核心功能实现单元。期初,这一思路取得了很好的效果,满足的用户的需求。但随着时间得推移,越来越多不同厂牌、不同管理框架、不同功能的ASIC也让存储网络的管理和运营成本直线飙升;最终受苦的仍旧是企业。直到现在,软件定义存储技术才开始慢慢扭转这一局面,将企业从存储系统结构的深渊中慢慢拉出来。

而现在,数据中心虽然已经实现了大面积的运化,但CPU+GPU+FPGA+ASIC的复杂计算架构却仍旧有可能将企业拖入AI基础设施的深渊,让数据中心重新面临二十年前的窘境。显然,这一切在目前仍未引起足够的重视。

诚然,AI的崛起能够让企业在数字化时代的竞争中获得巨大的优势,并有望彻底改变人们生活和企业运行的效率和方式,但这种粗放型的发展思路却仍旧值得数据中心管理者们的重视。

指望在复杂多变的AI市场建立统一的管理和运行框架在目前这个时间节点是不现实的;寄希望于初出茅庐的AI芯片独角兽们从整个数据中心未来管理和运营的角度来设计产品也不太可能。但从市场的规律来看,在没有新的颠覆性技术出现之前,谁能够解决好这一问题谁才有可能成为AI硬件市场未来真正的赢家。

基于这一点,最有希望成为赢家的仍旧是Intel和Google这样庞大企业。他们既有设计数据中心架构的能力与经验,也有引领行业发展的资本和实力。而隶属于华为的海思则也有可能凭借华为丰富的设备制造和系统构建背景获得未来市场的一杯羹。但对于地平线、比特大陆、寒武纪这样最近几年才崭露头角的新型企业来说,数据中心仍旧是一个庞大且无法掌控的存在,其未来最好的归宿或许仍旧是被收购。

当然,由于具备更相对更高的灵活性,FPGA和GPU方案仍旧可以很方便的与各种数据中心管理架构兼容,这对于近来股价持续下跌的NVIDIA来说或许是一个好消息。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/5414.html

相关文章

  • Yoshua Bengio:纯粹与理想,深度学习的30年

    摘要:但是在当时,几乎没有人看好深度学习的工作。年,与和共同撰写了,这本因封面被人们亲切地称为花书的深度学习奠基之作,也成为了人工智能领域不可不读的圣经级教材。在年底,开始为深度学习的产业孵化助力。 蒙特利尔大学计算机科学系教授 Yoshua Bengio从法国来到加拿大的时候,Yoshua Bengio只有12岁。他在加拿大度过了学生时代的大部分时光,在麦吉尔大学的校园中接受了从本科到博士的完整...

    william 评论0 收藏0
  • BAT扎堆调架构 B端市场或掀争夺战

    摘要:业内人士分析认为,云计算是科学技术领域的第二次革命,这个入口将直达每个企业在集体加码云计算业务背后,凸显了三巨头聚焦业务的决心,端市场或将掀起一场争夺战。经过本次调整,腾讯将业务划归为和两大块。2月18日,百度发出由李彦宏署名的架构调整信,宣布技术体系架构整合。至此,互联网三巨头BAT均完成了各自的组织架构升级调整。2018年可谓互联网企业的变革之年,除BAT之外,小米、美团、滴滴、ofo、...

    AdolphLWQ 评论0 收藏0
  • 谷歌AutoML凭什么成为“下一代AI黑科技”?

    摘要:今年月,谷歌发布了。在谷歌内部被称为的方法中,一个控制器神经网络可以提出一个子模型架构,然后可以在特定任务中对其进行训练和评估质量。对于整个领域来说,一定是下一个时代发展重点,并且极有可能是机器学习的大杀器。 为什么我们需要 AutoML?在谈论这个问题之前,我们需要先弄清楚机器学习的一般步骤。其实,不论是图像识别、语音识别还是其他的机器学习项目,其结构差别是很小的,一个效果好的模型需要大量...

    fjcgreat 评论0 收藏0

发表评论

0条评论

chuyao

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<