资讯专栏INFORMATION COLUMN

在阿里云Kubernetes容器服务上打造TensorFlow实验室

raise_yang / 659人阅读

摘要:准备环境阿里云容器服务目前已经上线,但是购买按量付费的计算型服务器需要申请工单开通。总结我们可以利用阿里云容器服务,轻松的搭建在云端搭建的环境,运行深度学习的实验室,并且利用追踪训练效果。

摘要: 利用Jupyter开发TensorFLow也是许多数据科学家的首选,但是如何能够快速从零搭建一套这样的环境,并且配置GPU的使用,同时支持最新的TensorFLow版本, 对于数据科学家来说既是复杂的,同时也是浪费精力的。

简介

TensorFLow是深度学习和机器学习最流行的开源框架,它最初是由Google研究团队开发的并致力于解决深度神经网络的机器学习研究,从2015年开源到现在得到了广泛的应用。特别是Tensorboard这一利器,对于数据科学家有效的工作也是非常有效的利器。

Jupyter notebook是强大的数据分析工具,它能够帮助快速开发并且实现机器学习代码的共享,是数据科学团队用来做数据实验和组内合作的利器,也是机器学习初学者入门这一个领域的好起点。

利用Jupyter开发TensorFLow也是许多数据科学家的首选,但是如何能够快速从零搭建一套这样的环境,并且配置GPU的使用,同时支持最新的TensorFLow版本, 对于数据科学家来说既是复杂的,同时也是浪费精力的。在阿里云的Kubernetes集群上,您可以通过简单的按钮提交创建一套完整的TensorFlow实验环境,包括Jupyter Notebook开发模型,利用Tensorboard调整模型。

准备Kubernetes环境

阿里云容器服务Kubernetes 1.9.3目前已经上线,但是购买按量付费的GPU计算型服务器需要申请ECS工单开通。具体创建过程,可以参考创建Kubernetes集群。

体验通过应用目录部署TensorFlow实验室

通过Helm部署MPI的应用,本文以openmpi为例,向您展示如何快速在容器服务上运行MPI应用。实际上如果需要换成其他MPI实现只需要替换镜像即可。

2.1 可以通过应用目录,点击ack-tensorflow-dev

2.2 点击参数, 就可以通过修改参数配置点击部署

这里的密码是tensorflow, 您也可以改成您自己设定的密码

也可以登录到Kubernetes master运行以下命令

$ helm install --name tensorflow incubator/ack-tensorflow

2.3 运行结束后可以登录到控制台,查看tensorflow应用启动的状态

登录使用TensorFlow实验环境
首先通过ssh登录Kubernetes集群,查看tensorflow应用列表

$ helm list
NAME          REVISION    UPDATED                     STATUS      CHART                       NAMESPACE
tensorflow    1           Thu Apr 12 07:54:59 2018    DEPLOYED    ack-tensorflow-dev-0.1.0    default

利用helm status检查应用配置

$ helm status tensorflow
LAST DEPLOYED: Thu Apr 12 07:54:59 2018
NAMESPACE: default
STATUS: DEPLOYED

RESOURCES:
==> v1/Service
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
tensorflow-ack-tensorflow-dev LoadBalancer 172.19.2.39 10.0.0.1 6006:32483/TCP,80:32431/TCP 13m

==> v1beta2/Deployment
NAME DESIRED CURRENT UP-TO-DATE AVAILABLE AGE
tensorflow-ack-tensorflow-dev 1 1 1 1 13m

NOTES:

Get the application URL by running these commands:
NOTE: It may take a few minutes for the LoadBalancer IP to be available.

     You can watch the status of by running "kubectl get svc -w tensorflow-ack-tensorflow-dev"

export SERVICE_IP=$(kubectl get svc --namespace default tensorflow-ack-tensorflow-dev -o jsonpath="{.status.loadBalancer.ingress[0].ip}")
echo http://$SERVICE_IP:

这里可以看到外部SLB的ip是10.0.0.1, Jupyter Notebook的端口为80, Tensorboard为6006。

通过Jupyter访问端点登录,本示例中Jupyter的访问地址是http://10.0.0.1, 输入前面设定的密码点击登录, 在本示例中我们设定的是tensorflow

点击Terminal按钮

在Terminal内执行nvidia-smi, 可以看到GPU的配置

通过git命令下载tensorflow样例代码,

$ git clone https://code.aliyun.com/kuber...

回到主页您就能看到Tensorflow-Examples已经下载到了您的工作目录

进入到 http://10.0.0.1/notebooks/Ten... 运行程序

注意:如果您需要用Tensorboard观测训练效果请将日志记录到/output/training_logs下。

以下为训练结果输出

这时您可以登录Tensorboard查看训练效果, 本示例中Tensorboard的地址为http://10.0.0.1:6006 。 这里您可以看到模型的定义和训练的收敛趋势。

总结

我们可以利用阿里云Kubernetes容器服务,轻松的搭建在云端搭建TensorFlow的环境,运行深度学习的实验室,并且利用TensorBoard追踪训练效果。欢迎大家使用阿里云上的GPU容器服务,在使用GPU高效计算的能力同时,比较简单和快速的开始模型开发工作。

原文链接

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/19731.html

相关文章

  • 阿里LC3大会透露未来要做的两件事

    摘要:阿里云弹性计算作为计算能力的基础,今年做的最重要的件事。未来阿里云将在这两件事上,不断发力,将普惠的云真正的带给大家。 摘要: 阿里云研究员褚霸在LC3大会上同多位业界资深大咖同台交流表示,阿里云发展到今天,把过去应对淘宝、天猫大规模计算以及双11的计算能力转换成普惠的能力放在云上,这是一个非常大的挑战,也是其他厂商没有经历过的。这些挑战不断帮助阿里云积累经验,提升技术能力。 6月25...

    ermaoL 评论0 收藏0
  • 剑指Kubernetes 揭秘腾讯的PaaS技术选型策略

    摘要:腾讯云在年底决定开发容器产品随后组建容器技术团队并进行技术选型通过对不同编排工具的分析对比最终选择作为容器编排引擎并且迅速在年初推出容器解决方案为用户提供托管的一站式服务。但是腾讯云最终选择了现在看来这个选择无比正确。Kubernetes 很火,一大批互联网公司早已领先一步,搭建起专有的 PaaS平台,传统企业们看到的 Kubernetes的趋势,亦不甘落后,在试水的道上一路狂奔。虽然,Ku...

    icattlecoder 评论0 收藏0
  • 推进企业容器化持续创新,Rancher ECIC千人盛典完美收官

    摘要:年月日,由以下简称主办的第三届企业容器创新大会以下简称在北京喜来登大酒店盛大举行。在未来,希望能为中国用户带来更多更实用的容器技术,推动中国企业容器化的持续创新。 2019年6月20日,由Rancher Labs(以下简称Rancher)主办的第三届企业容器创新大会(Enterprise Container Innovation Conference, 以下简称ECIC)在北京喜来登大...

    mengbo 评论0 收藏0
  • CloudBest:年度复盘丨盘点2020无处不的「原生」

    摘要:华为云华为云在云原生这场游戏中,最具竞争力的玩家之一。年,金山云在云原生领域推出了三款重磅产品星曜裸金属服务器云服务器和云盘。在线上智博会上,浪潮云发布了经过全新迭代升级的浪潮云,进一步提升平台云原生服务能力。面对数字时代复杂系统的不确定性,传统的 IT 应用架构研发交付周期长、维护成本高、创新升级难,烟囱式架构,开放性差、组件复用度低,这些都成为了企业业务快速增长的瓶颈。而云原生以其敏捷、...

    Tecode 评论0 收藏0
  • 利用K8S技术栈打造个人私有(连载之:K8S资源控制)

    摘要:将用户命令通过接口传送给,从而进行资源的增删改等操作。要使用编写应用程序,当下大多语言都可以很方便地去实现请求来操作的接口从而控制和查询资源,但本文主要是利用已有的客户端来更加优雅地实现的资源控制。 showImg(https://segmentfault.com/img/remote/1460000013517345); 【利用K8S技术栈打造个人私有云系列文章目录】 利用K8S...

    Reducto 评论0 收藏0

发表评论

0条评论

raise_yang

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<