摘要:概述随着容器化技术的兴起,数据科学现在最大的一场运动已经不是由一个新的算法或者统计方法发起的了,而是来自的容器化技术。本文将介绍利用容器技术如何加速数据科学在生产环境中的实际应用。
概述
随着容器化技术的兴起,数据科学现在最大的一场运动已经不是由一个新的算法或者统计方法发起的了,而是来自Docker的容器化技术。通常,数据科学被认为研究成果立即应用到生产环境都是比较缓慢的一个过程。本文将介绍利用容器技术如何加速数据科学在生产环境中的实际应用。
瓶颈 1. 环境部署一致性保持数据科学环境一致性通常都是一件异常痛苦的事情,在不同的机器之间同时部署即使是用 Python 的 Conda 和 Virtualenv 或者 R 的 CRAN 和 packrat 的包依赖虚拟化技术,也会遇到不同操作系统(比如 CentOS、Ubuntu、Mac OS、Windows)的底层c库缺失等问题。(国内的现状是很多公司逼迫Data Scientist 变成 DevOps,美其名曰:全栈。。)
2. 服务弹性与性能由于数据科学套件一般比较复杂,从底层的 Hadoop 分布式架构、到顶层的 Shiny Server,这一系列服务的智能运维部署都是一个问题。尤其是 Shiny Server 的开源版本现在默认是只支持单机单线程的处理(其实就是nodejs内核),通常每次请求处理只是在几毫秒之间。这对于一个小应用一般并不会出现太问题,不过更常见的场景是我们需要在生产环境上部署高性能的 shiny server,此时 shiny server 的单机性能就成了一个问题。
解决方案事实上,容器同时为加速数据科学的应用提供了一揽子解决方案:
将复杂的环境依赖化繁为简
简化集群配置与管理的复杂度
标准交付、研究结果可重复、便于成果分享
快速部署、快速扩展
明确运维、开发职责
为什么使用容器 可重复研究一方面,容器就像一个轻量级的虚拟机,当我们启动虚拟机的时候通常都要花几分钟,但是Docker容器通常只要几毫秒就启动了。因此,你跑容器和跑本地应用从速度上来讲基本没什么差。每次我们跑容器,容器的环境都是标准化的,这也意味着它为我们带来了可重复性研究的机会。这些容器可以一致部署在 Mac、Windows、Linux 上,因此协同共享变得非常得简单。
无状态研究对于个人而言,好处之一就是减少了R、Python生态组件安装时带来的痛苦。如果你在容器中使用Python或R,之前所有的环境一致性问题就都灰飞烟灭了。如果我们使用容器技术,就可以在容器中肆无忌惮地使用新包,因为即使出现意外导致容器不可用了,我们只需要重跑一个容器就可以了。
弹性高可用另一方面,对于整个数据科学套件而言,在架构上越来越流行微服务对原来SOA的架构进行进一步解耦,以便于每一个模块可以独立迭代,小步快跑。而容器技术基于轻量级的进程,使得我们可以快速扩展计算资源实现分布式计算并且轻松管理。
以 Shiny-Server 为例,吐槽Shiny-Server的单机能力其实没什么意义,这就好像你在吐槽tornado和nodejs的性能不行?但是明明这两个Web框架就是根据Epoll的IO复用,故意设计成异步单线程的模型来应对高并发业务场景的,正确的使用姿势其实是搭配 Nignx反向代理 + Supervisor + 多个服务器实例。如果是 Tornado、Nodejs 跑单个服务也跪了,那Python和JS又得躺枪。Docker化之后,这些都可以一起用docker-compose.yml的配置文件来描述,然后一键启动整个集群服务,这样一来就获得了商用版本的Shiny-Server的主要特性了。
和运维划清界限在实际生产中,使用Docker之后,运维只需要定义好基本的镜像的Dockerfile,而不用处理具体的开发产生的依赖包问题。数据部门可以引用运维提供的基础镜像,在此基础上自行添加需要的依赖包。一面解脱了运维不必要的负担,另一方面也提升数据部门对项目的掌控力,从而提升整个团队的效率。
数据科学镜像 R + Docker = RockerRocker 是一个组织管理R语言Docker镜像的项目。Rocker提供了一系列用于不同场景下的R 镜像。
这些镜像是构建在 Debian OS的基础之上的,基础镜像由r-base(通用),r-devel(开发者),rstudio(含rstuido服务器)这三类构成。
用例镜像有:
hadleyverse镜像:包含了hadley大人所经营的rstudio开发的相关R包,包括rmarkdown、 pandoc、knitr、shiny、ggplot2、 dplyr、 tidyr、devtools、 httr 等等,这基本可以满足大多数人的需求。
ropensci镜像:在hadleyverse的基础上,又扩展了 rOpenSci 项目所涉及的包,让各领域的数据科学研究如虎添翼。
社区镜像则包括:
r-java镜像:在r-base基础上加入了 Java 8 和 rJava包,用来和java做各种交互。
r-pandoc镜像: 在r-base基础上加入了 pandoc,主要用来写作。
r-ssh镜像:在r-base基础上加入了 SSH客户端,让我们可以通过SSH登陆到这个R容器中。
除了 Rocker 之外,我们还可以使用一些其他第三方镜像:
docker-mro镜像 通过微软的Open R 优化 R 底层的矩阵运算,自动利用起多CPU的计算性能。
shrektan/shiny 镜像 自带了 Shiny-server和rstudio以及其他常见R包,用来部署服务器非常方便。
依赖于这些开源镜像,我们就可以快速组合镜像搭建所需要的R语言计算环境,并且不会因为每台电脑的操作系统不一样而产生一些不必要的问题。
Pythonjupyter 为Python科学计算环境虚拟化提供了诸多镜像,我们可以根据不同的需要选择相应的镜像。
all-spark-notebook
base-notebook
datascience-notebook
minimal-notebook
pyspark-notebook
scipy-notebook
基本上我们在科学计算环境中用到的包都可以在这里找到,如果需要安装更多的包,我们亦可以直接在notebook中输入,比如
%% bash conda install financer
正确安装后,直接重启内核即可。不过因为容器的无状态,所以还是建议大家在Dockerfile里面修改,或者在conda安装之后包后,自行docker commit来持久化镜像。
一揽子解决方案阿里云其实为为数据科学还提供了一揽子解决方案,执行下面命令,你可以把科学计算全套带回家。
docker pull registry.aliyuncs.com/alicloudhpc/toolkit
其中包含了
图像识别:OpenCV
机器学习工具:Cuda、Theano、R、Caffe等等
数值计算:Numpy、Scipy、OpenBLAS、Octave
配置和监控:lspci、numactl、perf、iostat、netstat
开发工具:Gcc/g++、JDK、CUDA、 OpenMPI 、OpenCL、 Python 、Lua
自行脑补一下自己为了"深度学习"在一台ubuntu上安装一天都没搞定和这里一键搞定的差距。。
实战现实并不完美,对于这些固有的镜像,我们需要如何定制呢?其实,我们可以去查看这些开源镜像都是通过Dockerfile制作的。通过修改 Dockerfile,我们就可以根据自己的需要重新建立一些私有镜像,然后上传到公有或私有的Registry上和其他人共享镜像了。
由于国情问题,在制作容器的时候,我们最好修改一下我们的apt-get源(科学计算推崇操作系统使用 Ubuntu14.04 或 Debian)。
cp /etc/apt/sources.list /etc/apt/sources.list.back vi /etc/apt/sources.list
deb http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty main multiverse restricted universe deb http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-backports main multiverse restricted universe deb http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-proposed main multiverse restricted universe deb http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-security main multiverse restricted universe deb http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-updates main multiverse restricted universe deb-src http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty main multiverse restricted universe deb-src http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-backports main multiverse restricted universe deb-src http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-proposed main multiverse restricted universe deb-src http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-security main multiverse restricted universe deb-src http://mirrors.tuna.tsinghua.edu.cn/ubuntu/ trusty-updates main multiverse restricted universe
R 则中可以通过参数修改CRAN源:
install.packages("some_pakcage",repos="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")
Python的conda源则可以这样修改:
%% bash conda config --add channels "https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/" conda config --set show_channel_urls yes
这样一来我们的整个容器的包管理加载速度就可以有一个质的提升。
文末放一个 Minecraft 版本的 Docker管理器,仅供娱乐。
Docker 速查表
Scaling and Performance Tuning with shinyapps.io
How to get started with data science in containers
Docker: Data Science Environment with Jupyter
The Real Value of Containers for Data Science
清华大学 TUNA 镜像源
Start doing data science in minutes
Linkedin Slides: Docker for data science
wiseio/datascience-docker
Strata 2016: Docker for Data Scientists
Introducing Rocker: Docker for R
Jupyter Notebook Data Science Stack
写给Python数据科学家们 : 科学计算开发环境排雷
Dockercraft
aliyun 机器学习套装
阿里云Docker学习资料
为什么容器技术将主宰世界
容器化的数据科学与工程
Containerized Data Science and Engineering - Part 1, Dockerized Data Pipelines
liftr:Dockerize R Markdown Documents CRAN
BioC2015:nan xiao
Dockerizing a Shiny App
更优阅读体验可直接访问原文地址:https://segmentfault.com/a/11...
作为分享主义者(sharism),本人所有互联网发布的图文均遵从CC版权,转载请保留作者信息并注明作者 Harry Zhu 的 FinanceR专栏:https://segmentfault.com/blog...,如果涉及源代码请注明GitHub地址:https://github.com/harryprince。微信号: harryzhustudio
商业使用请联系作者。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/37989.html
摘要:概述随着容器化技术的兴起,数据科学现在最大的一场运动已经不是由一个新的算法或者统计方法发起的了,而是来自的容器化技术。本文将介绍利用容器技术如何加速数据科学在生产环境中的实际应用。 showImg(https://segmentfault.com//img/bVxzYL); 概述 随着容器化技术的兴起,数据科学现在最大的一场运动已经不是由一个新的算法或者统计方法发起的了,而是来自Doc...
摘要:而大多数数据科学研究的场景下,更快的速度也意味着更早地发现问题和完成检验假设的闭环。通常,数据科学被认为研究成果立即应用到生产环境都是比较缓慢的一个过程。 showImg(https://segmentfault.com/img/remote/1460000005771293); 概述 在数据科学研究中,快速验证想法是非常关键的一环,而如何快速开发出数据产品则可以有效推动整个数据科学项...
摘要:而大多数数据科学研究的场景下,更快的速度也意味着更早地发现问题和完成检验假设的闭环。通常,数据科学被认为研究成果立即应用到生产环境都是比较缓慢的一个过程。 showImg(https://segmentfault.com/img/remote/1460000005771293); 概述 在数据科学研究中,快速验证想法是非常关键的一环,而如何快速开发出数据产品则可以有效推动整个数据科学项...
摘要:对于数据科学的研究可以说已经是本文我将介绍如何以文档定义应用的方式成为数据科学中的标准交付。参考前文解密的数据科学部门如果构建知识仓库,作为一个谢大大的死忠,我很自然选择了作为我文档输出的首选工具。 showImg(https://segmentfault.com/img/remote/1460000006760433?w=423&h=426); 概述 随着近年来,Rstudio 通过...
摘要:概述工欲善其事必先利其器,如果现在要评选数据科学中最好用的编辑器注意一定是可以通过访问的,和一定是角逐的最大热门,正确使用编辑器可以很大地提升我们的工作效率。 概述 showImg(https://segmentfault.com/img/bVAdol); 工欲善其事必先利其器,如果现在要评选数据科学中最好用的Web 编辑器(注意一定是可以通过Web访问的),RStudio和Jupyt...
阅读 3572·2021-10-11 10:59
阅读 1591·2021-09-29 09:35
阅读 2259·2021-09-26 09:46
阅读 3770·2021-09-10 10:50
阅读 952·2019-08-29 12:17
阅读 821·2019-08-26 13:40
阅读 2433·2019-08-26 11:44
阅读 2103·2019-08-26 11:22