资讯专栏INFORMATION COLUMN

Docker Swarm在生产环境中的进阶指南

galaxy_robot / 3073人阅读

摘要:应该如何解决本文将给出若干提示,如何在生产环境中使用。路由匹配服务发现负载均衡跨容器通讯非常可靠。在单个端口上运行一个服务,节点的任意主机都可以访问,负载均衡完全在后台实现。

上周数人云给大家分享了——《你可能需要的关于Docker Swarm的经验分享》今天给大家带来这位作者大大的后续文章——《Docker Swarm在生产环境中的进阶指南》

当在本地开发环境中使用Docker,或者已经在单台生产服务器上部署Docker,却发现它不足以支撑更多的流量。应该如何解决?本文将给出若干提示,如何在生产环境中使用Docker Swarm。

附:如果对Swarm不熟悉,请查看之前的文章《你可能需要知道的关于Docker Swarm的经验分享》

阅读官方文档

这里不重复官方Swarm的入门教程和文档。入门教程很简短,它会让你明白Swarm是如何工作的。这里也不讲解设置和部署Swarm环境,网上有很多初级的教程,可供参考如——

Digitalocean上的教程 :(https://www.digitalocean.com/...)

或者google搜索相关教程。

附:一个牛X的: Ansible role (
https://galaxy.ansible.com/at...

Docker Swarm用法实例

就观察而言,用于Swarm内部信息共享和调度的Cpu开销确实很低。得益于此,管理节点同时也可以是工作节点。如果要跑一个1000+个节点的大集群,管理节点开销需要非常多的资源,但当集群是小规模到中等规模时,这种资源消耗和开销是可以忽略不计的。参考这里——
(https://sematext.com/blog/201...)Swarm3k, 一个运行4700个节点的集群实验。

路由匹配(服务发现、负载均衡、跨容器通讯)非常可靠。在单个端口上运行一个服务,Swarm节点的任意主机都可以访问,负载均衡完全在后台实现。之前遇到过一些难题,但使用Docker1.13版本后,问题得到解决。

在配置初始化完成后,只需要几行命令作为日常运维。下面是日常使用的命令:

# let"s create new service  创建一个新的服务
docker service create   
  --image nginx 
  --replicas 2 
  nginx 

# ... update service ...   更新服务
docker service update   
  --image nginx:alpine 
  nginx 

# ... and remove   删除服务
docker service rm nginx

# but usually it"s better to scale down 但是更好的办法是缩容,而不是直接删除服务
docker service scale nginx=0

# you can also scale up   扩容
docker service scale nginx=5

# show all services 列出所有的服务
docker service ls

# show containers of service with status   列出一个服务的所有实例(包括服务的健康状况)
docker service ps nginx

# detailed info  服务的详细信息
docker service inspect nginx

服务零宕机,是完美的持续部署方案。

# lets build new version and push to the registry 创建新版本的镜像,并且推送到registry
docker build -t hub.docker.com/image .  
docker push hub.docker.com/image

# and now just update (on a master node) 现在更新服务(在master节点上)
docker service update --image hub.docker.com/image service

易于启动:分布式系统本身就很复杂。相比于其他解决方案(Mesos, Kubernetes), Swarm简单易学,即便无任何Swarm的知识,从单台服务器Docker-compose方式的部署,扩展到20台服务器,分布式可伸缩的解决方案,也只需要大约一周。

无需修改。容器实例同时跑在多台服务器上。修改任何东西,需要打包一个新的镜像,适当的测试和部署是成功的关键。

Docker Swarm上的容器选择
并不是所有的应用都适合跑在Docker swarm上,比如,数据库和一些有状态的服务。

从理论上而言,可以使用标签的方式固定某个容器跑在某个特定的资源上,但是,更难的是从Swarm集群外部来访问这个容器提供的服务。(在Docker1.12版本里面没有简单的方式来实现,在Docker1.13+版本可以使用附加的Overlay 网络模式)。

比如,想开放一个数据库服务给外部访问,让外部所有节点都可以访问数据库,但是这不是真正想要实现的结果(只想让特定节点访问数据库)

又如,Swarm里面的跨主机存储卷挂载几个月之前还不可靠,用户上传文件这样简单的操作也会引发问题。

适用于容器化的是那些由环境变量驱动无状态的应用容器。是时候准备自己使用过的开源软件Docker镜像了,例如配置完善的Nginx镜像。

跑在swarm上的服务

web服务器(Django channels - Daphne and workers)

反向代理(Nginx)

Periodic workers (Celery)

指标收集器 (Sensu)

不跑在swarm上的容器

数据库(Postgres)

Redis

由于获取真实IP的问题(https://github.com/moby/moby/...),也会把Sginx多带带移出来不跑在Swarm模式下,至少应该使用Nost网络模式,但在Docker 1.12版本下,这是唯一的选择。

设置好Docker仓库

Docker仓库或是自己的服务器,也许是Dockerhub、 Gitlab.com(作者选择这个)此类。在服务器上创建镜像已经不适用了,因为有太多服务器且在创建服务时( Docker service create)要指明镜像。如果仓库是私有仓库,记得增加--with-registry-auth 这个参数,否则其他节点无法拉取镜像。同时应该使用Tag来标明发布的版本号,这样发现问题时可以快速回滚。

改造无状态化应用容器

“部分有状态”是指有一些共享而不重要的文件。可以尝试使用共享存储卷挂载,更好的方法是迁移到亚马逊S3或者其他云存储。记住,扩张的时候,云是最佳选择。

如例子中,不得不创建自己有合适参数的Nginx镜像。通过共享存储卷挂载在以前非常不可靠、不方便。

准备日志收集服务

集中式的日志和指标是使用分布式文件系统的必须项,如ELK,Graphana,Graylog 等等。

这里有许多可选项,有开源项目,也有SaaS类服务。这些打造和整合成可靠的服务是复杂且艰难的。建议先使用云端服务(如Loggly, Logentries), 当成本上涨的时候,再开始架设自己的日志收集服务。
例:ELK 栈日志处理配置:

docker service update   
  --log-driver gelf 
  --log-opt gelf-address=udp://monitoring.example.com:12201 
  --log-opt tag=example-tag 
  example-service
创建可附加的网络

记得使用它,否则无法在Docker Swarm下一条命令跑起一个容器。这是Docker1.13+新功能。如果使用旧版本的Docker, 最好升级下。

代码:

docker network create --driver=overlay --attachable core
增加环境变量

如果创建Docker镜像的时候,遵循了最佳实践原则(https://rock-it.pl/how-to-wri...),允许在运行的时候通过环境变量设置一切配置项,那么把应用迁到Swarm的过程完全没有问题。

例,有用的命令:

docker service create   
  --env VAR=VALUE 
  --env-file FILENAME 
  ...

docker service update   
  --env-add VAR=NEW_VALUE 
  --env-rm VAR 
  ..

下一个级别就是使用非公开的API挂载文件像挂载秘钥那样(Authorized keys, SSL certs 等)。作者暂时还未使用此功能,不能详述,但这个功能特性绝对值得思考和使用。

设置适当实例和批量更新

保持适当数量的实例,以应对高流量和实例或者节点不可用的情况。同时太多的实例数也会占用CPU和内存,并且导致争抢CUP资源。

update-parallelism的默认值是1,默认只有一个实例在运行。但这个更新速度太慢了,建议是 replicas / 2。

相关命令:

docker service update   
  --update-parallelism 10 
  webapp

# You can scale multiple services at once
docker service scale redis=1 nginx=4 webapp=20

# Check scaling status
docker service ls

# Check details of a service (without stopped containers)
docker service ps webapp | grep -v "Shutdown"
把Swarm配置保存为代码

最好使用Docker Compose v3版本的语法(https://docs.docker.com/compo...)。

他允许使用代码指定几乎所有的服务选项。作者在开发的时候使用 Docker-compose.yml,在生产环境(swarm)配置使用 Docker-compose.prod.yml . 部署Docker-compose文件中所描述的服务,需要Docker stack deploy 命令(属于新版本 Stack命令集合中的一部分[https://docs.docker.com/engin...)

Docker compose v3例子:

# docker-compose.prod.yml
version: "3"  
services:  
  webapp:
    image: registry.example.com/webapp
    networks:
      - ingress
    deploy:
      replicas: ${WEBAPP_REPLICAS}
      mode: replicated
      restart_policy:
        condition: on-failure

  proxy:
    image: registry.example.com/webapp-nginx-proxy
    networks:
      - ingress
    ports:
      - 80:80
      - 443:443
    deploy:
      replicas: ${NGINX_REPLICAS}
      mode: replicated
      restart_policy:
        condition: on-failure

networks:  
  ingress:
    external: true

部署的例子(创建或者更新服务):

export NGINX_REPLICAS=2 WEBAPP_REPLICAS=5

docker login registry.example.com  
docker stack deploy   
  -c docker-compose.prod.yml
  --with-registry-auth 
  frontend

提示:Docker-compose文件支持环境变量 (${VARIABLE}), 所以,可以动态调整配置作为测试等。

设置限制

就经验而言,可以为所有服务设置CPU使用限制。当某一个容器应用占用掉所有主机资源时,此限制可以避免这种情况发生。

当想把所有容器均匀地发布在所有主机上或是想确保有足够的资源来响应操作时,需使用Reserve-cpu这个参数。

例如:

docker service update  
  --limit-cpu 0.25
  --reserve-cpu 0.1
  webapp
监控连接

曾经在Swarm网络上遇到过一些问题。很多次所有的流量都被路由到同一个容器实例上,而同时有9个容器实例正常且健康的。这种情况下——即流量持续导到一个实例上,做扩容或者缩容操作的时候,加上这个参数--endpoint-mode 。

在没有适当的集中式日志时,要发现这个问题还真不容易。

原文作者:Jakub Skałecki

原文链接: https://rock-it.pl/my-experie...

欢迎关注数人云微信公众号,如有后续文章,我们会在第一时间进行跟进。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/26895.html

相关文章

  • 代码级干货 | 进阶Docker 1.12,全新的分布式应用捆绑包

    摘要:利用分布式应用捆绑包简称部署服务相较于利用大量参数创建网络及服务,这里我们选择使用一个文件。 在Docker 1.12版本中,全新的Swarm捆绑包相较于原有编排及调度机制做出了巨大改进。它不再需要运行一组独立的Swarm容器,这部分容器已经被直接捆绑在Docker Engine当中,故障转移策略更为可靠,服务发现机制实现内置,新的网络功能极为顺畅……看起来很棒是不是? 数人云这...

    2i18ns 评论0 收藏0
  • 生产环境中使用Docker Swarm的一些建议

    摘要:译者按实践中会发现,生产环境中使用单个节点是远远不够的,搭建集群势在必行。集群的网络通信服务发现,负载均衡以及容器间通信非常可靠。负载均衡也是由提供的。 译者按: 实践中会发现,生产环境中使用单个Docker节点是远远不够的,搭建Docker集群势在必行。然而,面对Kubernetes, Mesos以及Swarm等众多容器集群系统,我们该如何选择呢?它们之中,Swarm是Docker原...

    loonggg 评论0 收藏0
  • Docker 实践(五):生产环境容器化

    摘要:不要用百度搜索中文资料,一定要看最新的英文资料。感谢感谢能容忍我无数次搞挂生产环境的老板。群蜗牛大神所建中文交流群,基本配置过程中遇到的问题都能得到解决。 前言 最近花了将近一个月的时间研究了 Docker 在生产环境中的使用,作为新手,期间走了无数的弯路,这里纪录一下,希望给别人带来微小的帮助。 前面几部分,介绍了在搭建集群之前需要做的一些工作,后面 一块结合实际应用,介绍如何架构...

    sydMobile 评论0 收藏0
  • 代码级操作指南 | 如何Docker Swarm中运行服务

    摘要:节点管理器将利用该声明该集群服务。在本示例当中,我们将部署一项服务。此标记用于告知公布端口作为该服务的可用端口。将此称为入口负载均衡。当外部系统调用某项服务时,接收节点会接受流量并利用提供的内部服务对其进行负载均衡。 最新版本Docker Engine v1.12中,包含了多项与Docker Swarm紧密相关的功能变更。在今天的文章中,数人云将和大家探讨如何利用Docker的Swar...

    Winer 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<