资讯专栏INFORMATION COLUMN

Python中编写并发程序

_ipo / 3324人阅读

摘要:在中由于历史原因使得中多线程的效果非常不理想使得任何时刻只能利用一个核并且它的调度算法简单粗暴多线程中让每个线程运行一段时间然后强行挂起该线程继而去运行其他线程如此周而复始直到所有线程结束这使得无法有效利用计算机系统中的局部性频繁的线程切换

GIL

在Python中,由于历史原因(GIL),使得Python中多线程的效果非常不理想.GIL使得任何时刻Python只能利用一个CPU核,并且它的调度算法简单粗暴:多线程中,让每个线程运行一段时间t,然后强行挂起该线程,继而去运行其他线程,如此周而复始,直到所有线程结束.

这使得无法有效利用计算机系统中的"局部性",频繁的线程切换也对缓存不是很友好,造成资源的浪费.

据说Python官方曾经实现了一个去除GIL的Python解释器,但是其效果还不如有GIL的解释器,遂放弃.后来Python官方推出了"利用多进程替代多线程"的方案,在Python3中也有concurrent.futures这样的包,让我们的程序编写可以做到"简单和性能兼得".

多进程/多线程+Queue

一般来说,在Python中编写并发程序的经验是:计算密集型任务使用多进程,IO密集型任务使用多进程或者多线程.另外,因为涉及到资源共享,所以需要同步锁等一系列麻烦的步骤,代码编写不直观.另外一种好的思路是利用多进程/多线程+Queue的方法,可以避免加锁这样麻烦低效的方式.

现在在Python2中利用Queue+多进程的方法来处理一个IO密集型任务.
假设现在需要下载多个网页内容并进行解析,单进程的方式效率很低,所以使用多进程/多线程势在必行.
我们可以先初始化一个tasks队列,里面将要存储的是一系列dest_url,同时开启4个进程向tasks中取任务然后执行,处理结果存储在一个results队列中,最后对results中的结果进行解析.最后关闭两个队列.

下面是一些主要的逻辑代码.

python# -*- coding:utf-8 -*-

#IO密集型任务
#多个进程同时下载多个网页
#利用Queue+多进程
#由于是IO密集型,所以同样可以利用threading模块

import multiprocessing

def main():
    tasks = multiprocessing.JoinableQueue()
    results = multiprocessing.Queue()
    cpu_count = multiprocessing.cpu_count()  #进程数目==CPU核数目

    create_process(tasks, results, cpu_count)   #主进程马上创建一系列进程,但是由于阻塞队列tasks开始为空,副进程全部被阻塞
    add_tasks(tasks)  #开始往tasks中添加任务
    parse(tasks, results)  #最后主进程等待其他线程处理完成结果


def create_process(tasks, results, cpu_count):
    for _ in range(cpu_count):
        p = multiprocessing.Process(target=_worker, args=(tasks, results)) #根据_worker创建对应的进程
        p.daemon = True  #让所有进程可以随主进程结束而结束
        p.start() #启动

def _worker(tasks, results):
    while True:   #因为前面所有线程都设置了daemon=True,故不会无限循环
        try:
            task = tasks.get()   #如果tasks中没有任务,则阻塞
            result = _download(task)
            results.put(result)   #some exceptions do not handled
        finally:
            tasks.task_done()

def add_tasks(tasks):
    for url in get_urls():  #get_urls() return a urls_list
        tasks.put(url)

def parse(tasks, results):
    try: 
        tasks.join()
    except KeyboardInterrupt as err:
        print "Tasks has been stopped!"
        print err

    while not results.empty():
        _parse(results)



if __name__ == "__main__":
    main()

利用Python3中的concurrent.futures包

在Python3中可以利用concurrent.futures包,编写更加简单易用的多线程/多进程代码.其使用感觉和Java的concurrent框架很相似(借鉴?)
比如下面的简单代码示例

pythondef handler():
    futures = set()

    with concurrent.futures.ProcessPoolExecutor(max_workers=cpu_count) as executor:
        for task in get_task(tasks):
            future = executor.submit(task)
            futures.add(future)

def wait_for(futures):
    try:
        for future in concurrent.futures.as_completed(futures):
            err = futures.exception()
            if not err:
                result = future.result()
            else:
                raise err
    except KeyboardInterrupt as e:
        for future in futures:
            future.cancel()
        print "Task has been canceled!"
        print e
    return result
总结

要是一些大型Python项目也这般编写,那么效率也太低了.在Python中有许多已有的框架使用,使用它们起来更加高效.
但是自己的一些"小打小闹"的程序这样来编写还是不错的.:)

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/45376.html

相关文章

  • python基础教程:异步IO 之 API

    摘要:具有以下基本同步原语子进程提供了通过创建和管理子进程的。虽然队列不是线程安全的,但它们被设计为专门用于代码。表示异步操作的最终结果。 Python的asyncio是使用 async/await 语法编写并发代码的标准库。通过上一节的讲解,我们了解了它不断变化的发展历史。到了Python最新稳定版 3.7 这个版本,asyncio又做了比较大的调整,把这个库的API分为了 高层级API和...

    vboy1010 评论0 收藏0
  • Python并发处理之使用asyncio包

    摘要:并发用于制定方案,用来解决可能但未必并行的问题。在协程中使用需要注意两点使用链接的多个协程最终必须由不是协程的调用方驱动,调用方显式或隐式在最外层委派生成器上调用函数或方法。对象可以取消取消后会在协程当前暂停的处抛出异常。 导语:本文章记录了本人在学习Python基础之控制流程篇的重点知识及个人心得,打算入门Python的朋友们可以来一起学习并交流。 本文重点: 1、了解asyncio...

    tuniutech 评论0 收藏0
  • Python

    摘要:最近看前端都展开了几场而我大知乎最热语言还没有相关。有关书籍的介绍,大部分截取自是官方介绍。但从开始,标准库为我们提供了模块,它提供了和两个类,实现了对和的进一步抽象,对编写线程池进程池提供了直接的支持。 《流畅的python》阅读笔记 《流畅的python》是一本适合python进阶的书, 里面介绍的基本都是高级的python用法. 对于初学python的人来说, 基础大概也就够用了...

    dailybird 评论0 收藏0
  • Python Process/Thread 概念整理

    摘要:每个在同一时间只能执行一个线程在单核下的多线程其实都只是并发,不是并行,并发和并行从宏观上来讲都是同时处理多路请求的概念。在多线程下,每个线程的执行方式获取执行代码直到或者是虚拟机将其挂起。拿不到通行证的线程,就不允许进入执行。 进程与线程 并发与并行 进程与线程   首先要理解的是,我们的软件都是运行在操作系统之上,操作系统再控制硬件,比如 处理器、内存、IO设备等。操作系统为了向上...

    Youngs 评论0 收藏0
  • 编写一个并发性能测试的小程序

    摘要:并发线程测试循环新建线程类,并在线程体内塞入单个的测试用例,以及全局的计数类。为了让性能测试更充分,我编写了不同的计算过程,并使用随机函数随机获取并塞入线程执行。 ...

    Michael_Lin 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<