在Thread和Process中,应当优选Process,因为Process更稳定,而且,Process可以分布到多台机器上,而Thread最多只能分布到同一台机器的多个CPU上。

Python的multiprocessing模块不但支持多进程,其中managers子模块还支持把多进程分布到多台机器上。一个服务进程可以作为调度者,将任务分布到其他多个进程中,依靠网络通信。由于managers模块封装很好,不必了解网络通信的细节,就可以很容易地编写分布式多进程程序。

举个例子:如果我们已经有一个通过Queue通信的多进程程序在同一台机器上运行,现在,由于处理任务的进程任务繁重,希望把发送任务的进程和处理任务的进程分布到两台机器上。怎么用分布式进程实现?

原有的Queue可以继续使用,但是,通过managers模块把Queue通过网络暴露出去,就可以让其他机器的进程访问Queue

Python27

mast 端:

#taskmanager.py#!/usr/bin/env pythonimport random, time, Queuefrom multiprocessing.managers import BaseManager task_queue = Queue.Queue()result_queue = Queue.Queue() class QueueManager(BaseManager):    pass QueueManager.register('get_task_queue', callable=lambda: task_queue)QueueManager.register('get_result_queue', callable=lambda: result_queue) manager = QueueManager(address=('127.0.0.1', 5000), authkey='abc')manager.start()task = manager.get_task_queue()result = manager.get_result_queue() for i in range(10):    n = random.randint(0, 10000)    print('Put task %d...' % n)    task.put(n)print('Try get results...')  for i in range(10):    r = result.get(timeout=10)    print('Result: %s' %r)manager.shutdown()

slave端

#task_worker.py#!/usr/bin/env pythonimport time, sys, Queuefrom multiprocessing.managers import BaseManager class QueueManager(BaseManager):    pass QueueManager.register('get_task_queue')QueueManager.register('get_result_queue') server_addr = '127.0.0.1'print('Connect to server %s...' % server_addr)m = QueueManager(address=(server_addr, 5000), authkey='abc')m.connect()task = m.get_task_queue()result = m.get_result_queue() for i in range(10):    try:        n = task.get(timeout=1)        print('run task %d * %d...' % (n, n))        r = '%d * %d = %d' % (n, n, n*n)        time.sleep(1)        result.put(r)    except Queue.Empty:        print('task queue is empty.')print('worker exit.')