一、摘要
python和java、C++不一样,java一般在进行多项耗时计算时常采用多线程,而python则更适合采用多进程。关于线程和进程的区别,这里不作详细解释。这里介绍一种python开启多进程的方法,使用multiprocessing.Pool进程池。
二、示例
import traceback
from multiprocessing import Pool
import time
def work(province, arr):
#在这里进行复杂或耗时的计算
time.sleep(10)
print(arr)
print(time.strftime("%Y-%m-%d %H:%M:%S"), "finish....", province)
arr.append("新数据:" + province)
return arr
def workMulti(province, arr):
try:
work(province, arr)
except Exception as e:
print('Error: %s' % (province), traceback.print_exc())
if __name__ == '__main__':
provinces = ["北京市", "天津市", "上海市", "重庆市", "河北省",
"河南省", "云南省", "辽宁省", "黑龙江省", "湖南省",
"广西壮族自治区", "广东省", "海南省"]
arr=["原数据"]
po = Pool(processes=5) #允许开几个进程
for province in provinces:
print("Add task:", province)
# 开启进程运行workMulti函数,传入参数province,arr。
# 注意最后一个逗号是必须的,不是多余的
po.apply_async(workMulti, args=(province,arr,))
print("AAA****************************")
po.close() #关闭进程池入口,此后不能再向进程池中添加任务了
print("BBB****************************")
po.join() #阻塞等待,只有进程池中所有任务都完成了才往下执行
print("CCC****************************")
这里开启多进程去简单打印省份,实际应用中只需把复杂或耗时的计算放到work中即可。运行结果如下:
三、注意事项及建议
1、关于进程的开启代码一定要放在if __name__ == '__main__':代码之下,不能放到函数中或其他地方。
2、po.apply_async(workMulti, args=(province,arr,))开启进程调用workMulti,需要几个参数传几个,最后需要加一个逗号,因为其传递的参数是tuple类型。
3、进程之间的参数变量是不共享的, 在某个进程中修改其函数参数, 在其他进程中是不可见的。这里每次打印的都是['原数据']足以说明。
4、进程池接受任务并非阻塞式。这里进程池虽然只开5个,但它可以一次性接受很多任务, 任务的执行由进程池Pool自行安排,这里打印的Add task是连续的,并不需要等待进程池有空进程。
5、这里为何要调用workMulti而不直接调用work?
答:假如work函数中报错,你会发现程序看起来运行正常,你将发现不了错误。通过在workMulti中加入try:...except:...以及traceback.print_exc(),我们可以打印出进程运行的异常。
6、多进程如何接收计算结果?
答:方法1:使用callback回调方法,我没使用过,不详细说明
方法2:在进程中把计算结果保存下来,如保存到数据库或文件,所有进程计算结束后再提取。我多采用这种方法,这种方法在部分进程计算失败后仍然能保留计算成功的那些结果。
7、开启多少个进程合适?
答:看你跑的是什么类型的任务。如果是计算密集型(耗CPU的),建议开启和CPU核心线程数一样的进程,如果同时你还要操作计算机或进行其他任务,那最好再留出一点CPU,不然将会卡死。如果是耗时型(不耗CPU,如网络请求等),可以考虑开多一些进程,不需要考虑CPU核心线程数。