線程池的概念是什么?
在面向對象編程中,創建和銷毀對象是很費時間的,因為創建一個對象要獲取內存資源或者其它更多資源。在Java中更是 如此,虛擬機將試圖跟蹤每一個對象,以便能夠在對象銷毀后進行垃圾回收。所以提高服務程序效率的一個手段就是盡可能減少創建和銷毀對象的次數,特別是一些 很耗資源的對象創建和銷毀。如何利用已有對象來服務就是一個需要解決的關鍵問題,其實這就是一些"池化資源"技術產生的原因。
我理解為線程池是一個存放很多線程的單位,同時還有一個對應的任務隊列。整個執行過程其實就是使用線程池中已有有限的線程把任務 隊列中的任務做完。這樣做的好處就是你不需要為每個任務都創建一個線程,因為當你創建第100個線程來執行第100個任務的時候,可能前面已經有50個線 程結束工作了。因此重復利用線程來執行任務,減少系統資源的開銷。
一個不怎么恰當的比喻就是,有100臺電腦主機箱需要從1樓搬到2樓,你不需要喊來100人幫忙搬,你只需要叫十個或者二十個人就足以,每個人分配十個或者五個甚至是誰搬的快誰就多搬知道完成未知。(這個比喻好像。。。。。)
不管如何吧,大體上理解了線程池的概念。那么怎么用python實現呢?
代碼如下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
|
# !/usr/bin/env python # -*- coding:utf-8 -*- # ref_blog:http://www.open-open.com/home/space-5679-do-blog-id-3247.html import Queue import threading import time class WorkManager( object ): def __init__( self , work_num = 1000 ,thread_num = 2 ): self .work_queue = Queue.Queue() self .threads = [] self .__init_work_queue(work_num) self .__init_thread_pool(thread_num) """ 初始化線程 """ def __init_thread_pool( self ,thread_num): for i in range (thread_num): self .threads.append(Work( self .work_queue)) """ 初始化工作隊列 """ def __init_work_queue( self , jobs_num): for i in range (jobs_num): self .add_job(do_job, i) """ 添加一項工作入隊 """ def add_job( self , func, * args): self .work_queue.put((func, list (args))) #任務入隊,Queue內部實現了同步機制 """ 檢查剩余隊列任務 """ def check_queue( self ): return self .work_queue.qsize() """ 等待所有線程運行完畢 """ def wait_allcomplete( self ): for item in self .threads: if item.isAlive():item.join() class Work(threading.Thread): def __init__( self , work_queue): threading.Thread.__init__( self ) self .work_queue = work_queue self .start() def run( self ): #死循環,從而讓創建的線程在一定條件下關閉退出 while True : try : do, args = self .work_queue.get(block = False ) #任務異步出隊,Queue內部實現了同步機制 do(args) self .work_queue.task_done() #通知系統任務完成 except Exception,e: print str (e) break #具體要做的任務 def do_job(args): print args time.sleep( 0.1 ) #模擬處理時間 print threading.current_thread(), list (args) if __name__ = = '__main__' : start = time.time() work_manager = WorkManager( 10 , 2 ) #或者work_manager = WorkManager(10000, 20) work_manager.wait_allcomplete() end = time.time() print "cost all time: %s" % (end - start) |
這個代碼清晰易懂。
整個代碼只有兩個類:WorkManager和Work,前者確實如命名所示,是一個管理者,管理線程池和任務隊列,而后者就是具體的一個線程。
它的整個運行邏輯就是,給WorkManager分配制定的任務量和線程數,然后每個線程都從任務隊列中獲取任務來執行,直到隊列中沒有任務。這里面也用到了Queue內部的同步機制(至于是啥同步機制目前還沒去研究)。
總結一下這樣一個線程池的作用,對于我本來的目的其實這個東西是永不上的,因為我需要在web頁面來控制線程的啟動和停止,而這個線程池看起來只是用來并發完任務的。不過我想雖然在控制線程方面沒有作用,但是它的并發執行任務的作用還是蠻不錯,或許可以用在爬網頁的部分。