在閱讀關於 python multi-thread(多執行緒)、multi-process(多行程)及GIL的相關文章時,突然想到在公司寫的一個 script。
這 script需要使用同個 api發送不同參數的HTTP request,一開始的寫法是使用 for loop來執行,等到
request結束,再執行下一個。
由於每個 request需要幾十秒才會完成,所以整個 sciprt跑完就要花費好幾分鐘。如果能改寫成
使用 multi-thread的方式來發送 request,就能省下大量的時間。因為 GIL的關係,同時間只會
有一個 thread在執行,但以這 case來說已經很夠用了。
以下是要修改的 sample code,使用 for loop來執行 20次的 request:
import requests
def do_request(url):
response = requests.get(url)
print(response.status_code)
return response
if __name__ == '__main__':
for i in range(0, 20):
ret = do_request("https://api.github.com")
print (ret.json())
使用 python threading來改寫:
import requests
import threading
def do_request(url):
response = requests.get(url)
print(response.status_code)
return response
if __name__ == '__main__':
thread_list = []
for i in range(0, 20):
t = threading.Thread(target=do_request, args=("https://api.github.com",))
thread_list.append(t)
t.start()
for t in thread_list:
t.join()
宣告 Thread
t = threading.Thread(target=do_request, args=("https://api.github.com",))
建立一個 Thread物件,將要使用 threads來執行的 function傳入 target,並把 target所需要的引數以 tuple的形式傳入 args。
啟動 Thread
t.start()
透過呼叫 start來啟動此 thread。
等待 Thread執行完成
t.join()
使用 join來等待此 thread結束。這裡使用 for loop來等待所有的 thread結束。
若沒有使用 join,thread可能會在主程式後才執行完成。
獲得 Thread的返回值
上面的程式碼雖然可以讓函式使用 thread的方式執行,卻沒辦法得到函式的返回值。其中一個解法是將函式改寫,使其將返回值存到 list中。
import requests
import threading
def do_request(url, index, response_list):
response = requests.get(url)
print(response.status_code)
response_list[index] = response
if __name__ == '__main__':
thread_list = []
response_list = [None] * len(range(0, 20))
for i in range(0, 20):
t = threading.Thread(target=do_request, args=("https://api.github.com", i, response_list))
thread_list.append(t)
t.start()
for t in thread_list:
t.join()
print(response_list)
參考資料:
https://docs.python.org/zh-tw/3/library/threading.html
https://realpython.com/intro-to-python-threading/