python多线程+队列下载资源

网上有一些公开课视频教程还有课件啥的,手动下太慢了,写个python下载。我想尽可能的做到通用性,以后可以直接用的,代码如下,抛砖引玉,欢迎建议和意见:

 

[python][/python] view plaincopy

  1. import urllib.request
  2. import re
  3. import queue
  4. import threading
  5. import os
  6. class download(threading.Thread):
  7.     def __init__(self,que):
  8.         threading.Thread.__init__(self)
  9.         self.que=que
  10.     def run(self):
  11.         while True:
  12.             if not self.que.empty():
  13.                 print(‘—–%s——‘%(self.name))
  14.                 os.system(‘wget ‘+self.que.get())
  15.             else:
  16.                 break
  17. def startDown(url,rule,num,start,end,decoding=None):
  18.     if not decoding:
  19.         decoding=’utf8′
  20.     req=urllib.request.urlopen(url)
  21.     body=req.read().decode(decoding)
  22.     rule=re.compile(rule)
  23.     link=rule.findall(body)
  24.     que=queue.Queue()
  25.     for l in link:
  26.         que.put(l[start:end])
  27.     for i in range(num):
  28.         d=download(que)
  29.         d.start()
  30. if __name__==’__main__’:
  31.     url=’https://class.coursera.org/algo-004/lecture/index’
  32.     rule='<a target=\”_new\” href=\”.*\”‘
  33.     startDown(url,rule,10,23,-1)

简单说一下:download类继承了threading.Thread类,并重写了run函数,目的是只要队列不为空,则不停的从队列中取出资源真实链接地址调用wget下载,如果为空则退出线程。startDown函数是多线程下载的接口,里面的参数分别为:url–资源的网页,rule–正则表达式匹配方式,num–开启的线程数,start–正则中匹配真实链接的起始位置,end–正则中匹配真实链接的结束位置,decoding–资源页面采用的编码方式,默认是utf8。

 

下面是我运行时的样子:

 

好了,下次要下载直接import这个文件就妥了~哈哈~希望得到大家批评,我也希望进步快点~

标签