python多线程爬虫爬取顶点小说内容(BeautifulSoup+urllib)
之前写过python爬取起点中文网小说,多线程则是先把爬取的章节链接存到一个列表里,然后写一个函数get_text每次调用这个函数就传一个章节链接,那么就需要调用n次该函数来获取n章的内容,所以可以用for循环创建n个线程,线程的target就是get_text,参数就是章节的url。
随便点开的,辣眼睛哈哈哈
个人感觉用了多线程之后速度并没有很大的提升,速度大致是20个txt文件/分钟,是否有单个机器上继续提升爬取速度的方法?
下一步打算搞点能被封ip的爬取行为,然后学学分布式爬虫。加油~