异步爬虫-利用线程池爬取acg美图

   日期:2020-09-06     浏览:151    评论:0    
核心提示:利用线程池爬取acg美图目标网址http://acg17.com/import requestsimport os,timefrom lxml import etreefrom multiprocessing.dummy import Poolfrom uuid import uuid4headers = { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, lik

环境:Python3.8 开发工具:Pycharm

需要用到的库:
请求网址:requests
解析数据:lxml
保存文件与计算时间:os,uuid,time
多进程:multiprocessing

目标网址

http://acg17.com/


要爬取的图片在这些url里


因为要请求的是两个网址,这里我们需要异步爬虫,多进程解决速度慢的问题。

然而为什么使用多进程呢?当想提高cpu密集型任务的效率时,便可以使用多进程来改善这种情况。

例如我的cpu是4核8线程的
实例化线程池对象pool后创建线程池时最多写8个
(当然进程越多越快)

# 创建线程池
pool = Pool(8)


运行结果(支持多页爬取,这里我只各爬了一页)
三百多张不到一分钟,还是很快的

完整代码

import requests
import os,time
from lxml import etree
from multiprocessing.dummy import Pool
from uuid import uuid4
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36 Edg/84.0.522.63",
}
# 爬到的每个链接
htmls = []
def Parsing_html(url):
    res = requests.get(url=url,headers=headers)
    parsing_tree = etree.HTML(res.text)
    html_list = parsing_tree.xpath('//*[@id="main-content"]/div[1]/div[2]/article/h2/a/@href')
    for html in html_list:
        htmls.append(html)
# 最后的url
imgs = []
def Parsing_imgurl(imgurl):
    res = requests.get(url=imgurl,headers=headers)
    parsing_tree = etree.HTML(res.text)
    img_list = parsing_tree.xpath('//*[@id="the-post"]/div/div[2]/p/img/@src')
    # name_list = parsing_tree.xpath('//*[@id="the-post"]/div/div[2]/p/text()')
    # 遍历列表
    for img in img_list:
        imgs.append(img)
def Parsing_data(uurl):
    print('图片{}正在下载...'.format(uuid4()))
    data = requests.get(url=uurl, headers=headers).content
    try:
        # 下载位置
        root = 'E://acg17图库//'
        # 创建文件夹
        if not os.path.exists(root):
            os.mkdir(root)
        with open('{}{}.jpg'.format(root,uuid4()), 'wb') as f:
            f.write(data)
            print('图片{}下载成功'.format(uuid4()))
    except:
        pass

if __name__ == '__main__':
    # 要爬取的网址
    for page in range(1,3):
        acg_urls = ['http://acg17.com/category/meitu/pixiv-painter/page/{}/'.format(page),
                    'http://acg17.com/category/meitu/pixiv-wallpaper/page/{}/'.format(page),]
        print(acg_urls)
        # 创建进程池
        pool = Pool(8)
        # 第一次爬取到每个页面链接
        pool.map(Parsing_html,acg_urls)
        # 第二次爬取到每个图片链接
        pool.map(Parsing_imgurl,htmls)
        # 去重
        imglists = list(set(imgs))
        imglists.remove('https://tva2.sinaimg.cn/large/8a1c233bgw1fb6l0gxjk0j20cs077dgj.jpg')
        # 第三次保存图片
        start = time.time()
        pool.map(Parsing_data,imglists)
        end = time.time() - start
        print('消耗时间为:', end)
        # 关闭进程池
        pool.close()
        # 等待所有子进程执行完成。
        pool.join()

附一张,这个网站都是P站搬运,质量都很不错。推荐大家去试试

 
打赏
 本文转载自:网络 
所有权利归属于原作者,如文章来源标示错误或侵犯了您的权利请联系微信13520258486
更多>最近资讯中心
更多>最新资讯中心
0相关评论

推荐图文
推荐资讯中心
点击排行
最新信息
新手指南
采购商服务
供应商服务
交易安全
关注我们
手机网站:
新浪微博:
微信关注:

13520258486

周一至周五 9:00-18:00
(其他时间联系在线客服)

24小时在线客服