婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁(yè) > 知識(shí)庫(kù) > Python爬蟲(chóng)實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片

Python爬蟲(chóng)實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片

熱門標(biāo)簽:儋州電話機(jī)器人 朝陽(yáng)手機(jī)外呼系統(tǒng) 地圖標(biāo)注面積 所得系統(tǒng)電梯怎樣主板設(shè)置外呼 北瀚ai電銷機(jī)器人官網(wǎng)手機(jī)版 北京電銷外呼系統(tǒng)加盟 小蘇云呼電話機(jī)器人 市場(chǎng)上的電銷機(jī)器人 佛山400電話辦理

使用Scrapy爬取豆瓣某影星的所有個(gè)人圖片

以莫妮卡·貝魯奇為例

1.首先我們?cè)诿钚羞M(jìn)入到我們要?jiǎng)?chuàng)建的目錄,輸入 scrapy startproject banciyuan 創(chuàng)建scrapy項(xiàng)目

創(chuàng)建的項(xiàng)目結(jié)構(gòu)如下

2.為了方便使用pycharm執(zhí)行scrapy項(xiàng)目,新建main.py

from scrapy import cmdline

cmdline.execute("scrapy crawl banciyuan".split())

再edit configuration

然后進(jìn)行如下設(shè)置,設(shè)置后之后就能通過(guò)運(yùn)行main.py運(yùn)行scrapy項(xiàng)目了

3.分析該HTML頁(yè)面,創(chuàng)建對(duì)應(yīng)spider

from scrapy import Spider
import scrapy

from banciyuan.items import BanciyuanItem


class BanciyuanSpider(Spider):
    name = 'banciyuan'
    allowed_domains = ['movie.douban.com']
    start_urls = ["https://movie.douban.com/celebrity/1025156/photos/"]
    url = "https://movie.douban.com/celebrity/1025156/photos/"

    def parse(self, response):
        num = response.xpath('//div[@class="paginator"]/a[last()]/text()').extract_first('')
        print(num)
        for i in range(int(num)):
            suffix = '?type=Cstart=' + str(i * 30) + 'sortby=likesize=asubtype=a'
            yield scrapy.Request(url=self.url + suffix, callback=self.get_page)

    def get_page(self, response):
        href_list = response.xpath('//div[@class="article"]//div[@class="cover"]/a/@href').extract()
        # print(href_list)
        for href in href_list:
            yield scrapy.Request(url=href, callback=self.get_info)

    def get_info(self, response):
        src = response.xpath(
            '//div[@class="article"]//div[@class="photo-show"]//div[@class="photo-wp"]/a[1]/img/@src').extract_first('')
        title = response.xpath('//div[@id="content"]/h1/text()').extract_first('')
        # print(response.body)
        item = BanciyuanItem()
        item['title'] = title
        item['src'] = [src]
        yield item

4.items.py

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class BanciyuanItem(scrapy.Item):
    # define the fields for your item here like:
    src = scrapy.Field()
    title = scrapy.Field()

pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter
from scrapy.pipelines.images import ImagesPipeline
import scrapy

class BanciyuanPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        yield scrapy.Request(url=item['src'][0], meta={'item': item})

    def file_path(self, request, response=None, info=None, *, item=None):
        item = request.meta['item']
        image_name = item['src'][0].split('/')[-1]
        # image_name.replace('.webp', '.jpg')
        path = '%s/%s' % (item['title'].split(' ')[0], image_name)

        return path

settings.py

# Scrapy settings for banciyuan project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://docs.scrapy.org/en/latest/topics/settings.html
#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'banciyuan'

SPIDER_MODULES = ['banciyuan.spiders']
NEWSPIDER_MODULE = 'banciyuan.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.80 Safari/537.36'}


# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Configure maximum concurrent requests performed by Scrapy (default: 16)
#CONCURRENT_REQUESTS = 32

# Configure a delay for requests for the same website (default: 0)
# See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
#DOWNLOAD_DELAY = 3
# The download delay setting will honor only one of:
#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

# Disable cookies (enabled by default)
#COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# Override the default request headers:
#DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
#}

# Enable or disable spider middlewares
# See https://docs.scrapy.org/en/latest/topics/spider-middleware.html
#SPIDER_MIDDLEWARES = {
#    'banciyuan.middlewares.BanciyuanSpiderMiddleware': 543,
#}

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#DOWNLOADER_MIDDLEWARES = {
#    'banciyuan.middlewares.BanciyuanDownloaderMiddleware': 543,
#}

# Enable or disable extensions
# See https://docs.scrapy.org/en/latest/topics/extensions.html
#EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
#}

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   'banciyuan.pipelines.BanciyuanPipeline': 1,
}
IMAGES_STORE = './images'

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/autothrottle.html
#AUTOTHROTTLE_ENABLED = True
# The initial download delay
#AUTOTHROTTLE_START_DELAY = 5
# The maximum download delay to be set in case of high latencies
#AUTOTHROTTLE_MAX_DELAY = 60
# The average number of requests Scrapy should be sending in parallel to
# each remote server
#AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

# Enable and configure HTTP caching (disabled by default)
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

5.爬取結(jié)果

reference

源碼

到此這篇關(guān)于Python爬蟲(chóng)實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片的文章就介紹到這了,更多相關(guān)Scrapy爬取豆瓣圖片內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python爬蟲(chóng)之教你利用Scrapy爬取圖片
  • Python爬取網(wǎng)站圖片并保存的實(shí)現(xiàn)示例
  • python制作微博圖片爬取工具
  • python繞過(guò)圖片滑動(dòng)驗(yàn)證碼實(shí)現(xiàn)爬取PTA所有題目功能 附源碼
  • 利用python批量爬取百度任意類別的圖片的實(shí)現(xiàn)方法
  • Python使用xpath實(shí)現(xiàn)圖片爬取
  • Python Scrapy圖片爬取原理及代碼實(shí)例
  • Python3直接爬取圖片URL并保存示例
  • python爬取某網(wǎng)站原圖作為壁紙
  • 用Python做一個(gè)嗶站小姐姐詞云跳舞視頻

標(biāo)簽:金融催收 云南 酒泉 寧夏 江蘇 商丘 龍巖 定西

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python爬蟲(chóng)實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片》,本文關(guān)鍵詞  Python,爬蟲(chóng),實(shí)戰(zhàn),之,使用,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Python爬蟲(chóng)實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片》相關(guān)的同類信息!
  • 本頁(yè)收集關(guān)于Python爬蟲(chóng)實(shí)戰(zhàn)之使用Scrapy爬取豆瓣圖片的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    亚洲一区自拍偷拍| 国产亚洲人成网站| 91女神在线视频| 95精品视频在线| 91免费视频观看| 色哟哟一区二区在线观看| 色婷婷狠狠综合| 9191精品国产综合久久久久久| 欧美日韩成人综合天天影院| 日韩一区二区三区视频在线| 日韩美一区二区三区| 国产视频一区在线观看| 亚洲欧美日韩电影| 天堂成人国产精品一区| 黄色小说综合网站| 国产高清亚洲一区| 色噜噜狠狠色综合中国| 欧美高清性hdvideosex| 精品国产一区二区三区av性色| 国产色产综合色产在线视频| 亚洲欧美日韩系列| 日韩av一级片| 国产成人亚洲综合a∨婷婷 | 欧美在线|欧美| 欧美精品一级二级三级| 久久网站最新地址| 亚洲乱码精品一二三四区日韩在线| 亚洲成人免费影院| 国产一区二区日韩精品| 欧美亚洲综合久久| 久久免费国产精品| 亚洲国产一区二区三区| 国产成人精品一区二| 欧美亚洲国产一区在线观看网站| 欧美大胆人体bbbb| 亚洲欧美日本在线| 精彩视频一区二区三区 | 一区二区三区在线免费观看| 蜜乳av一区二区| av在线不卡网| 2014亚洲片线观看视频免费| 亚洲第四色夜色| 久草精品在线观看| 99久久精品久久久久久清纯| 日韩欧美成人一区二区| 欧美色涩在线第一页| 久久亚洲精品小早川怜子| 精品日韩一区二区三区免费视频| 亚洲精品你懂的| 国产精品88av| 日韩欧美在线综合网| 日韩美女视频19| 国产麻豆精品视频| 91精品久久久久久蜜臀| 亚洲女同一区二区| 国产一区 二区 三区一级| 欧美美女直播网站| 亚洲一级二级三级在线免费观看| 成人深夜视频在线观看| 欧美一区二区三区播放老司机| 亚洲精品高清在线观看| 99久久亚洲一区二区三区青草| 久久网站最新地址| 久久精品国产精品亚洲红杏| 欧美另类videos死尸| 亚洲一级电影视频| 色综合天天综合给合国产| 国产精品三级电影| av激情成人网| 亚洲欧美日韩中文字幕一区二区三区 | 丁香五精品蜜臀久久久久99网站 | 亚洲人成7777| 成人网页在线观看| 18欧美亚洲精品| 97se亚洲国产综合自在线不卡| 国产精品久久久久久久第一福利| 国产1区2区3区精品美女| 国产午夜亚洲精品羞羞网站| 高清国产一区二区| 中文字幕一区二区三区精华液| 99re6这里只有精品视频在线观看| 国产精品久线在线观看| 色综合色狠狠综合色| 亚洲尤物在线视频观看| 制服丝袜亚洲网站| 国产做a爰片久久毛片| 久久亚洲一区二区三区明星换脸| 成人一区二区三区在线观看 | 美国一区二区三区在线播放| 精品处破学生在线二十三| 国产成人免费网站| 亚洲激情欧美激情| 欧美另类变人与禽xxxxx| 精品午夜一区二区三区在线观看 | 91在线精品秘密一区二区| 亚洲欧美日韩国产另类专区| 欧美日韩国产综合久久| 精品综合免费视频观看| 国产精品久久久久久久蜜臀| 欧美性高清videossexo| 国内精品国产成人国产三级粉色| 欧美激情一区二区在线| 欧洲日韩一区二区三区| 精品一区二区三区av| 国产精品欧美一级免费| 4438x成人网最大色成网站| 国产伦理精品不卡| 亚洲成人激情av| 久久亚洲精品国产精品紫薇| 欧美视频在线观看一区二区| 精品一二三四区| 亚洲国产乱码最新视频 | 精品视频一区 二区 三区| 精品亚洲免费视频| 亚洲成av人影院在线观看网| 欧美国产日韩在线观看| 欧美一二三区在线| 色噜噜狠狠一区二区三区果冻| 激情综合色综合久久| 午夜精品123| 亚洲欧美另类久久久精品| 精品国产乱码久久久久久图片| 在线观看日韩av先锋影音电影院| 国产精品99久久久久久久vr| 亚洲成人一区二区在线观看| 亚洲欧美另类小说| 国产精品久久久久9999吃药| 久久久久九九视频| 日韩一区二区麻豆国产| 欧美精品三级在线观看| 成人av电影在线网| 国产传媒欧美日韩成人| 麻豆精品一区二区三区| 无码av免费一区二区三区试看| 日韩一区欧美一区| 国产精品乱人伦| 国产亚洲婷婷免费| 久久久精品免费观看| 精品国精品自拍自在线| 日韩你懂的在线播放| 这里只有精品视频在线观看| 欧美午夜精品久久久| 在线亚洲一区二区| 91污在线观看| www.日韩在线| av电影在线观看完整版一区二区 | 国产精品久久久久久亚洲伦| 国产区在线观看成人精品| 精品福利一区二区三区免费视频| 日韩欧美电影一区| 久久嫩草精品久久久久| 国产偷国产偷亚洲高清人白洁| 久久久久亚洲综合| 久久久不卡网国产精品一区| 久久女同性恋中文字幕| 日本一区二区三区四区在线视频| 国产目拍亚洲精品99久久精品| 国产精品三级电影| 亚洲一二三四区不卡| 丝袜美腿亚洲综合| 国产精品福利电影一区二区三区四区 | 在线电影一区二区三区| 欧美精品日韩精品| 精品国产91乱码一区二区三区| 国产欧美一区二区精品性色超碰| 中文字幕一区二区三区色视频 | 久久精品国产99国产| 精品一区二区免费看| 成人国产电影网| 色婷婷综合久久久中文一区二区| 欧美日韩五月天| 精品国产乱码久久| 亚洲男同性恋视频| 日本午夜精品一区二区三区电影| 国产老妇另类xxxxx| 99国产精品视频免费观看| 欧美另类z0zxhd电影| 国产亚洲婷婷免费| 亚洲大片在线观看| 国产成人99久久亚洲综合精品| 91免费观看国产| 日韩欧美123| 亚洲欧美日韩中文字幕一区二区三区| 五月婷婷激情综合| 成人福利视频网站| 欧美卡1卡2卡| 国产精品国产三级国产普通话蜜臀 | 不卡视频免费播放| 91精品国产91久久综合桃花| 国产欧美精品一区二区色综合| 亚洲第一综合色| 粉嫩av一区二区三区在线播放 | 欧美日韩国产一区| 久久精品免费在线观看| 亚洲成人激情自拍| jiyouzz国产精品久久| 日韩女优电影在线观看| 亚洲成av人片在线观看无码| 99精品欧美一区| 久久久91精品国产一区二区精品|