爬虫Crawl Spider模板的用法

发布时间：2021-09-04 11:55 来源：亿速云阅读：0 作者：chen 栏目：开发技术

本篇内容介绍了“爬虫Crawl Spider模板的用法”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

1.Spider模板

scrapy默认创建的spider模板就是basic模板，创建spider文件的命令是：scrapy genspider dribbble dribbble.com，查看spider模板的命令是：scrapy genspider --list；
在项目中明确指明使用crawl生成模板生成spider的命令是：scrapy genspider -t crawl csdn www.csdn.net ；

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class Cspider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['https://www.csdn.net/']
    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        return item

2.CrawlSpider类介绍

CrawlSpider是Spider的派生类，目的是对全站信息爬取更加简单，爬取那些具有一定规则网站的常用的爬虫，它基于Spider并有一些独特属性；

3.rules规则列表

语法：Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None)，rules是Rule对象的集合，用于匹配目标网站并排除干扰；
link_extractor：是一个LinkExtractor对象，其定义了如何从爬取到的页面提取链接；
callback：从link_extractor中每获取到链接得到Responses时，会调用参数所指定的值作为回调函数，该回调函数接收一个response作为其一个参数；
cb_kwargs：用于作为**kwargs参数，传递给callback；
follow：是一个布尔值，指爬取了之后，是否还继续从该页面提取链接，然后继续爬下去, 默认是False；
process_links：指定spider中哪个的函数将会被调用，从link_extractor中获取到链接列表时将会调用该函数。该方法主要用来过滤；
process_request：指定处理函数，根据该Rule提取到的每个Request时，该函数将会被调用，可以对Request进行处理，该函数必须返回Request或者None；

4.LinkExtractors

LinkExtractors 的目的是提取链接，每个LinkExtractor有唯一的公共方法是extract_links()，它接收一个 Response对象，并返回一个scrapy.link.Link对象；
Link Extractors要实例化一次，并且 extract_links 方法会根据不同的 response 调用多次提取链接；

主要参数：

allow：满足括号中”正则表达式”的值会被提取，如果为空，则全部匹配；
deny：与这个正则表达式(或正则表达式列表)不匹配的url一定不提取；
allow_domains：会被提取的连接的；
deny_domains：一定不会被提取链接的domains；
restrict_xpaths：使用xpath表达式，和allow共同作用过滤链接；

5.爬取CSDN的文章, 且提取URL和文章标题

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class DoubanSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['blog.csdn.net']
    start_urls = ['https://blog.csdn.net']
    # 指定链接提取的规律
    rules = (
        # follow:是指爬取了之后，是否还继续从该页面提取链接，然后继续爬下去
        Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        print('-'*100)
        print(response.url)
        title = response.css('h2::text').extract()[0]
        print(title)
        print('-' * 100)
        return None

免责声明：本站发布的内容（图片、视频和文字）以原创、来自互联网转载和分享为主，文章观点不代表本网站立场，如果涉及侵权请联系QQ:712375056 进行举报，并提供相关证据，一经查实，将立刻删除涉嫌侵权内容。

上一篇新闻：
上一篇：Python怎么将xml格式转换为json格式
下一篇新闻：
下一篇：elasticsearch7.2的增删改查语法

云主机8折虚拟主机6折

红包可用于（云服务器、高防服务器、裸金属服务器、高防IP、云数据库、CDN加速）购买和续费

爬虫Crawl Spider模板的用法

1.Spider模板

2.CrawlSpider类介绍

3.rules规则列表

4.LinkExtractors

5.爬取CSDN的文章, 且提取URL和文章标题

特网云产品

解决方案

帮助与支持

其他链接

联系我们

爬虫Crawl Spider模板的用法

1.Spider模板

2.CrawlSpider类介绍

3.rules规则列表

4.LinkExtractors

5.爬取CSDN的文章, 且提取URL和文章标题

最新资讯

相关推荐

相关标签

特网云产品

解决方案

帮助与支持

其他链接

联系我们