本篇内容介绍了“爬虫Crawl Spider模板的用法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
scrapy默认创建的spider模板就是basic模板,创建spider文件的命令是:scrapy genspider dribbble dribbble.com
,查看spider模板的命令是:scrapy genspider --list
;
在项目中明确指明使用crawl生成模板生成spider的命令是:scrapy genspider -t crawl csdn www.csdn.net
;
import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class Cspider(CrawlSpider): name = 'csdn' allowed_domains = ['www.csdn.net'] start_urls = ['https://www.csdn.net/'] rules = ( Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True), ) def parse_item(self, response): return item
CrawlSpider是Spider的派生类,目的是对全站信息爬取更加简单,爬取那些具有一定规则网站的常用的爬虫, 它基于Spider并有一些独特属性;
语法:Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None)
,rules是Rule对象的集合,用于匹配目标网站并排除干扰;
link_extractor
:是一个LinkExtractor对象,其定义了如何从爬取到的页面提取链接;
callback
:从link_extractor中每获取到链接得到Responses时,会调用参数所指定的值作为回调函数,该回调 函数接收一个response作为其一个参数;
cb_kwargs
:用于作为**kwargs参数,传递给callback;
follow
:是一个布尔值,指爬取了之后,是否还继续从该页面提取链接,然后继续爬下去, 默认是False;
process_links
:指定spider中哪个的函数将会被调用,从link_extractor中获取到链接列表时将会调用该函数 。该方法主要用来过滤;
process_request
:指定处理函数,根据该Rule提取到的每个Request时,该函数将会被调用,可以对Request进 行处理,该函数必须返回Request或者None;
LinkExtractors 的目的是提取链接,每个LinkExtractor有唯一的公共方法是extract_links(),它接收一个 Response对象,并返回一个scrapy.link.Link对象;
Link Extractors要实例化一次,并且 extract_links 方法会根据不同的 response 调用多次提取链接;
主要参数:
allow
:满足括号中”正则表达式”的值会被提取,如果为空,则全部匹配;
deny
:与这个正则表达式(或正则表达式列表)不匹配的url一定不提取;
allow_domains
:会被提取的连接的;
deny_domains
:一定不会被提取链接的domains;
restrict_xpaths
:使用xpath表达式,和allow共同作用过滤链接;
from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class DoubanSpider(CrawlSpider): name = 'csdn' allowed_domains = ['blog.csdn.net'] start_urls = ['https://blog.csdn.net'] # 指定链接提取的规律 rules = ( # follow:是指爬取了之后,是否还继续从该页面提取链接,然后继续爬下去 Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True), ) def parse_item(self, response): print('-'*100) print(response.url) title = response.css('h2::text').extract()[0] print(title) print('-' * 100) return None
免责声明:本站发布的内容(图片、视频和文字)以原创、来自互联网转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系QQ:712375056 进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
Copyright © 2009-2021 56dr.com. All Rights Reserved. 特网科技 特网云 版权所有 珠海市特网科技有限公司 粤ICP备16109289号
域名注册服务机构:阿里云计算有限公司(万网) 域名服务机构:烟台帝思普网络科技有限公司(DNSPod) CDN服务:阿里云计算有限公司 中国互联网举报中心 增值电信业务经营许可证B2
建议您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流浏览器浏览本网站