文章插图
干货分享!scrapy全站爬取数据以及crawlspider怎么用
前几节课我们用到了全站爬取数据 。是通过定义一个通用URL , 利用yield关键字进行翻页爬取从而获取全站数据 , 今天我们介绍crawlspider这种爬虫快快速几行代码帮助我们爬取全站数据 , 下面是基本操作步骤 。
1.新建一个文件夹 , 命名为lianxi2.新建爬虫文件 , 命名为paqu 由于我们这次建立的爬虫是crawlspider这种爬虫 , 因此我们建立爬虫文件与之前稍有差异(如下图) , 在爬虫文件名之前新增了“-t crawl”
3.打开爬虫文件 。我们会发现爬虫文件与之前 , 不太一样 , 在请求模块多了个rules元组 , 包含几个参数:
1)allow用来填写正则表达式 , 我们需要翻页爬取的内容就在这里定义规则 , 需要注意的是allow参数没有必要写出要提取的url完整的正则表达式 , 部分即可 , 只要能够区别开来
2)callback用来解析数据
3)当follow为True时 , 爬虫会从获取的response中取出符合规则的url , 再次进行爬取 , 如果这次爬取的response中还存在符合规则的url , 则再次爬取 , 无限循环 , 直到不存在符合规则的url 。
当follow为False是 , 爬虫只从start_urls 的response中取出符合规则的url , 并请求 。
4.简单应用crawlspider爬虫 start_urls设置起始网址 , allow设置正则表达式 , 根据网址的规律 , 写出网址的翻页特征 , 以以下网址为例 , 变化的是page值因此用数字代替 , 我们输出response , 就可以看到请求的页面 。(自行设置setting)
以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!
「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助:- 油渣的家常做法 油渣怎么做好吃
- 手把手教你用python实现自动登录 python教学
- 好男人怎么培养出来的 什么样的女人能培养出好男人
- 男生不回微信代表什么 男生不回微信怎么吸引他回
- 恋爱中女生应该不应该主动呢 主动女生结局怎么样呢
- 爱笑的男生性格怎么样呢 爱笑的男生喜欢什么样女生呢
- 甜言蜜语怎么说更真实 哄女孩子的甜言蜜语怎么说
- 怎么哄女朋友睡觉 异地恋怎么哄女友睡觉
- 一款用来听的听书软件 边看边听的听书软件
- 华为手机遇到宝马x2 宝马x2如何使用华为hicar