Go语言视频零基础入门到精通

admin · 发表于 2020-8-12 11:20:28

1. 爬虫出现Forbidden by robots.txt
解决方法：setting.py ROBOTSTXT_OBEY = True 改成False
原因：scrapy抓包时的输出就能发现，在请求我们设定的url之前，它会先向服务器根目录请求一个txt文件
这个文件中规定了本站点允许的爬虫机器爬取的范围（比如你不想让百度爬取你的页面，就可以通过robot来限制），因为默认scrapy遵守robot协议，所以会先请求这个文件查看自己的权限，而我们现在访问这个url得到
1 User-agent: * 2 Disallow: /
在setting改变ROBOTSTXT_OBEY为False，让scrapy不要遵守robot协议，之后就能正常爬取
对于使用robot协议的站点，只需要我们的爬虫不遵守该协议，就可以了，但是对于防止爬虫爬取，站点还有检查请求头、检查ip等等手段，还需要其他的相应处理。
2. 如何进一步获取数据并同时保存
解决方法：参考文章——scrapy爬取新浪网导航页所有大类、小类、小类里的子链接，以及子链接页面的新闻内容
3. ajax请求
解决方法：post请求
可以使用

yield scrapy.FormRequest(url, formdata, callback)

复制代码

方法发送POST请求
注意！！！
formdata的参数值必须是unicode , str 或者 bytes object，不能是整数。
4. 自动创建create_time
解决方法：将create_time字段设置为timestamp 并设置默认值CURRENT_TIMESTAMP
5. mysql 让清空表且自增的id重新从1开始
解决方法：truncate table table_name

		自动登录	找回密码
密码			立即注册

JAVA高级面试进阶视频教程	Java架构师系统进阶VIP课程	分布式高可用全栈开发微服务教程	Go语言视频零基础入门到精通	Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程	SpringBoot2.X入门到高级使用教程	大数据培训第六期全套视频教程	深度学习（CNN RNN GAN）算法原理	Java亿级流量电商系统视频教程
互联网架构师视频教程	年薪50万Spark2.0从入门到精通	年薪50万！人工智能学习路线教程	年薪50万！大数据从入门到精通学习路线	年薪50万！机器学习入门到精通视频教程
仿小米商城类app和小程序视频教程	深度学习数据分析基础到实战	最新黑马javaEE2.1就业课程	从 0到JVM实战高手教程	MySQL入门到精通教程

分布式高可用全栈开发微服务教程

Go语言视频零基础入门到精通

Java开发全终端实战租房项目视频教程

SpringBoot2.X入门到高级使用教程

大数据培训第六期全套视频教程

Java亿级流量电商系统视频教程

年薪50万Spark2.0从入门到精通

年薪50万！人工智能学习路线教程

[默认分类] Python scrapy 常见问题及解决 【遇到的坑】

[默认分类] Python scrapy 常见问题及解决【遇到的坑】