灰臀_考古加数据爬不了?这篇文章教会你
生财有术 ·
介绍
本篇文章主要分为三个部分,第一个部分,为什么要爬灰臀这样的数据网站第二个部分,灰臀这样的网站为什么无法直接爬/通用爬虫方法为何无效第三个部分,如何爬取灰臀这样的网站
1,为什么爬
我们有时候自己爬取网站,会发现反爬手段千奇百怪,如果你爬取的是淘宝这种top级的网站,你就能够知道绝望的含义但是如果有人把这个问题攻克了,你只需要爬取其对应的网站,岂不美哉
数据网站就是这样,它爬取了淘宝这样的网站的数据,但是他本身反爬做的并不是很严格(我也不懂,可能是会开锁的人,不一定会造锁)这样,我们就不用千辛万苦地自己去爬源网站了,花点儿钱买个会员,有人把各种问题给解决了,咋们直接就可以拿数据了
当然还有些综合性的数据和分析数据,数据网站也不想给你,那咱们就可以自己爬嘛
2,为什么不好爬
上次朋友告知我chatgpt写爬虫好用是好用,但是遇到灰臀数据这一类的就头疼了其实核心是这种数据类型的网站,并非使用传统的加载方式,试想一下,一个大数据网站,数据直接放在代码中,加载页面数据都半天了,用户可不会等这么久。这时候就诞生了异步加载(ajax),即我先把网站框架加载出来,给用户及时的反馈,然后数据后台加载,最后把数据放到框架里面
所以这个数据,直接拿是不好拿了,需要通过分析其数据链接和内部的json结构来获取数据当然现在有了gpt,可以大大的减轻工作量,毕竟分析,chatgpt很擅长;结构,chatgpt也很擅长
3,怎么爬
两个问题:
1,数据在哪儿
2,数据怎么拿
详情请看VCR:https://bc8fd5oefm.feishu.cn/docx/SrOXdYezPogfRnx4wnAcb3w8nVR
如果有帮助,感谢你的点赞
知识星球