本文主要是介绍数据采集(旅游蚂蜂窝),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
http://www.mafengwo.cn/
问题
大家都知道,数据采集需要先去了解数据的特征.数据采集一般都是先有列表,然后再有一个或者多个detail.
列表中有一个id.detail中有子id.
比如列表url有.
http://www.mafengwo.cn/travel-scenic-spot/mafengwo/12711.html
这个是蚂蜂窝数据中的云南省的数据列表.
如果再寻找下面的数据:
云南概况
http://www.mafengwo.cn/baike/12711_3810.html
你会发现云南概况应该是云南id+概况id.这样的组合.
那么如果下一个省是四川
http://www.mafengwo.cn/travel-scenic-spot/mafengwo/12703.html
如果按照规则来.那么四川概况应该是:
http://www.mafengwo.cn/travel-scenic-spot/mafengwo/12703_3810.html
可惜的是当我们访问的时候发现404.
解决办法
1.list url
2.detail url上再搜索需要抓取的url.按照xpath或者css的方式筛选都可以
3.再根据得到的url再次请求.
4.当然解决万年的访问请求次数太多的问题,找代理或者降低请求频率
需要旅游的数据,联系QQ:3684170
目前手里已有蚂蜂窝网的全部数据
这篇关于数据采集(旅游蚂蜂窝)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!