使用nodejs写一个爬虫程序获取行政区划信息

2024-09-05 13:18

本文主要是介绍使用nodejs写一个爬虫程序获取行政区划信息,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

最近在开发一个房产管理系统,有个功能是需要对行政区划进行存入数据库管理,在网上找了很久,关于国家的行政区划数据都比较久远或者不完整,不能匹配自己的需求。
后来就想到用爬虫获取国家统计局网站的数据,因为Python还在学习中,所以就用自己熟悉的nodejs写了份简单的爬虫,能获取到国家统计局网站的全国行政区划信息(不包含港澳台)。

目录

  • 创建src文件价,作为生成的行政区划信息存放目录
  • 创建index.js 文件作为主要文件

初始化

使用npm初始化项目,按照提示输入相应内容(项目名称、版本、描述等信息)

npm init

安装依赖

  • cheerio: jquery核心功能的一个快速灵活而又简洁的实现,主要是为了用在服务器端需要对DOM进行操作的地方
  • axios:是一个基于 promise 的 HTTP 库(也可以使用nodejs的request或其他http库)
  • iconv-lite:解决nodejs中编码问题
  • async:区别与ES的async/await,这里作为一个库引入,主要使用async.mapLimit控制请求并发数

下文具体介绍各个库的使用

开发

分析目标网站

进入国家统计局网站,找到行政区划网页,目前最新的数据是2020年的,网址:http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/index.html

通过查看网页源码发现,其实这个网站比较简单,我们想获取的信息也直接在html内,所以可以直接使用cheerio来获取元素信息,并最终得到想要的数据。

对被爬取网站的分析应该放在第一步,然后再根据不同网站的分析结果,确定使用的依赖库。

首先定义几个变量

const HOST = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2020/';
const headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36' };

HOST: 就是要爬取的网站,这里给单独出来,方便后面的操作,(可以进一步优化,把年份拿出来,每次获取时手动输入,获取指定年份的数据)
headers: 就是访问该网站时的header信息,这里就是为了模拟浏览器环境,防止出问题,其实不写也可以请求网站信息

  • 引入axios库,获取网站数据
    文件头部引入axios
const axios = require('axios');

然后定义一个函数用于请求地址获取相应数据。因为根据分析网站的结果可知,原网站数据是按层级一层一层划分并每个链接显示一级的数据。如:首页显示了所有省级信息,然后每个省级携带对应的不同链接,连接到下属城市,再根据城市信息链接到区县再到街道、居委会等。所以把请求接口的方法封装到一个函数里,通过参数访问,获取信息。

const fetchData = async (url) => {const res = await axios(url, { headers });

定义一个main函数,作为程序的主入口,再在main内执行

const main = async () => {const provinceData = await fetchData(HOST);
}main();

保存后执行node index.js即可获取网页信息。可用console打印出查看。

此时会发现,获取的数据,中文会乱码,这是因为,该网站编码采用的是GB2312。我们需要对获取的数据进行转译。

  • 引入iconv-lite
const iconv = require('iconv-lite');

修改请求函数:

let data = null;
const res = await axios(url, { responseType: 'arraybuffer', headers });
// iconv-lite 解析buffer数据为gb2312
data = iconv.decode(res.data, 'gb2312');

注意

axios会转换数据格式为utf-8,所以这里需要把获取的数据转换为流,再使用iconv-lite转为GB2312格式

获取到正确的数据后就可以使用cheerio进行精准的获取了。

  • 引入cheerio
const cheerio = require('cheerio');

分析网页结构,省级信息在table标签内,分四行显示,共四个tr标签,每个tr标签有个class="provincetr",然后名称在td下的a标签内,如下:

<tr class="provincetr"><td><a href="11.html">北京市<br></a></td><td><a href="12.html">天津市<br></a></td><td><a href="13.html">河北省<br></a></td><td><a href="14.html">山西省<br></a></td><td><a href="15.html">内蒙古自治区<br></a></td><td><a href="21.html">辽宁省<br></a></td><td><a href="22.html">吉林省<br></a></td><td><a href="23.html">黑龙江省<br></a></td>
</tr>

发现规律遍可以编写代码:

const proviceStr = (html) => {const $ = cheerio.load(html)let result = [];$(".provincetr a").each(function (index, element) {let name = $(element).text().trim();let url = $(element).attr("href");let id = url.replace('.html', '');result.push({pid: '',id,name,url: HOST+url,})});return result;
};

这里遍历class下的元素,获取a标签内的内容和href信息,并需要获取对应的省级id(使用了通过链接截取,其实href内的信息也是对应的id)。并把url信息保存下来,用于下一级数据获取的一句

打印result应该就能看到获取的数据了。

接下来需要把数据存到文件中

  • 引入nodejs的fs模块
const fs = require('fs');

定义存放的变量,为了方便,直接把各个级别的信息分开存储:

const filePath = {province: 'src/province.json',city: 'src/city.json',country: 'src/country.json'
}

修改main方法:

const main = async () => {const Index = joinUrl('index.html');const provinceData = await fetchData(Index, 'province', '');fs.writeFileSync(filePath.province, JSON.stringify(provinceData));
}

此时打开src文件夹便能看见多了个province.json,打开是个压缩的json文件。

然后再分析市级数据。市级网页结构布局与省级类似,只是变成纵向排列,tr标签classcitytr。区县和街道、居委会布局都一样,只是class不同,所以可以抽取出共同代码,封装成一个函数。

需要注意的是,越往下级爬取,数据量会越来越大,这时可能会报错,甚至会被原网站封ip的风险。

这里因为只是爬取到区县级数据,所以没有做过多考虑,只是引入的async库的mapLimit,用于并发请求。

  • 最后,配置package.json,使用npm脚本启动项目,不再使用node index.js

时间仓储,只是为了满足项目中的一个小需求,临时写的一个爬虫,也是第一次使用nodejs爬取网页,问题还有很多,希望多多指正。后续抽出时间,对代码进行完善,解决爬取数据量大就报错的问题,并对省级id进行位数完善等。

  • 项目地址
    https://github.com/imchaoyu/node-get-districts

这篇关于使用nodejs写一个爬虫程序获取行政区划信息的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1139068

相关文章

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

ModelMapper基本使用和常见场景示例详解

《ModelMapper基本使用和常见场景示例详解》ModelMapper是Java对象映射库,支持自动映射、自定义规则、集合转换及高级配置(如匹配策略、转换器),可集成SpringBoot,减少样板... 目录1. 添加依赖2. 基本用法示例:简单对象映射3. 自定义映射规则4. 集合映射5. 高级配置匹

Spring 框架之Springfox使用详解

《Spring框架之Springfox使用详解》Springfox是Spring框架的API文档工具,集成Swagger规范,自动生成文档并支持多语言/版本,模块化设计便于扩展,但存在版本兼容性、性... 目录核心功能工作原理模块化设计使用示例注意事项优缺点优点缺点总结适用场景建议总结Springfox 是

嵌入式数据库SQLite 3配置使用讲解

《嵌入式数据库SQLite3配置使用讲解》本文强调嵌入式项目中SQLite3数据库的重要性,因其零配置、轻量级、跨平台及事务处理特性,可保障数据溯源与责任明确,详细讲解安装配置、基础语法及SQLit... 目录0、惨痛教训1、SQLite3环境配置(1)、下载安装SQLite库(2)、解压下载的文件(3)、

使用Python绘制3D堆叠条形图全解析

《使用Python绘制3D堆叠条形图全解析》在数据可视化的工具箱里,3D图表总能带来眼前一亮的效果,本文就来和大家聊聊如何使用Python实现绘制3D堆叠条形图,感兴趣的小伙伴可以了解下... 目录为什么选择 3D 堆叠条形图代码实现:从数据到 3D 世界的搭建核心代码逐行解析细节优化应用场景:3D 堆叠图

MySQL 获取字符串长度及注意事项

《MySQL获取字符串长度及注意事项》本文通过实例代码给大家介绍MySQL获取字符串长度及注意事项,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql 获取字符串长度详解 核心长度函数对比⚠️ 六大关键注意事项1. 字符编码决定字节长度2

Springboot如何正确使用AOP问题

《Springboot如何正确使用AOP问题》:本文主要介绍Springboot如何正确使用AOP问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录​一、AOP概念二、切点表达式​execution表达式案例三、AOP通知四、springboot中使用AOP导出

Navicat数据表的数据添加,删除及使用sql完成数据的添加过程

《Navicat数据表的数据添加,删除及使用sql完成数据的添加过程》:本文主要介绍Navicat数据表的数据添加,删除及使用sql完成数据的添加过程,具有很好的参考价值,希望对大家有所帮助,如有... 目录Navicat数据表数据添加,删除及使用sql完成数据添加选中操作的表则出现如下界面,查看左下角从左