本文主要是介绍中华人民共和国县以上行政区划代码采集(Python),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
网站
http://www.mca.gov.cn/article/sj/xzqh/2020/
爬取网页地址
(2020年8月中华人民共和国县以上行政区划代码)
http://www.mca.gov.cn//article/sj/xzqh/2020/2020/2020092500801.html
网页预览
爬虫代码
# -*- coding: utf-8 -*-
"""
Created on Tue Nov 17 14:02:23 2020@author: 樊纲
"""import requests
from bs4 import BeautifulSoup
import pandas as pd
import reurl='http://www.mca.gov.cn//article/sj/xzqh/2020/202011/202011060901.html'
r=requests.get(url)
html=r.text
soup=BeautifulSoup(html,'html.parser')
table=soup.find('table')
trs=table.find_all('tr')[2:-9]
datas=[]
for tr in trs:data=[]if tr.get_text().replace('\n',''):td=tr.find_all('td')code=tr.find_next('td').find_next('td').get_text()name=tr.find_next('td').find_next('td').find_next('td').get_text()print(code,re.sub("\s","",name))data.append(code)data.append(re.sub("\s","",name))#正则替换不可见字符datas.append(data)
df=pd.DataFrame(datas[1:],columns=datas[0])
df.to_excel('./data/行政区划代码.xlsx')#保存为Excel文件
文件预览
这篇关于中华人民共和国县以上行政区划代码采集(Python)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!