本文主要是介绍爬取汉字五行元素,并存入数据库,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
爬取汉字五行元素,并存入数据库
源码我放在了最后(嘿嘿),希望对你有用
1 实验目的
实现数据标题收集并可视化
2 实验任务
爬取汉字五行元素并选择角度实现可视化:
我选择的主题:可视化爬取数据中,字的笔画分布,用饼图可视化
3 实验环境
Python3.7+Anaconda3(spyder)
4 实验步骤
-
安装pyecharts库等可视化时需要的库
-
分析网页
-
通过分析网页结构标签,爬取每个字单独的网页网址,如图1,以及分析如何定位汉字模块,如图2
图1
图2 -
编写爬取网址的爬虫代码,在此只爬取一个元素的部分汉字的网址,如果想爬取每个元素的所有汉字,以一样的方式,收集网址,原理一样,收集网址代码如图3,循环网址爬取汉字如图4:
图3
图4
5. 运行代码,结果如图5 数据库结果如图6
图5
图6
6. 将数据导出为csv文件,sql文件,(自己擅长的格式),方便后面的数据分析,如图7
图7
7. 编写可视化代码,在此我使用饼图角度如图8
图8
8. 将程序文件和数据文件放到一个文件夹下,如图9
图9
9. 运行代码,生成结果,如图10,11
图10
图11
10 源码
爬虫源码:
from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
import urllib.request
import sqlite3
import requests
import timeclass HanziDB:def openDB(self):self.con=sqlite3.connect("hanzi.db")self.cursor=self.con.cursor()try:self.cursor.execute('''create table hanzi (name varchar(16),read varchar(16),number varchar(16),bu varchar(16),wu varchar(16),time varchar(24),primary key (name))'''
这篇关于爬取汉字五行元素,并存入数据库的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!