爬取汉字五行元素,并存入数据库

本文主要是介绍爬取汉字五行元素,并存入数据库，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

爬取汉字五行元素,并存入数据库

源码我放在了最后(嘿嘿),希望对你有用

1 实验目的

实现数据标题收集并可视化

2 实验任务

爬取汉字五行元素并选择角度实现可视化:
我选择的主题:可视化爬取数据中,字的笔画分布,用饼图可视化

3 实验环境

Python3.7+Anaconda3(spyder)

4 实验步骤

安装pyecharts库等可视化时需要的库
分析网页
通过分析网页结构标签,爬取每个字单独的网页网址,如图1,以及分析如何定位汉字模块,如图2
图1

图2
编写爬取网址的爬虫代码,在此只爬取一个元素的部分汉字的网址,如果想爬取每个元素的所有汉字,以一样的方式,收集网址,原理一样,收集网址代码如图3,循环网址爬取汉字如图4:

图3
在这里插入图片描述

图4
5. 运行代码,结果如图5 数据库结果如图6
在这里插入图片描述

图5
在这里插入图片描述

图6
6. 将数据导出为csv文件,sql文件,(自己擅长的格式),方便后面的数据分析,如图7
在这里插入图片描述

图7
7. 编写可视化代码,在此我使用饼图角度如图8
在这里插入图片描述

图8
8. 将程序文件和数据文件放到一个文件夹下,如图9
在这里插入图片描述

图9
9. 运行代码,生成结果,如图10,11
在这里插入图片描述

图10
在这里插入图片描述

图11
10 源码
爬虫源码:

from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
import urllib.request
import sqlite3
import requests
import timeclass HanziDB:def openDB(self):self.con=sqlite3.connect("hanzi.db")self.cursor=self.con.cursor()try:self.cursor.execute('''create table hanzi (name varchar(16),read varchar(16),number varchar(16),bu varchar(16),wu varchar(16),time varchar(24),primary key (name))'''