数据资源整理【二】:爬虫获取329万多条姓名数据并保存为sqlite3、Excel、csv文件【文末下载链接】

本文主要是介绍数据资源整理【二】:爬虫获取329万多条姓名数据并保存为sqlite3、Excel、csv文件【文末下载链接】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 数据说明
  • 数据来源
  • 源码讲解
  • 下载地址

数据说明

在这里插入图片描述

数据来源

公开网站《姓名大全》获取,数据和源码仅供学习交流使用

源码讲解

主要分为三部分:

  • get_name_link获取所有百家姓地址
  • get_data获取百家姓地址中的所有姓名
  • create_db创建数据库,保存数据
import time
import random
import requests
import sqlite3
from bs4 import BeautifulSoupdef get_name_link():# 解析百家姓列表,获取姓名对应的地址url = "http://www.resgain.net/xmdq.html"res = requests.get(url)soup = BeautifulSoup(res.text, 'lxml')name_links = []for s in soup.find_all(attrs={'class': 'btn btn2'}):name_link_dict = {"name": s.text,"link": "https://www.resgain.net/" + s.get('href')}name_links.append(name_link_dict)return name_linksdef get_data(first_name, url):# 连接数据库con = sqlite3.connect(r'tools_app.db')cursor = con.cursor()# 获取数据,并解析数据res = requests.get(url)soup = BeautifulSoup(res.text, 'lxml')if "gender=1" in url:sex_ = "男"else:sex_ = "女"for s in soup.find_all(attrs={'class': 'cname'}):name = s.text# print(s.text)sql = "insert into names (first_name,name,sex) values('{0}','{1}','{2}');".format(first_name, name, sex_)cursor.execute(sql)con.commit()print(url, "完成")con.close()def create_db():# 创建 sqlite3 数据库conn = sqlite3.connect(r"tools_app.db")cursor = conn.cursor()cursor.execute('''CREATE TABLE if not exists names(id INTEGER PRIMARY KEY  AUTOINCREMENT,first_name           TEXT    NOT NULL,name           TEXT    NOT NULL,sex         TEXT    NOT NULL);''')print("names database created successfully")conn.commit()conn.close()if __name__ == '__main__':# 创建数据库和RANDOM_NAME表create_db()# 获取百家姓连接地址name_link_list = get_name_link()# print(name_link_list)for name_link in name_link_list[70:]:# 拼接男生和女生的地址link = name_link.get("link")first_name = name_link.get("name")url_boys = link + "&gender=1&wx1=&wx2="url_girls = link + "&gender=0&wx1=&wx2="# 获取数据,并保存到 tools_app.db 中get_data(first_name, url_boys)# 每次获取完成后,随机暂停几秒t = random.randint(1, 3)time.sleep(t)get_data(first_name, url_girls)t = random.randint(1, 3)time.sleep(t)print(first_name,"完成!")# break

下载地址

链接:https://pan.baidu.com/s/17ddiWLEZdz8XFa5XsWQz1w?pwd=o8i5

这篇关于数据资源整理【二】:爬虫获取329万多条姓名数据并保存为sqlite3、Excel、csv文件【文末下载链接】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!


原文地址:https://blog.csdn.net/weixin_42060598/article/details/129764918
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.chinasem.cn/article/306404

相关文章

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

微信公众号脚本-获取热搜自动新建草稿并发布文章

《微信公众号脚本-获取热搜自动新建草稿并发布文章》本来想写一个自动化发布微信公众号的小绿书的脚本,但是微信公众号官网没有小绿书的接口,那就写一个获取热搜微信普通文章的脚本吧,:本文主要介绍微信公众... 目录介绍思路前期准备环境要求获取接口token获取热搜获取热搜数据下载热搜图片给图片加上标题文字上传图片

Java实现文件图片的预览和下载功能

《Java实现文件图片的预览和下载功能》这篇文章主要为大家详细介绍了如何使用Java实现文件图片的预览和下载功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... Java实现文件(图片)的预览和下载 @ApiOperation("访问文件") @GetMapping("

Pandas使用SQLite3实战

《Pandas使用SQLite3实战》本文主要介绍了Pandas使用SQLite3实战,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学... 目录1 环境准备2 从 SQLite3VlfrWQzgt 读取数据到 DataFrame基础用法:读

Java利用JSONPath操作JSON数据的技术指南

《Java利用JSONPath操作JSON数据的技术指南》JSONPath是一种强大的工具,用于查询和操作JSON数据,类似于SQL的语法,它为处理复杂的JSON数据结构提供了简单且高效... 目录1、简述2、什么是 jsONPath?3、Java 示例3.1 基本查询3.2 过滤查询3.3 递归搜索3.4

java中使用POI生成Excel并导出过程

《java中使用POI生成Excel并导出过程》:本文主要介绍java中使用POI生成Excel并导出过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录需求说明及实现方式需求完成通用代码版本1版本2结果展示type参数为atype参数为b总结注:本文章中代码均为

MySQL大表数据的分区与分库分表的实现

《MySQL大表数据的分区与分库分表的实现》数据库的分区和分库分表是两种常用的技术方案,本文主要介绍了MySQL大表数据的分区与分库分表的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有... 目录1. mysql大表数据的分区1.1 什么是分区?1.2 分区的类型1.3 分区的优点1.4 分

Mysql删除几亿条数据表中的部分数据的方法实现

《Mysql删除几亿条数据表中的部分数据的方法实现》在MySQL中删除一个大表中的数据时,需要特别注意操作的性能和对系统的影响,本文主要介绍了Mysql删除几亿条数据表中的部分数据的方法实现,具有一定... 目录1、需求2、方案1. 使用 DELETE 语句分批删除2. 使用 INPLACE ALTER T

Python Dash框架在数据可视化仪表板中的应用与实践记录

《PythonDash框架在数据可视化仪表板中的应用与实践记录》Python的PlotlyDash库提供了一种简便且强大的方式来构建和展示互动式数据仪表板,本篇文章将深入探讨如何使用Dash设计一... 目录python Dash框架在数据可视化仪表板中的应用与实践1. 什么是Plotly Dash?1.1

Python下载Pandas包的步骤

《Python下载Pandas包的步骤》:本文主要介绍Python下载Pandas包的步骤,在python中安装pandas库,我采取的方法是用PIP的方法在Python目标位置进行安装,本文给大... 目录安装步骤1、首先找到我们安装python的目录2、使用命令行到Python安装目录下3、我们回到Py