本文主要是介绍Python爬取新闻标题及链接存储至MySQL(含源码),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
请求网页: https://www.tsinghua.edu.cn/news.htm/
一. 首先要获取数据,将数据暂存于 list列表
二. 将数据存储至MySQL:
1.创建连接
2.创建游标
3.传入参数,执行命令
4.数据提交(提交至MySQL)
5.关闭游标、链接
注意: 运行代码前在MySQL新建表,做到代码与数据库的3个对应:
1. 用户名、密码对应
2. 数据库名对应
3. 传入参数时的表名、表中栏位名对应
运行结果:
```源码```
import pandas as pd
import pymysql
import requests
from lxml import etree# 请求网址
url = 'https://www.tsinghua.edu.cn/news.htm'
# 请求头
header = {'user_agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36'
}
# 获取响应
response = requests.get(url=url, headers=header).content
# 解码
chi = response.decode('utf-8')
# 解析html
html = etree.HTML(chi)
# 通过xpath解析、筛选获取数据
data = html.xpath('/html/body/div[6]/div/div/ul/li/div[3]/a')for i in data:# 创建列表用于存储爬取的数据list = []# 获取标题 , 并将标题数据加入 list 列表title_text = i.xpath('.//text()')[0]# list.append(title_text)# 获取urltitle_url = i.xpath('./@href')[0]# url 不完整,则拼接成完整url, 并将完整url 加入list列表if 'https' not in str(title_url):stitch_url = 'https://www.tsinghua.edu.cn/' + title_urllist.append([title_text, stitch_url])else:list.append([title_text, title_url])print(list)# MYSQL# 1. 创建链接conn = pymysql.connect(host='127.0.0.1', # 本地MYSQLuser='root', # 用户名password='00000', # 密码port=3306, # 端口号, 默认就为3306,可写可不写database='gradem', # 数据库名charset='utf8' # 编码)# 2. 创建游标cur = conn.cursor()n = 1for l in list:try:# 3. 传入参数, 执行命令cur.execute('insert into list(title, url) values(%s, %s)', (l[0], l[1]))# 4. 数据提交 (提交至MySQL)conn.commit()except Exception as e:# 数据回滚conn.rollback()print('第' + str(n) + '数据存储失败!')n += 1# 5. 关闭游标、连接cur.close()conn.close()
这篇关于Python爬取新闻标题及链接存储至MySQL(含源码)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!