python爬虫,抓取新浪科技的文章(beautifulsoup+mysql)

本文主要是介绍python爬虫,抓取新浪科技的文章(beautifulsoup+mysql),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这几天的辛苦没有白费,总算完成了对新浪科技的文章抓取,除非没有新的内容了,否则会一直爬取新浪科技的文章。

想了解更多可以关注我的github:https://github.com/libp/WebSpider

如果想要数据库表结构可以留下邮箱~

# -*- coding: utf-8 -*-__author__ = 'Peng'
from bs4 import BeautifulSoup,Comment
import urllib2
from urllib2 import urlopen,HTTPError
import MySQLdb
import json
import datetime
import logging
import sys
import re
import time#配置日志输出位置为控制台
logging.basicConfig(level=logging.DEBUG,format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',datefmt='%a, %d %b %Y %H:%M:%S',stream=sys.stdout)def spiderSinaTech(url,webname):conn = getConn();cur = conn.cursor()data = getSinaArticle(url,webname)if (data == None):#不能解析目标网页return -1try:sqlInsertArticle="insert into tbl_peng_article (title,author,content,createTime,getTime,url,webname) values (%s,%s,%s,%s,%s,%s,%s)"result = cur.execute(sqlInsertArticle,(data['title'],data['author'],data['article'],data['published_time'],data['getTime'],data['url'],data['webname']))except MySQLdb.Error,e:print "Mysql Error %d: %s" % (e.args[0], e.args[1])conn.commit()cur.close()conn.close()return resultdef getSinaArticle(url,webname):#创建字典用来储存函数的返回结果dict={'url':url,'title':'','published_time':'','getTime':'','author':'','article':'','webname':webname}#创建请求头headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 ""(KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36","Accept":"*/*"}#打开网页try:dict['url']=urlrequest = urllib2.Request(url,headers=headers)html = urlopen(request)except HTTPError as e:print(e)#读取网页内容并转换成树形文档结构soup = BeautifulSoup(html.read(),"lxml")#去除html注释for element in soup(text=lambda text: isinstance(text, Comment)):element.extract()#过滤JavaScript[s.extract() for s in soup('script')]try:#获取标题title = soup.find(id="main_title").get_text();# print(title)dict['title'] = titleexcept:return None#获取发布时间published_time = soup.find(property="article:published_time")['content'];#2017-06-03T11:31:53+08:00   这种时间格式叫UTC时间格式...很恶心# print(published_time)UTC_FORMAT = "%Y-%m-%dT%H:%M:%S+08:00"dict['published_time'] = datetime.datetime.strptime(published_time, UTC_FORMAT)#获取作者author = soup.find(property="article:author")['content'];# print(author)dict['author'] = author#获取文章主体content = soup.find(id="artibody");img = content.find_all(class_="img_wrapper")#删除文档书中图片标签for del_img in img:del_img.decompose()#获取文章主体各个段落paragraph = soup.find(id="artibody").contents;#最终入库的文章内容article =""for child in paragraph:article += str(child)# print(article)dict['article'] = article# print json.dumps(dict)# date在转换成json的时候包括,需要重构date转换的函数# return json.dumps(dict)#文章抓取时间dict['getTime']=str(datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))return dictdef getConn():conn= MySQLdb.connect(host='localhost',port = 3306,user='root',passwd='root',db ='nichuiniu',charset='utf8',)return conndef GOSina(url,webname):#创建链接集合# pages = set()#创建字典用来储存函数的返回结果# dict={'url':url,'title':'','published_time':'','getTime':'','author':'','article':'','webname':webname}#创建请求头headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 ""(KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36","Accept":"*/*"}#打开网页try:request = urllib2.Request(url,headers=headers)html = urlopen(request)except HTTPError as e:print(e)#读取网页内容并转换成树形文档结构soup = BeautifulSoup(html.read(),"lxml")conn = getConn();cur = conn.cursor()#声明一个数组用来存储入库的文章链接L = []for link in soup.findAll("a",href=re.compile(r'(.*?)(tech)(.*?)(\d{4}-\d{2}-\d{2})(/doc-ify)')):if 'href' in link.attrs:#提取href中的url,并规范格式去除分页参数xurl = re.compile(r'(.*?shtml)').search(link.attrs['href']).group(1)sqlQueryUrl="select * from tbl_peng_article where url='%s'"%xurl# print link.attrs['href']result = cur.execute(sqlQueryUrl)conn.commit()if ( result == 0 ):# data = getSinaArticle(url,webname)rs = spiderSinaTech(xurl,webname)if( rs > 0 ):logging.info("----URL has insert into database :%s"%xurl)L.append(xurl)time.sleep( 2 )elif( rs == -1):logging.info("****URL content cannt be understand %s"%xurl)else :logging.info("&&&&URL already in database %s"%xurl)cur.close()conn.close()#如果不为空就返回最后一个url,为空则停止抓取if L:return L[-1]else:return 0logging.info("begin spider sina tech")
url="http://tech.sina.com.cn/it/2017-06-07/doc-ifyfuzny3756083.shtml"
webname="sina"
x = GOSina(url,webname)
if x!= 0:GOSina(x,webname)logging.info("end spider sina tech")


这篇关于python爬虫,抓取新浪科技的文章(beautifulsoup+mysql)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1034754

相关文章

SQL server数据库如何下载和安装

《SQLserver数据库如何下载和安装》本文指导如何下载安装SQLServer2022评估版及SSMS工具,涵盖安装配置、连接字符串设置、C#连接数据库方法和安全注意事项,如混合验证、参数化查... 目录第一步:打开官网下载对应文件第二步:程序安装配置第三部:安装工具SQL Server Manageme

C#连接SQL server数据库命令的基本步骤

《C#连接SQLserver数据库命令的基本步骤》文章讲解了连接SQLServer数据库的步骤,包括引入命名空间、构建连接字符串、使用SqlConnection和SqlCommand执行SQL操作,... 目录建议配合使用:如何下载和安装SQL server数据库-CSDN博客1. 引入必要的命名空间2.

使用Python删除Excel中的行列和单元格示例详解

《使用Python删除Excel中的行列和单元格示例详解》在处理Excel数据时,删除不需要的行、列或单元格是一项常见且必要的操作,本文将使用Python脚本实现对Excel表格的高效自动化处理,感兴... 目录开发环境准备使用 python 删除 Excphpel 表格中的行删除特定行删除空白行删除含指定

全面掌握 SQL 中的 DATEDIFF函数及用法最佳实践

《全面掌握SQL中的DATEDIFF函数及用法最佳实践》本文解析DATEDIFF在不同数据库中的差异,强调其边界计算原理,探讨应用场景及陷阱,推荐根据需求选择TIMESTAMPDIFF或inte... 目录1. 核心概念:DATEDIFF 究竟在计算什么?2. 主流数据库中的 DATEDIFF 实现2.1

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

MySQL中的LENGTH()函数用法详解与实例分析

《MySQL中的LENGTH()函数用法详解与实例分析》MySQLLENGTH()函数用于计算字符串的字节长度,区别于CHAR_LENGTH()的字符长度,适用于多字节字符集(如UTF-8)的数据验证... 目录1. LENGTH()函数的基本语法2. LENGTH()函数的返回值2.1 示例1:计算字符串

Python通用唯一标识符模块uuid使用案例详解

《Python通用唯一标识符模块uuid使用案例详解》Pythonuuid模块用于生成128位全局唯一标识符,支持UUID1-5版本,适用于分布式系统、数据库主键等场景,需注意隐私、碰撞概率及存储优... 目录简介核心功能1. UUID版本2. UUID属性3. 命名空间使用场景1. 生成唯一标识符2. 数

浅谈mysql的not exists走不走索引

《浅谈mysql的notexists走不走索引》在MySQL中,​NOTEXISTS子句是否使用索引取决于子查询中关联字段是否建立了合适的索引,下面就来介绍一下mysql的notexists走不走索... 在mysql中,​NOT EXISTS子句是否使用索引取决于子查询中关联字段是否建立了合适的索引。以下

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

Python包管理工具pip的升级指南

《Python包管理工具pip的升级指南》本文全面探讨Python包管理工具pip的升级策略,从基础升级方法到高级技巧,涵盖不同操作系统环境下的最佳实践,我们将深入分析pip的工作原理,介绍多种升级方... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核