python爬虫,抓取新浪科技的文章(beautifulsoup+mysql)

本文主要是介绍python爬虫,抓取新浪科技的文章(beautifulsoup+mysql),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这几天的辛苦没有白费,总算完成了对新浪科技的文章抓取,除非没有新的内容了,否则会一直爬取新浪科技的文章。

想了解更多可以关注我的github:https://github.com/libp/WebSpider

如果想要数据库表结构可以留下邮箱~

# -*- coding: utf-8 -*-__author__ = 'Peng'
from bs4 import BeautifulSoup,Comment
import urllib2
from urllib2 import urlopen,HTTPError
import MySQLdb
import json
import datetime
import logging
import sys
import re
import time#配置日志输出位置为控制台
logging.basicConfig(level=logging.DEBUG,format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',datefmt='%a, %d %b %Y %H:%M:%S',stream=sys.stdout)def spiderSinaTech(url,webname):conn = getConn();cur = conn.cursor()data = getSinaArticle(url,webname)if (data == None):#不能解析目标网页return -1try:sqlInsertArticle="insert into tbl_peng_article (title,author,content,createTime,getTime,url,webname) values (%s,%s,%s,%s,%s,%s,%s)"result = cur.execute(sqlInsertArticle,(data['title'],data['author'],data['article'],data['published_time'],data['getTime'],data['url'],data['webname']))except MySQLdb.Error,e:print "Mysql Error %d: %s" % (e.args[0], e.args[1])conn.commit()cur.close()conn.close()return resultdef getSinaArticle(url,webname):#创建字典用来储存函数的返回结果dict={'url':url,'title':'','published_time':'','getTime':'','author':'','article':'','webname':webname}#创建请求头headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 ""(KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36","Accept":"*/*"}#打开网页try:dict['url']=urlrequest = urllib2.Request(url,headers=headers)html = urlopen(request)except HTTPError as e:print(e)#读取网页内容并转换成树形文档结构soup = BeautifulSoup(html.read(),"lxml")#去除html注释for element in soup(text=lambda text: isinstance(text, Comment)):element.extract()#过滤JavaScript[s.extract() for s in soup('script')]try:#获取标题title = soup.find(id="main_title").get_text();# print(title)dict['title'] = titleexcept:return None#获取发布时间published_time = soup.find(property="article:published_time")['content'];#2017-06-03T11:31:53+08:00   这种时间格式叫UTC时间格式...很恶心# print(published_time)UTC_FORMAT = "%Y-%m-%dT%H:%M:%S+08:00"dict['published_time'] = datetime.datetime.strptime(published_time, UTC_FORMAT)#获取作者author = soup.find(property="article:author")['content'];# print(author)dict['author'] = author#获取文章主体content = soup.find(id="artibody");img = content.find_all(class_="img_wrapper")#删除文档书中图片标签for del_img in img:del_img.decompose()#获取文章主体各个段落paragraph = soup.find(id="artibody").contents;#最终入库的文章内容article =""for child in paragraph:article += str(child)# print(article)dict['article'] = article# print json.dumps(dict)# date在转换成json的时候包括,需要重构date转换的函数# return json.dumps(dict)#文章抓取时间dict['getTime']=str(datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))return dictdef getConn():conn= MySQLdb.connect(host='localhost',port = 3306,user='root',passwd='root',db ='nichuiniu',charset='utf8',)return conndef GOSina(url,webname):#创建链接集合# pages = set()#创建字典用来储存函数的返回结果# dict={'url':url,'title':'','published_time':'','getTime':'','author':'','article':'','webname':webname}#创建请求头headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 ""(KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36","Accept":"*/*"}#打开网页try:request = urllib2.Request(url,headers=headers)html = urlopen(request)except HTTPError as e:print(e)#读取网页内容并转换成树形文档结构soup = BeautifulSoup(html.read(),"lxml")conn = getConn();cur = conn.cursor()#声明一个数组用来存储入库的文章链接L = []for link in soup.findAll("a",href=re.compile(r'(.*?)(tech)(.*?)(\d{4}-\d{2}-\d{2})(/doc-ify)')):if 'href' in link.attrs:#提取href中的url,并规范格式去除分页参数xurl = re.compile(r'(.*?shtml)').search(link.attrs['href']).group(1)sqlQueryUrl="select * from tbl_peng_article where url='%s'"%xurl# print link.attrs['href']result = cur.execute(sqlQueryUrl)conn.commit()if ( result == 0 ):# data = getSinaArticle(url,webname)rs = spiderSinaTech(xurl,webname)if( rs > 0 ):logging.info("----URL has insert into database :%s"%xurl)L.append(xurl)time.sleep( 2 )elif( rs == -1):logging.info("****URL content cannt be understand %s"%xurl)else :logging.info("&&&&URL already in database %s"%xurl)cur.close()conn.close()#如果不为空就返回最后一个url,为空则停止抓取if L:return L[-1]else:return 0logging.info("begin spider sina tech")
url="http://tech.sina.com.cn/it/2017-06-07/doc-ifyfuzny3756083.shtml"
webname="sina"
x = GOSina(url,webname)
if x!= 0:GOSina(x,webname)logging.info("end spider sina tech")


这篇关于python爬虫,抓取新浪科技的文章(beautifulsoup+mysql)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1034754

相关文章

Python正则表达式语法及re模块中的常用函数详解

《Python正则表达式语法及re模块中的常用函数详解》这篇文章主要给大家介绍了关于Python正则表达式语法及re模块中常用函数的相关资料,正则表达式是一种强大的字符串处理工具,可以用于匹配、切分、... 目录概念、作用和步骤语法re模块中的常用函数总结 概念、作用和步骤概念: 本身也是一个字符串,其中

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

SQL中redo log 刷⼊磁盘的常见方法

《SQL中redolog刷⼊磁盘的常见方法》本文主要介绍了SQL中redolog刷⼊磁盘的常见方法,将redolog刷入磁盘的方法确保了数据的持久性和一致性,下面就来具体介绍一下,感兴趣的可以了解... 目录Redo Log 刷入磁盘的方法Redo Log 刷入磁盘的过程代码示例(伪代码)在数据库系统中,r

python实现svg图片转换为png和gif

《python实现svg图片转换为png和gif》这篇文章主要为大家详细介绍了python如何实现将svg图片格式转换为png和gif,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录python实现svg图片转换为png和gifpython实现图片格式之间的相互转换延展:基于Py

Python中的getopt模块用法小结

《Python中的getopt模块用法小结》getopt.getopt()函数是Python中用于解析命令行参数的标准库函数,该函数可以从命令行中提取选项和参数,并对它们进行处理,本文详细介绍了Pyt... 目录getopt模块介绍getopt.getopt函数的介绍getopt模块的常用用法getopt模

Python利用ElementTree实现快速解析XML文件

《Python利用ElementTree实现快速解析XML文件》ElementTree是Python标准库的一部分,而且是Python标准库中用于解析和操作XML数据的模块,下面小编就来和大家详细讲讲... 目录一、XML文件解析到底有多重要二、ElementTree快速入门1. 加载XML的两种方式2.

Python如何精准判断某个进程是否在运行

《Python如何精准判断某个进程是否在运行》这篇文章主要为大家详细介绍了Python如何精准判断某个进程是否在运行,本文为大家整理了3种方法并进行了对比,有需要的小伙伴可以跟随小编一起学习一下... 目录一、为什么需要判断进程是否存在二、方法1:用psutil库(推荐)三、方法2:用os.system调用

mysql中的group by高级用法

《mysql中的groupby高级用法》MySQL中的GROUPBY是数据聚合分析的核心功能,主要用于将结果集按指定列分组,并结合聚合函数进行统计计算,下面给大家介绍mysql中的groupby用法... 目录一、基本语法与核心功能二、基础用法示例1. 单列分组统计2. 多列组合分组3. 与WHERE结合使

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

Python实现图片分割的多种方法总结

《Python实现图片分割的多种方法总结》图片分割是图像处理中的一个重要任务,它的目标是将图像划分为多个区域或者对象,本文为大家整理了一些常用的分割方法,大家可以根据需求自行选择... 目录1. 基于传统图像处理的分割方法(1) 使用固定阈值分割图片(2) 自适应阈值分割(3) 使用图像边缘检测分割(4)