本文主要是介绍第一个python网络爬虫程序,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
工作原因需要用到爬虫技术,所以就简单的学习了一下,本博客只用来做课程学习记录,不作为其他用途,博客中的内容是参照唐松老师的书籍<
import requests
from bs4 import BeautifulSoup# 获取页面
link = "http://www.zwskw.com/info/cn/54" # 要获取的页面的地址
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.3.3.17611'} # 头部信息r = requests.get(link,headers = headers)
第二步:
# 提取要抓取的内容
soup = BeautifulSoup(r.text, 'lxml')
title = soup.find('div', class_='eui-news-txt').a.text.strip() # 可以运用浏览器的审查元素功能
第三步:
# 存储要抓取的内容
with open('title.txt', 'a+') as f:f.write(title)f.close()
最后会在python的同级目录下生成一个名称问title的txt文件,文件中的内容如下所示:
这篇关于第一个python网络爬虫程序的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!