本文主要是介绍python 提取网页正文_Python爬虫爬取会计师协会网站的指定文章(实例57),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
由于业务原因,需要经常关注“注册会计师协会”网站“最新公告”栏目里的“委员会专家提示”相关文章。不想每次进网站一个一个地点击,然后复制到word文件。如果能一次批量爬取,并存到word文件就好啦。
此处用到两个库,“requests”和“beautifulsoup”。“requests”用于发送HTTP请求,并获取网页的内容。“beautifulsoup”用于解析获取到的网页内容,非常简单又方便地为用户提供需要抓取的数据,比如文字内容,图片链接等。若未安装,则运行cmd,输入pip install requests及pip install beautifulsoup4。
库准备好后,就可以开始爬虫之旅了。先随便选择一篇文章,点击进去,看看网页的情况。单个文章的网页的Request Method(请求方法)一般都是get。如果不确定,可以点击"Network",然后刷新页面,在左侧"Name"栏选第一个文件,然后再选"Headers"查看"Request Method"。由于请求方法是get,所以我们用requests获取链接信息的时候就要用get。将获取到的链接信息传递给wb_data变量,然后调用BeautifulSoup进行解析。此处,我们传入BeautifulSoup中的参数是wb_d
这篇关于python 提取网页正文_Python爬虫爬取会计师协会网站的指定文章(实例57)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!