本文主要是介绍python网络爬虫 第三周日志,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
这周我们干了啥?
组员:赵方震、杨慧慧、王璐格格、王金曼、曹畅、白杨、白霞
爬虫的筛选信息:我们采用了XPath表达式来筛选所需要的信息。
XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。
•XPath 使用路径表达式在 XML 文档中进行导航
•XPath 包含一个标准函数库
•XPath 是 XSLT 中的主要元素
•XPath 是一个 W3C 标准
爬取图书:
爬取网页HTML(try-except)(王璐格格)
使用正则表达式筛选HTML中的信息
将信息写入Excel(白霞)
主程序(白霞)
爬取电影:
爬取网页HTML并转化为lxml(曹畅)
使用xpath筛选数据(杨慧慧)
获取图片URL并下载到文件夹(白杨)
判断电影是否有引言(王金曼)
这篇关于python网络爬虫 第三周日志的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!