Python库之Web信息提取及其开发

2024-02-14 14:58
文章标签 python 开发 web 信息提取

本文主要是介绍Python库之Web信息提取及其开发,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、Beautiful Soup:HTML和XML的解析库

http://www.crummy.com/software/BeautifulSoup/bs4

  • 提供了解析HTML和XML等Web信息的功能
  • 又名beautifulsoup4或bs4,可以加载多种解析引擎
  • 常与网络爬虫库搭配使用,如Scrapy,requests等

2、Re:正则表达式解析和处理功能库

https://docs.python.org/3.6/library/re.html

  • 提供了定义和解析正则表达式的一批通用功能
  • 可用于各类场景,包括定点的Web信息提取
  • Python最主要的标准库之一,无需安装

3、Python-Goose:提取文章类型Web页面的功能库

https://github.com/grangier/python/goose

  • 提供了对Web页面中文章信息/视频等元数据的提取功能
  • 针对特定类型Web页面,应用覆盖面较广
  • Python最主要的Web信息提取库
from goose import Goose
url='http://www.elmundo.es/elmundo/2012/10/20/espana/1351388909.html'
g=Goose({'use_meta_language':False,'target_language':'es'})
article=g.extract(url=url)
atricle.cleaned_text[:150]

4、Django:最流行的Web应用框架

https://www.djangoproject.com

  • 提供了构建Web系统的基本应用框架
  • MTV模式:模型(model),模板(Template),视图(Views)
  • Python最主要的Web应用框架,略微复杂的应用框架

5、Pyramid:规模适中的Web应用框架

https://trypyramid.com/

  • 提供了简单方面构建Web系统的应用框架
  • 不大不小,规模适中,适合快速构建并适度扩展类应用
  • Python产品级Web应用框架,起步简单可扩展性好
#10行左右的Hello Word程序
from wsgiref.simple_server import make_server
from pyramid.config import Configurator
from pyramid.response import Response
def hello_world(request):return Response('Hello World')
if _name_ == '_main_':with Configurator() as config:config.add_route('hello','/')config.add_view(hello_world,route_name='hello')app=config.make_wsgi_app()server=make_server('0.0.0.0',6543,app)server.serve_forever()	

6、Flask:Web应用开发微框架

http://flask.pocoo.org

  • 提供了最简单构建Web系统的应用框架
  • 特点是:简单、规模小、快速
  • Django>Pyramid>Flask
from flask import Flask
app=Flask(_name_)
@app.route('/')
def hello_world():return 'Hello,World!'

7、WeRoBot:微信公众号开发框架

https://github.com/offu/WeRoBot

  • 提供了解析微信服务器消息及反馈消息的功能
  • 建立微信机器人的重要技术手段
import werobot
robot = werobot.WeRoBot(token='tokenhere')
@robot.handler
def hello(message):		#对微信每个消息反馈一个Hello Worldreturn 'Hello World!'

8、aip:百度AI开放平台接口

https://github.com/Baidu-AIP/python-sdk

  • 提供了访问百度AI服务的Python功能接口
  • 语音、人脸、OCR、NLP、知识图谱、图象搜索等领域
  • Python百度AI应用的最主要方式

7、MyQR:二维码生成第三方库

https://github.com/syInsfar/qrcode

  • 提供了生成二维码的系列功能
  • 基本二维码、艺术二维码和动态二维码

这篇关于Python库之Web信息提取及其开发的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/708801

相关文章

Python脚本实现自动删除C盘临时文件夹

《Python脚本实现自动删除C盘临时文件夹》在日常使用电脑的过程中,临时文件夹往往会积累大量的无用数据,占用宝贵的磁盘空间,下面我们就来看看Python如何通过脚本实现自动删除C盘临时文件夹吧... 目录一、准备工作二、python脚本编写三、脚本解析四、运行脚本五、案例演示六、注意事项七、总结在日常使用

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

python管理工具之conda安装部署及使用详解

《python管理工具之conda安装部署及使用详解》这篇文章详细介绍了如何安装和使用conda来管理Python环境,它涵盖了从安装部署、镜像源配置到具体的conda使用方法,包括创建、激活、安装包... 目录pytpshheraerUhon管理工具:conda部署+使用一、安装部署1、 下载2、 安装3

Python进阶之Excel基本操作介绍

《Python进阶之Excel基本操作介绍》在现实中,很多工作都需要与数据打交道,Excel作为常用的数据处理工具,一直备受人们的青睐,本文主要为大家介绍了一些Python中Excel的基本操作,希望... 目录概述写入使用 xlwt使用 XlsxWriter读取修改概述在现实中,很多工作都需要与数据打交

使用Python实现在Word中添加或删除超链接

《使用Python实现在Word中添加或删除超链接》在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能,本文将为大家介绍一下Python如何实现在Word中添加或... 在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能。通过添加超

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

利用Python编写一个简单的聊天机器人

《利用Python编写一个简单的聊天机器人》这篇文章主要为大家详细介绍了如何利用Python编写一个简单的聊天机器人,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 使用 python 编写一个简单的聊天机器人可以从最基础的逻辑开始,然后逐步加入更复杂的功能。这里我们将先实现一个简单的

基于Python开发电脑定时关机工具

《基于Python开发电脑定时关机工具》这篇文章主要为大家详细介绍了如何基于Python开发一个电脑定时关机工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 简介2. 运行效果3. 相关源码1. 简介这个程序就像一个“忠实的管家”,帮你按时关掉电脑,而且全程不需要你多做

Python实现高效地读写大型文件

《Python实现高效地读写大型文件》Python如何读写的是大型文件,有没有什么方法来提高效率呢,这篇文章就来和大家聊聊如何在Python中高效地读写大型文件,需要的可以了解下... 目录一、逐行读取大型文件二、分块读取大型文件三、使用 mmap 模块进行内存映射文件操作(适用于大文件)四、使用 pand

python实现pdf转word和excel的示例代码

《python实现pdf转word和excel的示例代码》本文主要介绍了python实现pdf转word和excel的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一、引言二、python编程1,PDF转Word2,PDF转Excel三、前端页面效果展示总结一