python判断目标网页编码

2024-06-23 01:58

文章标签 python 网页编码判断目标

本文主要是介绍python判断目标网页编码，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

第一种是使用requests模块下载网页后会得到一个response对象，通过response对象的apparent_encoding方法可以获得目标网页的编码：

import requests
url = 'http://news.ifeng.com/a/20180311/56636409_0.shtml'
resp = requests.get(url)
resp.apparent_encoding

输出：

'utf-8'

第二种是使用chardet模块的detect方法：

import requests
import chardet
url = 'http://news.ifeng.com/a/20180311/56636409_0.shtml'
resp = requests.get(url)
chardet.detect(resp.text.encode('utf8')).get('encoding')

输出：

'utf-8'

以上编程环境为Python2

第三种

使用requests.utils.get_encoding_from_headers，或者requests.utils.get_encodings_from_content

相比于前两种方法，如果加入logging模块并设置log的级别为debug的时候，第三种方法不会打印过多的log信息

这篇关于python判断目标网页编码的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/1086004。 23002807@qq.com

相关文章

Java面试八股之怎么通过Java程序判断JVM是32位还是64位

Java面试八股之怎么通过Java程序判断JVM是32位还是64位

怎么通过Java程序判断JVM是32位还是64位可以通过Java程序内部检查系统属性来判断当前运行的JVM是32位还是64位。以下是一个简单的方法： public class JvmBitCheck {public static void main(String[] args) {String arch = System.getProperty("os.arch");String dataM

阅读更多...

Python 字符串占位

Python 字符串占位

在Python中，可以使用字符串的格式化方法来实现字符串的占位。常见的方法有百分号操作符 % 以及 str.format() 方法百分号操作符 % name = "张三"age = 20message = "我叫%s，今年%d岁。" % (name, age)print(message) # 我叫张三，今年20岁。 str.format() 方法 name = "张三"age

阅读更多...

问题-windows-VPN不正确关闭导致网页打不开

问题-windows-VPN不正确关闭导致网页打不开

为什么会发生这类事情呢？主要原因是关机之前vpn没有关掉导致的。至于为什么没关掉vpn会导致网页打不开，我猜测是因为vpn建立的链接没被更改。正确关掉vpn的时候，会把ip链接断掉，如果你不正确关掉，ip链接没有断掉，此时你vpn又是没启动的，没有域名解析，所以就打不开网站。你可以在打不开网页的时候，把vpn打开，你会发现网络又可以登录了。方法一注意：方法一虽然方便，但是可能会有

阅读更多...

一道经典Python程序样例带你飞速掌握Python的字典和列表

一道经典Python程序样例带你飞速掌握Python的字典和列表

Python中的列表（list）和字典（dict）是两种常用的数据结构，它们在数据组织和存储方面有很大的不同。列表（List）列表是Python中的一种有序集合，可以随时添加和删除其中的元素。列表中的元素可以是任何数据类型，包括数字、字符串、其他列表等。列表使用方括号[]表示，元素之间用逗号,分隔。定义和使用 # 定义一个列表 fruits = ['apple', 'banana

阅读更多...

Python应用开发——30天学习Streamlit Python包进行APP的构建（9）

Python应用开发——30天学习Streamlit Python包进行APP的构建（9）

st.area_chart 显示区域图。这是围绕 st.altair_chart 的语法糖。主要区别在于该命令使用数据自身的列和指数来计算图表的 Altair 规格。因此，在许多 "只需绘制此图 "的情况下，该命令更易于使用，但可定制性较差。如果 st.area_chart 无法正确猜测数据规格，请尝试使用 st.altair_chart 指定所需的图表。 Function signa

阅读更多...

python实现最简单循环神经网络(RNNs)

python实现最简单循环神经网络(RNNs)

Recurrent Neural Networks（RNNs）的模型：上图中红色部分是输入向量。文本、单词、数据都是输入，在网络里都以向量的形式进行表示。绿色部分是隐藏向量。是加工处理过程。蓝色部分是输出向量。 python代码表示如下： rnn = RNN()y = rnn.step(x) # x为输入向量，y为输出向量 RNNs神经网络由神经元组成， python

阅读更多...

python 喷泉码

python 喷泉码

因为要完成毕业设计，毕业设计做的是数据分发与传输的东西。在网络中数据容易丢失，所以我用fountain code做所发送数据包的数据恢复。fountain code属于有限域编码的一部分，有很广泛的应用。我们日常生活中使用的二维码，就用到foutain code做数据恢复。你遮住二维码的四分之一，用手机的相机也照样能识别。你遮住的四分之一就相当于丢失的数据包。为了实现并理解foutain

阅读更多...

python 点滴学

python 点滴学

1 python 里面tuple是无法改变的 tuple = （1,）,计算tuple里面只有一个元素，也要加上逗号 2 1 毕业论文改 2 leetcode第一题做出来

阅读更多...

Python爬虫-贝壳新房

Python爬虫-贝壳新房

前言本文是该专栏的第32篇，后面会持续分享python爬虫干货知识，记得关注。本文以某房网为例，如下图所示，采集对应城市的新房房源数据。具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。接下来，跟着笔者直接往下看正文详细内容。（附带完整代码）正文地址：aHR0cHM6Ly93aC5mYW5nLmtlLmNvbS9sb3VwYW4v 目标：采集对应城市的

阅读更多...

python 在pycharm下能导入外面的模块，到terminal下就不能导入

python 在pycharm下能导入外面的模块，到terminal下就不能导入

项目结构如下，在ic2ctw.py 中导入util，在pycharm下不报错，但是到terminal下运行报错 File "deal_data/ic2ctw.py", line 3, in <module> import util 解决方案：暂时方案：在终端下：export PYTHONPATH=/Users/fujingling/PycharmProjects/PSENe

阅读更多...