【python学习笔记】chardet模块检测编码

2024-02-23 12:48

本文主要是介绍【python学习笔记】chardet模块检测编码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

# -*- coding: utf-8 -*-
"""
Created on Wed Mar 18 14:16:16 2020@author: weisssun
"""
#chardet模块可以用来检测编码
#判断位置编码的方法,是先收集各种编码的特征字符,根据特征字符的匹配进行判断
#chardet模块已经收集了这样的特征字符
#在调用该模块时,它就会将被识别数据的编码与特征字符库进行匹配,从而进行“猜测”
#因此,这样的猜测也有准确程度的问题#参考链接:https://www.liaoxuefeng.com/wiki/1016959663602400/1183255880134144
#参考链接:https://www.jianshu.com/p/d73c0017158cimport chardet
#导入 chardet 模块testdata = open(r'D:\Python\comment_analysis\dict\stopwords.txt', 'rb').read()
# open('文件路径', 'rb').read()
#打开要识别编码的数据
#打开测试文件,chardet 只能对 bytes 形式的编码进行检测,因此文件打开方式是 'rb'codInf = chardet.detect(testdata)
# chardet.detect(要识别编码的数据)
#调用detect方法识别编码
print(codInf)
#输出的是字典格式的结果
#{'encoding': 'UTF-8-SIG', 'confidence': 1.0, 'language': ''}
#分别是 encoding 编码方式
#      confidence 判断编码方式的正确率
#      language 编码方式的语言( gbk 就会显示是中文)codType = codInf['encoding']
# 字典['encoding']
#从字典中取出编码方式,传入后续的各种地方
print(codType)
print(type(codType))
#最终给出的是 str 格式的编码方式#上述方法,chardet会全部读取文件,然后判断编码格式
#如果文件比较大,效率就会很低
#另一种方法是一行一行读取数据,将数据喂给UniversalDetector,当读取的数据足以做出判断时,就停下来print('————————————我是分隔符————————————')
print('大文件识别编码')from chardet.universaldetector import UniversalDetector
#导入 UniversalDetector 方法detector = UniversalDetector()
# UniversalDetector()
#创建 UniversalDetector 方法实例 detectorbigdata = open(r'D:\Python\comment_analysis\dict\stopwords.txt', 'rb').readlines()for line in bigdata:detector.feed(line)if detector.done:break
detector.close()
#一行一行读取数据,将数据喂给detector,当读取的数据足以做出判断时,就停下来codInf2 = detector.result
print(codInf2)codType2 = codInf2['encoding']
print(codType)#多个文件判断编码同上
#重复调用 UniversalDetector 时,要先初始化
#UniversalDetector实例.reset()print('————————————我是分隔符————————————')
print('多个文件识别编码')'''
import os
from chardet.universaldetector import UniversalDetectordetector = UniversalDetector()
dirlist = os.dirlist('/Users/suosuo/Desktop/Test')
for name in dirlist:path = os.getcwd()+'\\%s'%namedetector.reset()for line in open(path, 'rb').readlines():detector.feed(line)if detector.done: breakdetector.close()print(detector.result)
'''

这篇关于【python学习笔记】chardet模块检测编码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/738682

相关文章

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

python 字典d[k]中key不存在的解决方案

《python字典d[k]中key不存在的解决方案》本文主要介绍了在Python中处理字典键不存在时获取默认值的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录defaultdict:处理找不到的键的一个选择特殊方法__missing__有时候为了方便起见,

使用Python绘制可爱的招财猫

《使用Python绘制可爱的招财猫》招财猫,也被称为“幸运猫”,是一种象征财富和好运的吉祥物,经常出现在亚洲文化的商店、餐厅和家庭中,今天,我将带你用Python和matplotlib库从零开始绘制一... 目录1. 为什么选择用 python 绘制?2. 绘图的基本概念3. 实现代码解析3.1 设置绘图画

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

python实现自动登录12306自动抢票功能

《python实现自动登录12306自动抢票功能》随着互联网技术的发展,越来越多的人选择通过网络平台购票,特别是在中国,12306作为官方火车票预订平台,承担了巨大的访问量,对于热门线路或者节假日出行... 目录一、遇到的问题?二、改进三、进阶–展望总结一、遇到的问题?1.url-正确的表头:就是首先ur

Node.js 中 http 模块的深度剖析与实战应用小结

《Node.js中http模块的深度剖析与实战应用小结》本文详细介绍了Node.js中的http模块,从创建HTTP服务器、处理请求与响应,到获取请求参数,每个环节都通过代码示例进行解析,旨在帮... 目录Node.js 中 http 模块的深度剖析与实战应用一、引言二、创建 HTTP 服务器:基石搭建(一