本文主要是介绍每日一记:简单实现python自动识别文档编码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
最近在搞文件分析时遇到一个比较头疼的问题:文档编码不确定的时候该如何处理?
目前python好像还不能自动处理文档编码,在open方法打开一个文档时,必须通过encoding参数指定编码,这样不符合我的要求。
网上搜寻一番后,看到有人说用chardet模块,我试了下,貌似有点问题,不能解决我遇到的问题。
最终,我想了一个简单粗暴的方法,巧用try/except语句来实现”伪自动“识别文档编码,代码如下:
def getFileType(file_path):FileType = "gbk"try:htmlf = open(file_path, 'r', encoding=FileType)htmlf.read()except UnicodeDecodeError:FileType = "utf-8"else:htmlf.close()return FileType## 这里只考虑了两种常见编码类型
## 在open方法中直接调用即可:open(files_path, 'r', encoding=getFileType(files_path))
如果你有更好的方法,不要吝啬,分享出来给我学习学习。
这篇关于每日一记:简单实现python自动识别文档编码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!