txt文本转编码格式(支持utf-8、GBK、GB2312、GB18030、BIG5等所有编码格式)

2024-05-11 15:20

本文主要是介绍txt文本转编码格式(支持utf-8、GBK、GB2312、GB18030、BIG5等所有编码格式),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

txt文本转编码格式(支持utf-8、GBK、GB2312、GB18030、BIG5等所有编码格式)

脚本的使用方法

创建一个convert_to_utf8的python文件,将代码复制保存。
在终端输入以下命令,即可实现自动检测原文件的编码格式,并生成对应的新文件:

python convert_to_utf8.py 原文件.txt 新文件.txt

当然,也可以指定原文件的编码格式:

python convert_to_utf8.py 原文件.txt 新文件.txt --encoding Big5 
import argparse
import chardetdef detect_encoding(file_path):"""Detect the encoding of a file."""with open(file_path, 'rb') as file:raw_data = file.read(10000)  # Read enough of the file to detect encodingresult = chardet.detect(raw_data)print(f"Detected encoding: {result['encoding']} with confidence {result['confidence']}")return result['encoding']def convert_to_utf8(input_file, output_file, encoding=None):"""Convert a file to UTF-8 encoding using a specified or detected encoding."""if not encoding:encoding = detect_encoding(input_file)try:with open(input_file, 'r', encoding=encoding, errors='ignore') as file:content = file.read()with open(output_file, 'w', encoding='utf-8') as file:file.write(content)print(f"文件已成功转换并保存为:{output_file},使用的编码:{encoding}")except Exception as e:print(f"转换过程中发生错误:{e}")if __name__ == "__main__":parser = argparse.ArgumentParser(description="Convert text file encoding to UTF-8 using a specified or detected encoding.")parser.add_argument("input_file", help="The path to the input file.")parser.add_argument("output_file", help="The path to the output file where the UTF-8 encoded file will be saved.")parser.add_argument("--encoding", help="Optionally specify the encoding to override automatic detection.", default=None)args = parser.parse_args()convert_to_utf8(args.input_file, args.output_file, args.encoding)

这篇关于txt文本转编码格式(支持utf-8、GBK、GB2312、GB18030、BIG5等所有编码格式)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/979913

相关文章

Python3脚本实现Excel与TXT的智能转换

《Python3脚本实现Excel与TXT的智能转换》在数据处理的日常工作中,我们经常需要将Excel中的结构化数据转换为其他格式,本文将使用Python3实现Excel与TXT的智能转换,需要的可以... 目录场景应用:为什么需要这种转换技术解析:代码实现详解核心代码展示改进点说明实战演练:从Excel到

Linux使用cut进行文本提取的操作方法

《Linux使用cut进行文本提取的操作方法》Linux中的cut命令是一个命令行实用程序,用于从文件或标准输入中提取文本行的部分,本文给大家介绍了Linux使用cut进行文本提取的操作方法,文中有详... 目录简介基础语法常用选项范围选择示例用法-f:字段选择-d:分隔符-c:字符选择-b:字节选择--c

定价129元!支持双频 Wi-Fi 5的华为AX1路由器发布

《定价129元!支持双频Wi-Fi5的华为AX1路由器发布》华为上周推出了其最新的入门级Wi-Fi5路由器——华为路由AX1,建议零售价129元,这款路由器配置如何?详细请看下文介... 华为 Wi-Fi 5 路由 AX1 已正式开售,新品支持双频 1200 兆、配有四个千兆网口、提供可视化智能诊断功能,建

使用Navicat工具比对两个数据库所有表结构的差异案例详解

《使用Navicat工具比对两个数据库所有表结构的差异案例详解》:本文主要介绍如何使用Navicat工具对比两个数据库test_old和test_new,并生成相应的DDLSQL语句,以便将te... 目录概要案例一、如图两个数据库test_old和test_new进行比较:二、开始比较总结概要公司存在多

使用C++将处理后的信号保存为PNG和TIFF格式

《使用C++将处理后的信号保存为PNG和TIFF格式》在信号处理领域,我们常常需要将处理结果以图像的形式保存下来,方便后续分析和展示,C++提供了多种库来处理图像数据,本文将介绍如何使用stb_ima... 目录1. PNG格式保存使用stb_imagephp_write库1.1 安装和包含库1.2 代码解

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

电脑没有仿宋GB2312字体怎么办? 仿宋GB2312字体下载安装及调出来的教程

《电脑没有仿宋GB2312字体怎么办?仿宋GB2312字体下载安装及调出来的教程》仿宋字体gb2312作为一种经典且常用的字体,广泛应用于各种场合,如何在计算机中调出仿宋字体gb2312?本文将为您... 仿宋_GB2312是公文标准字体之一,仿China编程宋是字体名称,GB2312是字php符编码标准名称(简

在MyBatis的XML映射文件中<trim>元素所有场景下的完整使用示例代码

《在MyBatis的XML映射文件中<trim>元素所有场景下的完整使用示例代码》在MyBatis的XML映射文件中,trim元素用于动态添加SQL语句的一部分,处理前缀、后缀及多余的逗号或连接符,示... 在MyBATis的XML映射文件中,<trim>元素用于动态地添加SQL语句的一部分,例如SET或W

IDEA如何将String类型转json格式

《IDEA如何将String类型转json格式》在Java中,字符串字面量中的转义字符会被自动转换,但通过网络获取的字符串可能不会自动转换,为了解决IDEA无法识别JSON字符串的问题,可以在本地对字... 目录问题描述问题原因解决方案总结问题描述最近做项目需要使用Ai生成json,可生成String类型

C#实现获得某个枚举的所有名称

《C#实现获得某个枚举的所有名称》这篇文章主要为大家详细介绍了C#如何实现获得某个枚举的所有名称,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下... C#中获得某个枚举的所有名称using System;using System.Collections.Generic;usi