在C#中使用GDAL库时读取中文路径的问题

2023-10-17 17:38

本文主要是介绍在C#中使用GDAL库时读取中文路径的问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、基础说明
新的GDAL版本里(据说是18以后,这个没有考证,但下文中就认为18版本以后都这样),GDAL添加了对UTF8路径的支持,新增了一个配置项,叫 GDAL_FILENAME_IS_UTF8,可以在C#中使用下面的语句设为YES或NO,默认为YES
Gdal.SetConfigOption("GDAL_FILENAME_IS_UTF8", "YES");
Gdal.SetConfigOption("GDAL_FILENAME_IS_UTF8", "NO")
 
当这个值为YES(默认)时,GDAL会认为传入的路径字符串是按UTF8编码,它会试图将这个字符串转到UCS-2编码下,但我们一般使用的中文路径都不是UTF8的,就会产生路径乱码和无法打开的问题了,可以参考:
《关于GDAL180中文路径不能打开的问题分析与解决》http://blog.csdn.net/liminlu0314/article/details/6610069

二、在C++下的解决办法
同样可以参考上面那篇文章,使用其中的前两个解决办法,将GDAL_FILENAME_IS_UTF8值设为NO即可正常读取中文路径
 
三、在C#下的问题(18版本以后)
实际上,在C#下的问题与C++下是不一样的
首先,成功地编译后,在C#下引用GDAL的相关DLL读取中文路径的文件时,不需要将GDAL_FILENAME_IS_UTF8设为NO(在C#下,将它设置为NO是会出错的,原因下文分析),在大多数情况下,读取都是正确的,
只有少数情况会出现问题,那就是:当中文路径中,出现奇数个中文字符连在一起,而且其后有除“\”之外的符号或字符时,会无法打开,比如说以下几个示例:
C:\测试路径\aa.img                      中文路径,中文字符个数为偶数,能够正常打开
C:\测试文件夹\aa.img                    中文路径,中文字符个数为奇数,但其后为"\",能够正常打开
C:\测试文件夹1\aa.img                   中文路径,中文字符个数为奇数,其后不是"\",无法打开,报错
C:\testPath\测试档.img                  中文路径,中文字符个数为奇数,其后不是"\",无法打开,报错

四、大多数情况下能够正常读取的原因
上文中提到,在GDAL_FILENAME_IS_UTF8值为YES(也就是正常在C#里使用GDAL库的情况下),GDAL是会做编码转换的,那为什么这种情况下C#能够正常读取中文路径(大多数情况下)呢?
打开GDAL的源码,找到\swig\csharp这个文件夹,这个文件是gdal_csharp.dll等八个C#引用文件的源码,打开\swig\csharp\gdal\Gdal.cs,找到public static Dataset Open(string utf8_path, Access eAccess)这个函数,内容如下:
{IntPtr cPtr = GdalPINVOKE.Open(System.Text.Encoding.Default.GetString(System.Text.Encoding.UTF8.GetBytes(utf8_path)), (int)eAccess);Dataset ret = (cPtr == IntPtr.Zero) ? null : new Dataset(cPtr, true, ThisOwn_true());if (GdalPINVOKE.SWIGPendingException.Pending) throw GdalPINVOKE.SWIGPendingException.Retrieve();return ret;} 
可以看到,在这个函数中,路径(字符串uft8_path)在传入后,首先将其进行了重新编码,即这一语句:
System.Text.Encoding.Default.GetString(System.Text.Encoding.GetBytes(utf8_path)
再将其传给C++编写的实际处理函数,这样的转换在\swig\csharp还有很多处,正因为有了这个转换,C#中使用GDAL时才会能够正常读取出中文路径。

也就是说,在C#中调用GDAL时,GDAL中首先将路径字符串在C#中转到UTF-8下,再在C++在将这个UTF-8的代码转到UCS-2下,保证能够正常读取(晕了没。。。)


五、为什么奇数中文字符的情况下又会出现问题呢?
这个问题严格来说其实不是GDAL的错,而是C#在编码转换时出的问题,可以参考:
《浅析GDAL库C#版本支持中文路径问题》http://www.cfanz.cn/index.php?c=article&a=read&id=103228
这篇文章分析得十分细致,实验也非常严谨。
 
总结一下,就是GDAL在的C#代码中做的这个转换,
System.Text.Encoding.Default.GetString(System.Text.Encoding.GetBytes(utf8_path)
也就是先将字符串转到UTF-8编码的Byte[],再解析为Default编码(在中文系统中,一般指的是GB2312)字符串的过程中,当遇到奇数中文字符的时候会丢失一个字节的信息,导致传给GDAL对应C++代码的路径参数是错的,那当然就无法打开了。
 
(注:其实再严格点说起来,这个问题也不是C#的错,由于不同编码的编码规则不同,这个转来转去的过程其实本身就是存在很大风险的,很多情况下都是转不过去的,不能怪人家C#)
 
六、寻找C#下的解决方案
上面提到的文章虽然分析得十分细致,但很遗憾,它没有给出比较简便的解决方案,所以只能靠自己来摸索。
 
首先,最简便的解决方案:每次打开之前分析一下路径,判断按照上面提到的规则是否会出错,如果会则提示用户。。。。。。。这种方法可以解决,但看起来挺不靠谱的
 
第二,能否找到一种方法,让其在C#下的编码转换过程中不丢字节呢?很遗憾,也没有能找到实现的方法
 
第三,既然C++都可以直接跳过这些转换,那么C#为什么不可以呢?于是有了如下的方案,经过简单测试,是有效的,暂没有发现连带问题:

七、最终的解决方案
修改\swig\csharp下的文件,将C#代码中的编码转换部分全部去掉,这部分代码主要集中在这几个文件中:
\swig\csharp\gdal\Gdal.cs
\swig\csharp\gdal\Driver.cs
\swig\csharp\ogr\Ogr.cs
\swig\csharp\ogr\Driver.cs
 
将这几个文件中的System.Text.Encoding.Default.GetString(System.Text.Encoding.UTF8.GetBytes(utf8_path))全部替换为utf8_path
 
重新编译(gdal1x.dll不需要重新编译,只需要重新编译csharp相关的DLL)即可,这样,路径字符串就会不经过转换直接进行传递,但和C++中一样,这时就需要在程序中将GDAL_FILENAME_IS_UTF8参数设为NO了,不然同样会读取出错


这篇关于在C#中使用GDAL库时读取中文路径的问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/226926

相关文章

使用Python实现矢量路径的压缩、解压与可视化

《使用Python实现矢量路径的压缩、解压与可视化》在图形设计和Web开发中,矢量路径数据的高效存储与传输至关重要,本文将通过一个Python示例,展示如何将复杂的矢量路径命令序列压缩为JSON格式,... 目录引言核心功能概述1. 路径命令解析2. 路径数据压缩3. 路径数据解压4. 可视化代码实现详解1

Pandas透视表(Pivot Table)的具体使用

《Pandas透视表(PivotTable)的具体使用》透视表用于在数据分析和处理过程中进行数据重塑和汇总,本文就来介绍一下Pandas透视表(PivotTable)的具体使用,感兴趣的可以了解一下... 目录前言什么是透视表?使用步骤1. 引入必要的库2. 读取数据3. 创建透视表4. 查看透视表总结前言

Python 交互式可视化的利器Bokeh的使用

《Python交互式可视化的利器Bokeh的使用》Bokeh是一个专注于Web端交互式数据可视化的Python库,本文主要介绍了Python交互式可视化的利器Bokeh的使用,具有一定的参考价值,感... 目录1. Bokeh 简介1.1 为什么选择 Bokeh1.2 安装与环境配置2. Bokeh 基础2

Android使用ImageView.ScaleType实现图片的缩放与裁剪功能

《Android使用ImageView.ScaleType实现图片的缩放与裁剪功能》ImageView是最常用的控件之一,它用于展示各种类型的图片,为了能够根据需求调整图片的显示效果,Android提... 目录什么是 ImageView.ScaleType?FIT_XYFIT_STARTFIT_CENTE

Spring 中的循环引用问题解决方法

《Spring中的循环引用问题解决方法》:本文主要介绍Spring中的循环引用问题解决方法,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录什么是循环引用?循环依赖三级缓存解决循环依赖二级缓存三级缓存本章来聊聊Spring 中的循环引用问题该如何解决。这里聊

Java学习手册之Filter和Listener使用方法

《Java学习手册之Filter和Listener使用方法》:本文主要介绍Java学习手册之Filter和Listener使用方法的相关资料,Filter是一种拦截器,可以在请求到达Servl... 目录一、Filter(过滤器)1. Filter 的工作原理2. Filter 的配置与使用二、Listen

Pandas使用AdaBoost进行分类的实现

《Pandas使用AdaBoost进行分类的实现》Pandas和AdaBoost分类算法,可以高效地进行数据预处理和分类任务,本文主要介绍了Pandas使用AdaBoost进行分类的实现,具有一定的参... 目录什么是 AdaBoost?使用 AdaBoost 的步骤安装必要的库步骤一:数据准备步骤二:模型

Spring Boot中JSON数值溢出问题从报错到优雅解决办法

《SpringBoot中JSON数值溢出问题从报错到优雅解决办法》:本文主要介绍SpringBoot中JSON数值溢出问题从报错到优雅的解决办法,通过修改字段类型为Long、添加全局异常处理和... 目录一、问题背景:为什么我的接口突然报错了?二、为什么会发生这个错误?1. Java 数据类型的“容量”限制

使用Pandas进行均值填充的实现

《使用Pandas进行均值填充的实现》缺失数据(NaN值)是一个常见的问题,我们可以通过多种方法来处理缺失数据,其中一种常用的方法是均值填充,本文主要介绍了使用Pandas进行均值填充的实现,感兴趣的... 目录什么是均值填充?为什么选择均值填充?均值填充的步骤实际代码示例总结在数据分析和处理过程中,缺失数

如何使用 Python 读取 Excel 数据

《如何使用Python读取Excel数据》:本文主要介绍使用Python读取Excel数据的详细教程,通过pandas和openpyxl,你可以轻松读取Excel文件,并进行各种数据处理操... 目录使用 python 读取 Excel 数据的详细教程1. 安装必要的依赖2. 读取 Excel 文件3. 读