在C#中使用GDAL库时读取中文路径的问题

2023-10-17 17:38

本文主要是介绍在C#中使用GDAL库时读取中文路径的问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、基础说明
新的GDAL版本里(据说是18以后,这个没有考证,但下文中就认为18版本以后都这样),GDAL添加了对UTF8路径的支持,新增了一个配置项,叫 GDAL_FILENAME_IS_UTF8,可以在C#中使用下面的语句设为YES或NO,默认为YES
Gdal.SetConfigOption("GDAL_FILENAME_IS_UTF8", "YES");
Gdal.SetConfigOption("GDAL_FILENAME_IS_UTF8", "NO")
 
当这个值为YES(默认)时,GDAL会认为传入的路径字符串是按UTF8编码,它会试图将这个字符串转到UCS-2编码下,但我们一般使用的中文路径都不是UTF8的,就会产生路径乱码和无法打开的问题了,可以参考:
《关于GDAL180中文路径不能打开的问题分析与解决》http://blog.csdn.net/liminlu0314/article/details/6610069

二、在C++下的解决办法
同样可以参考上面那篇文章,使用其中的前两个解决办法,将GDAL_FILENAME_IS_UTF8值设为NO即可正常读取中文路径
 
三、在C#下的问题(18版本以后)
实际上,在C#下的问题与C++下是不一样的
首先,成功地编译后,在C#下引用GDAL的相关DLL读取中文路径的文件时,不需要将GDAL_FILENAME_IS_UTF8设为NO(在C#下,将它设置为NO是会出错的,原因下文分析),在大多数情况下,读取都是正确的,
只有少数情况会出现问题,那就是:当中文路径中,出现奇数个中文字符连在一起,而且其后有除“\”之外的符号或字符时,会无法打开,比如说以下几个示例:
C:\测试路径\aa.img                      中文路径,中文字符个数为偶数,能够正常打开
C:\测试文件夹\aa.img                    中文路径,中文字符个数为奇数,但其后为"\",能够正常打开
C:\测试文件夹1\aa.img                   中文路径,中文字符个数为奇数,其后不是"\",无法打开,报错
C:\testPath\测试档.img                  中文路径,中文字符个数为奇数,其后不是"\",无法打开,报错

四、大多数情况下能够正常读取的原因
上文中提到,在GDAL_FILENAME_IS_UTF8值为YES(也就是正常在C#里使用GDAL库的情况下),GDAL是会做编码转换的,那为什么这种情况下C#能够正常读取中文路径(大多数情况下)呢?
打开GDAL的源码,找到\swig\csharp这个文件夹,这个文件是gdal_csharp.dll等八个C#引用文件的源码,打开\swig\csharp\gdal\Gdal.cs,找到public static Dataset Open(string utf8_path, Access eAccess)这个函数,内容如下:
{IntPtr cPtr = GdalPINVOKE.Open(System.Text.Encoding.Default.GetString(System.Text.Encoding.UTF8.GetBytes(utf8_path)), (int)eAccess);Dataset ret = (cPtr == IntPtr.Zero) ? null : new Dataset(cPtr, true, ThisOwn_true());if (GdalPINVOKE.SWIGPendingException.Pending) throw GdalPINVOKE.SWIGPendingException.Retrieve();return ret;} 
可以看到,在这个函数中,路径(字符串uft8_path)在传入后,首先将其进行了重新编码,即这一语句:
System.Text.Encoding.Default.GetString(System.Text.Encoding.GetBytes(utf8_path)
再将其传给C++编写的实际处理函数,这样的转换在\swig\csharp还有很多处,正因为有了这个转换,C#中使用GDAL时才会能够正常读取出中文路径。

也就是说,在C#中调用GDAL时,GDAL中首先将路径字符串在C#中转到UTF-8下,再在C++在将这个UTF-8的代码转到UCS-2下,保证能够正常读取(晕了没。。。)


五、为什么奇数中文字符的情况下又会出现问题呢?
这个问题严格来说其实不是GDAL的错,而是C#在编码转换时出的问题,可以参考:
《浅析GDAL库C#版本支持中文路径问题》http://www.cfanz.cn/index.php?c=article&a=read&id=103228
这篇文章分析得十分细致,实验也非常严谨。
 
总结一下,就是GDAL在的C#代码中做的这个转换,
System.Text.Encoding.Default.GetString(System.Text.Encoding.GetBytes(utf8_path)
也就是先将字符串转到UTF-8编码的Byte[],再解析为Default编码(在中文系统中,一般指的是GB2312)字符串的过程中,当遇到奇数中文字符的时候会丢失一个字节的信息,导致传给GDAL对应C++代码的路径参数是错的,那当然就无法打开了。
 
(注:其实再严格点说起来,这个问题也不是C#的错,由于不同编码的编码规则不同,这个转来转去的过程其实本身就是存在很大风险的,很多情况下都是转不过去的,不能怪人家C#)
 
六、寻找C#下的解决方案
上面提到的文章虽然分析得十分细致,但很遗憾,它没有给出比较简便的解决方案,所以只能靠自己来摸索。
 
首先,最简便的解决方案:每次打开之前分析一下路径,判断按照上面提到的规则是否会出错,如果会则提示用户。。。。。。。这种方法可以解决,但看起来挺不靠谱的
 
第二,能否找到一种方法,让其在C#下的编码转换过程中不丢字节呢?很遗憾,也没有能找到实现的方法
 
第三,既然C++都可以直接跳过这些转换,那么C#为什么不可以呢?于是有了如下的方案,经过简单测试,是有效的,暂没有发现连带问题:

七、最终的解决方案
修改\swig\csharp下的文件,将C#代码中的编码转换部分全部去掉,这部分代码主要集中在这几个文件中:
\swig\csharp\gdal\Gdal.cs
\swig\csharp\gdal\Driver.cs
\swig\csharp\ogr\Ogr.cs
\swig\csharp\ogr\Driver.cs
 
将这几个文件中的System.Text.Encoding.Default.GetString(System.Text.Encoding.UTF8.GetBytes(utf8_path))全部替换为utf8_path
 
重新编译(gdal1x.dll不需要重新编译,只需要重新编译csharp相关的DLL)即可,这样,路径字符串就会不经过转换直接进行传递,但和C++中一样,这时就需要在程序中将GDAL_FILENAME_IS_UTF8参数设为NO了,不然同样会读取出错


这篇关于在C#中使用GDAL库时读取中文路径的问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/226926

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Java中String字符串使用避坑指南

《Java中String字符串使用避坑指南》Java中的String字符串是我们日常编程中用得最多的类之一,看似简单的String使用,却隐藏着不少“坑”,如果不注意,可能会导致性能问题、意外的错误容... 目录8个避坑点如下:1. 字符串的不可变性:每次修改都创建新对象2. 使用 == 比较字符串,陷阱满

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

Linux使用nload监控网络流量的方法

《Linux使用nload监控网络流量的方法》Linux中的nload命令是一个用于实时监控网络流量的工具,它提供了传入和传出流量的可视化表示,帮助用户一目了然地了解网络活动,本文给大家介绍了Linu... 目录简介安装示例用法基础用法指定网络接口限制显示特定流量类型指定刷新率设置流量速率的显示单位监控多个

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程

C#中读取XML文件的四种常用方法

《C#中读取XML文件的四种常用方法》Xml是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具,下面我们就来看看C#中读取XML文件的方法都有哪些吧... 目录XML简介格式C#读取XML文件方法使用XmlDocument使用XmlTextReader/XmlTextWr

如何使用Java实现请求deepseek

《如何使用Java实现请求deepseek》这篇文章主要为大家详细介绍了如何使用Java实现请求deepseek功能,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1.deepseek的api创建2.Java实现请求deepseek2.1 pom文件2.2 json转化文件2.2

mybatis和mybatis-plus设置值为null不起作用问题及解决

《mybatis和mybatis-plus设置值为null不起作用问题及解决》Mybatis-Plus的FieldStrategy主要用于控制新增、更新和查询时对空值的处理策略,通过配置不同的策略类型... 目录MyBATis-plusFieldStrategy作用FieldStrategy类型每种策略的作

python使用fastapi实现多语言国际化的操作指南

《python使用fastapi实现多语言国际化的操作指南》本文介绍了使用Python和FastAPI实现多语言国际化的操作指南,包括多语言架构技术栈、翻译管理、前端本地化、语言切换机制以及常见陷阱和... 目录多语言国际化实现指南项目多语言架构技术栈目录结构翻译工作流1. 翻译数据存储2. 翻译生成脚本