在C#中使用GDAL库时读取中文路径的问题

2023-10-17 17:38

本文主要是介绍在C#中使用GDAL库时读取中文路径的问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、基础说明
新的GDAL版本里(据说是18以后,这个没有考证,但下文中就认为18版本以后都这样),GDAL添加了对UTF8路径的支持,新增了一个配置项,叫 GDAL_FILENAME_IS_UTF8,可以在C#中使用下面的语句设为YES或NO,默认为YES
Gdal.SetConfigOption("GDAL_FILENAME_IS_UTF8", "YES");
Gdal.SetConfigOption("GDAL_FILENAME_IS_UTF8", "NO")
 
当这个值为YES(默认)时,GDAL会认为传入的路径字符串是按UTF8编码,它会试图将这个字符串转到UCS-2编码下,但我们一般使用的中文路径都不是UTF8的,就会产生路径乱码和无法打开的问题了,可以参考:
《关于GDAL180中文路径不能打开的问题分析与解决》http://blog.csdn.net/liminlu0314/article/details/6610069

二、在C++下的解决办法
同样可以参考上面那篇文章,使用其中的前两个解决办法,将GDAL_FILENAME_IS_UTF8值设为NO即可正常读取中文路径
 
三、在C#下的问题(18版本以后)
实际上,在C#下的问题与C++下是不一样的
首先,成功地编译后,在C#下引用GDAL的相关DLL读取中文路径的文件时,不需要将GDAL_FILENAME_IS_UTF8设为NO(在C#下,将它设置为NO是会出错的,原因下文分析),在大多数情况下,读取都是正确的,
只有少数情况会出现问题,那就是:当中文路径中,出现奇数个中文字符连在一起,而且其后有除“\”之外的符号或字符时,会无法打开,比如说以下几个示例:
C:\测试路径\aa.img                      中文路径,中文字符个数为偶数,能够正常打开
C:\测试文件夹\aa.img                    中文路径,中文字符个数为奇数,但其后为"\",能够正常打开
C:\测试文件夹1\aa.img                   中文路径,中文字符个数为奇数,其后不是"\",无法打开,报错
C:\testPath\测试档.img                  中文路径,中文字符个数为奇数,其后不是"\",无法打开,报错

四、大多数情况下能够正常读取的原因
上文中提到,在GDAL_FILENAME_IS_UTF8值为YES(也就是正常在C#里使用GDAL库的情况下),GDAL是会做编码转换的,那为什么这种情况下C#能够正常读取中文路径(大多数情况下)呢?
打开GDAL的源码,找到\swig\csharp这个文件夹,这个文件是gdal_csharp.dll等八个C#引用文件的源码,打开\swig\csharp\gdal\Gdal.cs,找到public static Dataset Open(string utf8_path, Access eAccess)这个函数,内容如下:
{IntPtr cPtr = GdalPINVOKE.Open(System.Text.Encoding.Default.GetString(System.Text.Encoding.UTF8.GetBytes(utf8_path)), (int)eAccess);Dataset ret = (cPtr == IntPtr.Zero) ? null : new Dataset(cPtr, true, ThisOwn_true());if (GdalPINVOKE.SWIGPendingException.Pending) throw GdalPINVOKE.SWIGPendingException.Retrieve();return ret;} 
可以看到,在这个函数中,路径(字符串uft8_path)在传入后,首先将其进行了重新编码,即这一语句:
System.Text.Encoding.Default.GetString(System.Text.Encoding.GetBytes(utf8_path)
再将其传给C++编写的实际处理函数,这样的转换在\swig\csharp还有很多处,正因为有了这个转换,C#中使用GDAL时才会能够正常读取出中文路径。

也就是说,在C#中调用GDAL时,GDAL中首先将路径字符串在C#中转到UTF-8下,再在C++在将这个UTF-8的代码转到UCS-2下,保证能够正常读取(晕了没。。。)


五、为什么奇数中文字符的情况下又会出现问题呢?
这个问题严格来说其实不是GDAL的错,而是C#在编码转换时出的问题,可以参考:
《浅析GDAL库C#版本支持中文路径问题》http://www.cfanz.cn/index.php?c=article&a=read&id=103228
这篇文章分析得十分细致,实验也非常严谨。
 
总结一下,就是GDAL在的C#代码中做的这个转换,
System.Text.Encoding.Default.GetString(System.Text.Encoding.GetBytes(utf8_path)
也就是先将字符串转到UTF-8编码的Byte[],再解析为Default编码(在中文系统中,一般指的是GB2312)字符串的过程中,当遇到奇数中文字符的时候会丢失一个字节的信息,导致传给GDAL对应C++代码的路径参数是错的,那当然就无法打开了。
 
(注:其实再严格点说起来,这个问题也不是C#的错,由于不同编码的编码规则不同,这个转来转去的过程其实本身就是存在很大风险的,很多情况下都是转不过去的,不能怪人家C#)
 
六、寻找C#下的解决方案
上面提到的文章虽然分析得十分细致,但很遗憾,它没有给出比较简便的解决方案,所以只能靠自己来摸索。
 
首先,最简便的解决方案:每次打开之前分析一下路径,判断按照上面提到的规则是否会出错,如果会则提示用户。。。。。。。这种方法可以解决,但看起来挺不靠谱的
 
第二,能否找到一种方法,让其在C#下的编码转换过程中不丢字节呢?很遗憾,也没有能找到实现的方法
 
第三,既然C++都可以直接跳过这些转换,那么C#为什么不可以呢?于是有了如下的方案,经过简单测试,是有效的,暂没有发现连带问题:

七、最终的解决方案
修改\swig\csharp下的文件,将C#代码中的编码转换部分全部去掉,这部分代码主要集中在这几个文件中:
\swig\csharp\gdal\Gdal.cs
\swig\csharp\gdal\Driver.cs
\swig\csharp\ogr\Ogr.cs
\swig\csharp\ogr\Driver.cs
 
将这几个文件中的System.Text.Encoding.Default.GetString(System.Text.Encoding.UTF8.GetBytes(utf8_path))全部替换为utf8_path
 
重新编译(gdal1x.dll不需要重新编译,只需要重新编译csharp相关的DLL)即可,这样,路径字符串就会不经过转换直接进行传递,但和C++中一样,这时就需要在程序中将GDAL_FILENAME_IS_UTF8参数设为NO了,不然同样会读取出错


这篇关于在C#中使用GDAL库时读取中文路径的问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/226926

相关文章

Python 字典 (Dictionary)使用详解

《Python字典(Dictionary)使用详解》字典是python中最重要,最常用的数据结构之一,它提供了高效的键值对存储和查找能力,:本文主要介绍Python字典(Dictionary)... 目录字典1.基本特性2.创建字典3.访问元素4.修改字典5.删除元素6.字典遍历7.字典的高级特性默认字典

使用Python构建一个高效的日志处理系统

《使用Python构建一个高效的日志处理系统》这篇文章主要为大家详细讲解了如何使用Python开发一个专业的日志分析工具,能够自动化处理、分析和可视化各类日志文件,大幅提升运维效率,需要的可以了解下... 目录环境准备工具功能概述完整代码实现代码深度解析1. 类设计与初始化2. 日志解析核心逻辑3. 文件处

Kotlin Map映射转换问题小结

《KotlinMap映射转换问题小结》文章介绍了Kotlin集合转换的多种方法,包括map(一对一转换)、mapIndexed(带索引)、mapNotNull(过滤null)、mapKeys/map... 目录Kotlin 集合转换:map、mapIndexed、mapNotNull、mapKeys、map

nginx中端口无权限的问题解决

《nginx中端口无权限的问题解决》当Nginx日志报错bind()to80failed(13:Permissiondenied)时,这通常是由于权限不足导致Nginx无法绑定到80端口,下面就来... 目录一、问题原因分析二、解决方案1. 以 root 权限运行 Nginx(不推荐)2. 为 Nginx

解决1093 - You can‘t specify target table报错问题及原因分析

《解决1093-Youcan‘tspecifytargettable报错问题及原因分析》MySQL1093错误因UPDATE/DELETE语句的FROM子句直接引用目标表或嵌套子查询导致,... 目录报js错原因分析具体原因解决办法方法一:使用临时表方法二:使用JOIN方法三:使用EXISTS示例总结报错原

一文详解如何使用Java获取PDF页面信息

《一文详解如何使用Java获取PDF页面信息》了解PDF页面属性是我们在处理文档、内容提取、打印设置或页面重组等任务时不可或缺的一环,下面我们就来看看如何使用Java语言获取这些信息吧... 目录引言一、安装和引入PDF处理库引入依赖二、获取 PDF 页数三、获取页面尺寸(宽高)四、获取页面旋转角度五、判断

Windows环境下解决Matplotlib中文字体显示问题的详细教程

《Windows环境下解决Matplotlib中文字体显示问题的详细教程》本文详细介绍了在Windows下解决Matplotlib中文显示问题的方法,包括安装字体、更新缓存、配置文件设置及编码調整,并... 目录引言问题分析解决方案详解1. 检查系统已安装字体2. 手动添加中文字体(以SimHei为例)步骤

Spring Boot中的路径变量示例详解

《SpringBoot中的路径变量示例详解》SpringBoot中PathVariable通过@PathVariable注解实现URL参数与方法参数绑定,支持多参数接收、类型转换、可选参数、默认值及... 目录一. 基本用法与参数映射1.路径定义2.参数绑定&nhttp://www.chinasem.cnbs

C++中assign函数的使用

《C++中assign函数的使用》在C++标准模板库中,std::list等容器都提供了assign成员函数,它比操作符更灵活,支持多种初始化方式,下面就来介绍一下assign的用法,具有一定的参考价... 目录​1.assign的基本功能​​语法​2. 具体用法示例​​​(1) 填充n个相同值​​(2)

Spring StateMachine实现状态机使用示例详解

《SpringStateMachine实现状态机使用示例详解》本文介绍SpringStateMachine实现状态机的步骤,包括依赖导入、枚举定义、状态转移规则配置、上下文管理及服务调用示例,重点解... 目录什么是状态机使用示例什么是状态机状态机是计算机科学中的​​核心建模工具​​,用于描述对象在其生命