dotnet OpenXML 文本字体的选择规则

2023-12-07 22:10

本文主要是介绍dotnet OpenXML 文本字体的选择规则,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在 Office 的文本排版里面,会根据字符选择使用哪个字体插槽。也就是实际上在 Office 里面可以在一个文本段里面指定多个字体,会根据实际的字符使用不同的字体

在做 Office 解析的时候,在 OpenXML SDK 里面是没有找到表示字体的属性的,只能找到 LatinFont 和 EastAsianFont 和 ComplexScriptFont 和 SymbolFont 这几个

        public TextFontType LatinFont { get; set; } // latinpublic TextFontType EastAsianFont { get; set; } // eapublic TextFontType ComplexScriptFont { get; set; } // cspublic TextFontType SymbolFont { get; set; } // sym

而这每个里面都可以使用不同的字体,如下面的文档

<a:r><a:rPr …><a:cs typeface="Times New Roman"/><a:latin typeface="songti"/></a:rPr><a:t>العربية </a:t> 
</a:r>

可以看到这里包含了 a:csa:latin 分别表示 LatinFont 和 ComplexScriptFont 两个不同的插槽

那么具体的这个我也看不懂的文本应该使用 Times New Roman 还是使用宋体字体,这就需要使用下面这个表格的内容了

在 Office 里面将会根据字符的 Unicode 决定使用哪个字体插槽的字体

  • U+0000–U+007F latin font
  • U+0080–U+00A6 latin font
  • U+00A9–U+00AF latin font
  • U+00B2–U+00B3 latin font
  • U+00B5–U+00D6 latin font
  • U+00D8–U+00F6 latin font
  • U+00F8–U+058F latin font
  • U+0590–U+074F cs font
  • U+0780–U+07BF cs font
  • U+0900–U+109F cs font
  • U+10A0–U+10FF latin font
  • U+1200–U+137F latin font
  • U+13A0–U+177F latin font
  • U+1D00–U+1D7F latin font
  • U+1E00–U+1FFF latin font
  • U+1780–U+18AF cs font
  • U+2000–U+200B latin font
  • U+200C–U+200F cs font
  • U+2010–U+2029 latin font
  • U+2018–U+201F ea font
  • U+202A–U+202F cs font
  • U+2030–U+2046 latin font
  • U+204A–U+245F latin font
  • U+2670–U+2671 cs font
  • U+27C0–U+2BFF latin font
  • U+3099–U+309A ea font
  • U+D835 latin font
  • U+F000–U+F0FF sym font
  • U+FB00–U+FB17 latin font
  • U+FB1D–U+FB4F cs font
  • U+FE50–U+FE6F latin font
  • U+1D400–U+1D7FF latin font
  • 其他 ea font

因此这和 C# dotnet 获取某个字符所在 Unicode 字符平面映射 不相同

这是 ECMA-376 规定的

小伙伴如果不想自动动手写代码, 可以参考我在 WPF 项目里面使用的代码,理论上你在 dotnet 的项目里面,能使用 C# 7.0 的语法就能使用

这是上层的使用方法,这里的 text 是输入的字符串

for (var i = 0; i < text.Length; i++)
{var c = text[i];TextType currentType = CharUnicodeRangeTextFontType.GetFontLang(c);
}

先定义一个枚举,表示当前的文本是什么,请看代码

        public enum TextType{/// <summary>/// 默认的文本 中文系 东亚字符/// </summary>EastAsian,/// <summary>/// 拉丁英文系/// </summary>Latin,/// <summary>/// 复杂脚本/// </summary>ComplexScript,/// <summary>/// 特殊符号/// </summary>Symbol,}

添加一个辅助类

   /// <summary>/// 文本内容范围判断类/// </summary>public class TextRangePattern{/// <summary>/// 创建文本内容范围判断类/// </summary>/// <param name="minChar"></param>/// <param name="maxChar"></param>public TextRangePattern(int minChar, int maxChar): this((char)minChar, (char)maxChar){}/// <summary>/// 创建文本内容范围判断类/// </summary>/// <param name="minChar"></param>/// <param name="maxChar"></param>public TextRangePattern(char minChar, char maxChar){MinChar = minChar;MaxChar = maxChar;}/// <summary>/// 最小字符/// </summary>public char MinChar { get; }/// <summary>/// 最大字符/// </summary>public char MaxChar { get; }/// <summary>/// 是否输入的字符在范围内/// </summary>/// <param name="c"></param>/// <returns></returns>public bool IsInRange(char c){return !(c < MinChar || c > MaxChar);}}

接着就是创建 CharUnicodeRangeTextFontType 辅助类

    static class CharUnicodeRangeTextFontType{// 如果觉得下面的很多单词不知道是什么意思,请看 https://zh.wikipedia.org/wiki/Unicode%E5%AD%97%E7%AC%A6%E5%B9%B3%E9%9D%A2%E6%98%A0%E5%B0%84private static TextRangePattern[] LatinFontTextRangePatternList { get; } ={// - U\+([\dA-F]+)–U\+([\dA-F]+).*new TextRangePattern(0x0000, 0x007F), // - U+0000–U+007F latin font new TextRangePattern(0x0080, 0x00A6), // - U+0080–U+00A6 latin font new TextRangePattern(0x00A9, 0x00AF), // - U+00A9–U+00AF latin font new TextRangePattern(0x00B2, 0x00B3), // - U+00B2–U+00B3 latin font new TextRangePattern(0x00B5, 0x00D6), // - U+00B5–U+00D6 latin font new TextRangePattern(0x00D8, 0x00F6), // - U+00D8–U+00F6 latin font new TextRangePattern(0x00F8, 0x058F), // - U+00F8–U+058F latin font new TextRangePattern(0x10A0, 0x10FF), // - U+10A0–U+10FF latin font new TextRangePattern(0x1200, 0x137F), // - U+1200–U+137F latin font new TextRangePattern(0x13A0, 0x177F), // - U+13A0–U+177F latin font new TextRangePattern(0x1D00, 0x1D7F), // - U+1D00–U+1D7F latin font new TextRangePattern(0x1E00, 0x1FFF), // - U+1E00–U+1FFF latin font new TextRangePattern(0x2000, 0x200B), // - U+2000–U+200B latin font new TextRangePattern(0x2010, 0x2029), // - U+2010–U+2029 latin fontnew TextRangePattern(0x2030, 0x2046), // - U+2030–U+2046 latin font new TextRangePattern(0x204A, 0x245F), // - U+204A–U+245F latin font new TextRangePattern(0x27C0, 0x2BFF), // - U+27C0–U+2BFF latin font new TextRangePattern(0xFB00, 0xFB17), // - U+FB00–U+FB17 latin font new TextRangePattern(0xFE50, 0xFE6F), // - U+FE50–U+FE6F latin fontnew TextRangePattern(0xD835, 0xD835), // - U+D835        latin font};private static TextRangePattern[] ComplexScriptFontTextRangePatternList { get; } ={new TextRangePattern(0x0590, 0x074F), // - U+0590–U+074F cs font new TextRangePattern(0x0780, 0x07BF), // - U+0780–U+07BF cs font new TextRangePattern(0x0900, 0x109F), // - U+0900–U+109F cs font new TextRangePattern(0x1780, 0x18AF), // - U+1780–U+18AF cs font new TextRangePattern(0x200C, 0x200F), // - U+200C–U+200F cs font new TextRangePattern(0x202A, 0x202F), // - U+202A–U+202F cs font new TextRangePattern(0x2670, 0x2671), // - U+2670–U+2671 cs font new TextRangePattern(0xFB1D, 0xFB4F), // - U+FB1D–U+FB4F cs font };private static TextRangePattern[] EastAsianFontTextRangePatternList { get; } ={new TextRangePattern(0x2018, 0x201F), // - U+2018–U+201F ea fontnew TextRangePattern(0x3099, 0x309A), // - U+3099–U+309A ea font  };private static TextRangePattern[] SymbolFontTextRangePatternList { get; } ={new TextRangePattern(0xF000, 0xF0FF), // - U+F000–U+F0FF sym font };private static (TextType textType, TextRangePattern[] fontTextRangePatternList)[] PatternList { get; } ={(TextType.Latin, LatinFontTextRangePatternList),(TextType.ComplexScript, ComplexScriptFontTextRangePatternList),(TextType.EastAsian, EastAsianFontTextRangePatternList),(TextType.Symbol, SymbolFontTextRangePatternList)};/// <summary>/// 根据传入的字符判断当前是哪个语言项/// </summary>/// <param name="ch"></param>/// <returns></returns>public static TextType GetFontLang(char ch){// 按照 [dotnet OpenXML 文本字体的选择规则](https://blog.lindexi.com/post/dotnet-OpenXML-%E6%96%87%E6%9C%AC%E5%AD%97%E4%BD%93%E7%9A%84%E9%80%89%E6%8B%A9%E8%A7%84%E5%88%99.html)foreach (var (textType, fontTextRangePatternList) in PatternList){if (fontTextRangePatternList.Any(temp => temp.IsInRange(ch))){return textType;}}// - 其他 ea fontreturn TextType.EastAsian;}}

上面代码忽略 utf16 的字符

我搭建了自己的博客 https://blog.lindexi.com/ 欢迎大家访问,里面有很多新的博客。只有在我看到博客写成熟之后才会放在csdn或博客园,但是一旦发布了就不再更新

如果在博客看到有任何不懂的,欢迎交流,我搭建了 dotnet 职业技术学院 欢迎大家加入

如有不方便在博客评论的问题,可以加我 QQ 2844808902 交流

知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。欢迎转载、使用、重新发布,但务必保留文章署名林德熙(包含链接:http://blog.csdn.net/lindexi_gd ),不得用于商业目的,基于本文修改后的作品务必以相同的许可发布。如有任何疑问,请与我联系。

这篇关于dotnet OpenXML 文本字体的选择规则的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/467530

相关文章

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出

Python 中 requests 与 aiohttp 在实际项目中的选择策略详解

《Python中requests与aiohttp在实际项目中的选择策略详解》本文主要介绍了Python爬虫开发中常用的两个库requests和aiohttp的使用方法及其区别,通过实际项目案... 目录一、requests 库二、aiohttp 库三、requests 和 aiohttp 的比较四、requ

el-select下拉选择缓存的实现

《el-select下拉选择缓存的实现》本文主要介绍了在使用el-select实现下拉选择缓存时遇到的问题及解决方案,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录项目场景:问题描述解决方案:项目场景:从左侧列表中选取字段填入右侧下拉多选框,用户可以对右侧

Java操作xls替换文本或图片的功能实现

《Java操作xls替换文本或图片的功能实现》这篇文章主要给大家介绍了关于Java操作xls替换文本或图片功能实现的相关资料,文中通过示例代码讲解了文件上传、文件处理和Excel文件生成,需要的朋友可... 目录准备xls模板文件:template.xls准备需要替换的图片和数据功能实现包声明与导入类声明与

python解析HTML并提取span标签中的文本

《python解析HTML并提取span标签中的文本》在网页开发和数据抓取过程中,我们经常需要从HTML页面中提取信息,尤其是span元素中的文本,span标签是一个行内元素,通常用于包装一小段文本或... 目录一、安装相关依赖二、html 页面结构三、使用 BeautifulSoup javascript

如何选择适合孤独症兄妹的学校?

在探索适合孤独症儿童教育的道路上,每一位家长都面临着前所未有的挑战与抉择。当这份责任落在拥有孤独症兄妹的家庭肩上时,选择一所能够同时满足两个孩子特殊需求的学校,更显得尤为关键。本文将探讨如何为这样的家庭做出明智的选择,并介绍星贝育园自闭症儿童寄宿制学校作为一个值得考虑的选项。 理解孤独症儿童的独特性 孤独症,这一复杂的神经发育障碍,影响着儿童的社交互动、沟通能力以及行为模式。对于拥有孤独症兄

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

透彻!驯服大型语言模型(LLMs)的五种方法,及具体方法选择思路

引言 随着时间的发展,大型语言模型不再停留在演示阶段而是逐步面向生产系统的应用,随着人们期望的不断增加,目标也发生了巨大的变化。在短短的几个月的时间里,人们对大模型的认识已经从对其zero-shot能力感到惊讶,转变为考虑改进模型质量、提高模型可用性。 「大语言模型(LLMs)其实就是利用高容量的模型架构(例如Transformer)对海量的、多种多样的数据分布进行建模得到,它包含了大量的先验

cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个?

跨平台系列 cross-plateform 跨平台应用程序-01-概览 cross-plateform 跨平台应用程序-02-有哪些主流技术栈? cross-plateform 跨平台应用程序-03-如果只选择一个框架,应该选择哪一个? cross-plateform 跨平台应用程序-04-React Native 介绍 cross-plateform 跨平台应用程序-05-Flutte

如何选择SDR无线图传方案

在开源软件定义无线电(SDR)领域,有几个项目提供了无线图传的解决方案。以下是一些开源SDR无线图传方案: 1. **OpenHD**:这是一个远程高清数字图像传输的开源解决方案,它使用SDR技术来实现高清视频的无线传输。OpenHD项目提供了一个完整的工具链,包括发射器和接收器的硬件设计以及相应的软件。 2. **USRP(Universal Software Radio Periphera