首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
collator专题
java Collator类的具体用法场景
Collator 用来简化我们处理各种语言之间的差别性。Collator 主要处理: 规范化的典型等效 字符多层次的比较 通过比较字符串 Unicode 字节的 code point 来进行Java字符串的比较。这将意味着在Unicode代码图表字符位置指定的排序权重,但事实并非如此。语言可能有完全相同的字符而不同的排序权重。 例如,你完全不懂德语,你可能希望 ß (\u00DF) 被
阅读更多...
关于java.text.Collator.compare比较中文不准问题
Collator.getInstance(Locale.CHINA)
阅读更多...
transformers中的data_collator
前言 使用huggingface的Dataset加载数据集,然后使用过tokenizer对文本数据进行编码,但是此时的特征数据还不是tensor,需要转换为深度学习框架所需的tensor类型。data_collator的作用就是将features特征数据转换为tensor类型的dataset。 本文记录huggingface transformers中两种比较常用的data_collator,
阅读更多...