collator专题

java Collator类的具体用法场景

Collator 用来简化我们处理各种语言之间的差别性。Collator 主要处理: 规范化的典型等效 字符多层次的比较 通过比较字符串 Unicode 字节的 code point 来进行Java字符串的比较。这将意味着在Unicode代码图表字符位置指定的排序权重,但事实并非如此。语言可能有完全相同的字符而不同的排序权重。 例如,你完全不懂德语,你可能希望 ß (\u00DF) 被

transformers中的data_collator

前言 使用huggingface的Dataset加载数据集,然后使用过tokenizer对文本数据进行编码,但是此时的特征数据还不是tensor,需要转换为深度学习框架所需的tensor类型。data_collator的作用就是将features特征数据转换为tensor类型的dataset。 本文记录huggingface transformers中两种比较常用的data_collator,