AutoTokenizer.from_pretrained 与BertTokenizer.from_pretrained

2024-03-24 04:52

本文主要是介绍AutoTokenizer.from_pretrained 与BertTokenizer.from_pretrained,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AutoTokenizer.from_pretrainedBertTokenizer.from_pretrained 都是 Hugging Face 的 Transformers 库中用于加载预训练模型的 tokenizer 的方法,但它们之间有一些区别。

  1. 灵活性

    • AutoTokenizer.from_pretrained:这个方法是灵活的,可以用于加载任何预训练模型的 tokenizer,不仅仅是 BERT。它会自动检测提供的模型标识符(identifier)所对应的预训练模型类型,并返回相应类型的 tokenizer。这意味着你可以使用相同的代码来加载不同类型的模型的 tokenizer,而不需要改变代码。
    • BertTokenizer.from_pretrained:这个方法专门用于加载 BERT 模型的 tokenizer。虽然在命名上它表明是用于 BERT 的 tokenizer,但实际上它可以加载其他基于 BERT 结构的模型的 tokenizer,比如 RoBERTa、DistilBERT 等。然而,如果你想加载其他类型的模型的 tokenizer,你就需要使用对应的方法,比如 RobertaTokenizer.from_pretrained 用于加载 RoBERTa 模型的 tokenizer。

使用方法:

AutoTokenizer.from_pretrained:可以直接使用模型标识符(identifier)来加载预训练模型的 tokenizer,例如:

from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

 BertTokenizer.from_pretrained:同样可以使用模型标识符来加载 tokenizer,但是要注意,只有当模型确实是 BERT 结构时才能使用该方法,例如:

from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

总的来说,如果你想要一个通用的方法来加载任何预训练模型的 tokenizer,你可以使用 AutoTokenizer.from_pretrained。但如果你确定你要加载的模型是基于 BERT 结构的,那么 BertTokenizer.from_pretrained 也是一个不错的选择。

这篇关于AutoTokenizer.from_pretrained 与BertTokenizer.from_pretrained的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/840501

相关文章

NLP pretrained model

最近听了NLP pretrained model的报告,感觉挺有意思的。此处大量参考从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 Word Embedding 词向量在自然语言处理中有着重要的角色,它将抽象的词语之间的语义关系量化成向量形式。有了良好的词向量,我们就可以做更多的工作。目前构建词向量的方式大体上分成两大类: 统计方法:通过统计词语之间的关

【AI大模型】Transformers大模型库(四):AutoTokenizer

目录​​​​​​​ 一、引言  二、自动分词器(AutoTokenizer) 2.1 概述 2.2 主要特点 2.3 代码示例 三、总结 一、引言   这里的Transformers指的是huggingface开发的大模型库,为huggingface上数以万计的预训练大模型提供预测、训练等服务。 🤗 Transformers 提供了数以千计的预训练模型,支持 10

AutoModelForCausalLM.from_pretrained 函数调用本地权重报错

文章目录 1、代码报错的位置(前情提要)finetune_lora.shfintune_clm_lora.py 2、报错截图2.1、huggingfaces上的 meta-llama/Llama-2-7b-chat-hf2.2、服务器上模型文件路径 3、特别注意事项 1、代码报错的位置(前情提要) 在终端直接运行finetune_lora.sh文件,–model_name_or_

ViTMatte:Boosting image matting with pretrained plain vision transformers

自sora之后,我也要多思考,transformer的scaling law在各个子领域中是不是真的会产生智能,conv的叠加从resnet之后就讨论过,宽或者深都没有办法做到极限,大概sam这种思路是最好的实证。 1.introduction 引入了ViT adaptation策略和detail capture module。 2.Methodology 2.2 Overall ar

引入BertTokenizer出现OSError: Can‘t load tokenizer for ‘bert-base-uncased‘.

今天在跑一个模型的时候出现该报错,完整报错为: OSError: Can't load tokenizer for 'bert-base-uncased'. If you were trying to load it from 'https://huggingface.co/models', make sure you don't have a local directory with the

huggingface 连不上 from_pretrained from_single_file

huggingface的缓存目录 ~/.cach   cd ~/.cache# pwd 后展示 /home/fxbox/.cachepwd pipe: StableDiffusionPipeline = StableDiffusionPipeline.from_pretrained(model_id_or_path,).to(device=self.device, dtype=self.

ACL 2020 Video-Grounded Dialogues with Pretrained Generation Language Models

动机 预训练好的语言模型在改善各种下游NLP任务方面已显示出显著的成功,这是由于它们能够在文本数据中建立依赖关系和生成自然反应。本文利用预训练好的语言模型来提高视频对话的效果。基于Transformer的预训练好的语言模型的神经结构已经被用来学习视觉-文本NLP任务的跨模态表征。它可以应用于捕捉不同类型输入模式(文本和图像)之间的各种依赖关系,并具有适当的客观损失函数。这些模型的多头attent

Mask Scoring R-CNN,代码运行报错KeyError: ‘Non-existent config key: MODEL.PRETRAINED_MODELS‘

这几天在做Mask Scoring R-CNN算法运行,可是运行 命令: python tools/train_net.py --config-file configs/e2e_mask_rcnn_R_50_FPN_1x.yaml 总是报错: KeyError: 'Non-existent config key: MODEL.PRETRAINED_MODELS' 我是根据,下面几个博客进行