huggingface学习 | 云服务器使用hf_hub_download下载huggingface上的模型文件

2024-01-21 09:04

本文主要是介绍huggingface学习 | 云服务器使用hf_hub_download下载huggingface上的模型文件,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

系列文章目录

huggingface学习 | 云服务器使用git-lfs下载huggingface上的模型文件


文章目录

  • 系列文章目录
  • 一、hf_hub_download介绍
  • 二、找到需要下载的huggingface文件
  • 三、准备工作及下载过程
  • 四、全部代码


一、hf_hub_download介绍

hf_hub_download是huggingface官方支持(Downloading files/hf_hub_download)的下载模型或数据集的方法。该方法涉及的参数如下:
在这里插入图片描述实际上用到的参数并不多,一般情况下只需设置repo_id,filename,subfolder,local_dir,token参数即可

  • repo_id:仓库名称
  • filename:需要下载的文件名
  • subfolder:需要下载的文件在仓库中的哪一个文件夹(可选)
  • repo_type:仓库类型(可选),如果不填写就默认下载的是model,否则需要设置对应值(如下载数据集就设为datase)
    在这里插入图片描述
  • revision:指定Git的修订版本(可选)
  • library_name:对象对应的库的名称(可选)
  • library_version:库的版本号(可选)
  • cache_dir:缓存文件存储的文件夹路径(可选)
  • local_dir:下载的文件存放的目录(可选)
  • local_dir_use_symlinks:与 local_dir 参数一起使用的选项。如果设置为 “auto”,则会使用缓存目录,并根据文件大小将文件复制或创建符号链接到本地目录。如果设置为 True,则无论文件大小如何,都将创建符号链接。如果设置为 False,则文件将从缓存中复制(如果已存在),或者从Hub下载而不缓存。
  • user_agent:指定用户代理信息,可以是一个字典或一个字符串(可选)
  • force_download:如果该文件已经在本地缓存中存在,是否强制性下载文件(可选)
  • proxies: 设置代理服务器(可选)
  • etag_timeout:当获取ETag时,等待服务器发送数据的最长时间(以秒为单位)。如果服务器在这段时间内没有响应,将放弃请求(可选)
  • resume_download:如果设置为 True,可以继续之前中断的下载操作,即继续下载先前未完成的文件(可选)
  • token:用于下载的身份验证令牌,如果设置为 True,则从HuggingFace配置文件夹中读取令牌。如果是一个字符串,它将被用作身份验证令牌。(可选)
  • local_files_only:如果设置为 True,则避免下载文件,如果本地缓存中存在文件,则返回本地缓存文件的路径(可选)
  • legacy_cache_layout:如果设置为 True,则使用旧的文件缓存布局,即只需调用 hf_hub_url() 然后进行缓存下载。这已经不推荐使用,因为新的缓存布局更强大。(可选)

二、找到需要下载的huggingface文件

huggingface官网链接:https://huggingface.co/

以stable-diffusion-xl-base-1.0中unet文件夹里的diffusion_flax_model.msgpack文件为例:链接为stable-diffusion-xl-base-1.0。该文件大小为10.3G,如果采用官网直接下载的方法,会耗费较长的时间,采用git-lfs的方法在运行过程中容易自动跳过部分大文件,因此可以采用官网提供的hf_hub_download函数进行下载。
在这里插入图片描述

三、准备工作及下载过程

  1. 安装huggingface_hub包
pip install huggingface_hub
  1. 导入相关包,并使用hf-mirror.com镜像进行下载
import os
# 注意os.environ得在import huggingface库相关语句之前执行。
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
from huggingface_hub import hf_hub_download
  1. 确定身份验证令牌token
    在注册完成huggingface账户后,访问huggingface个人主页(profile)里的settings:https://huggingface.co/settings/profile
    在这里插入图片描述
    点击左侧:SSH AND GPG keys
    在这里插入图片描述
    如果已有token,复制即可,如果没有则点击new token设置完毕后再进行复制
    在这里插入图片描述

  2. 确定相关参数
    local_dir:你想要将文件保存到的地址
    repo_id:想要下载的文件所在的仓库
    filename:文件名
    subfolder:如果文件不是直接在仓库里,而是在仓库的文件夹里,需要指定文件夹
    token:身份验证令牌

repo_id=‘stabilityai/stable-diffusion-xl-base-1.0’
filename=‘diffusion_pytorch_model.safetensors’
subfolder=‘unet’
token=‘第三步中复制得到的’
local_dir = r’models\sdxl’

  1. 定义下载函数
    这个函数可以将下载的进程呈现出来,只需要输入local_dir,repo_id,filename,subfolder,token参数即可完成下载。(参考自【AI之路】使用huggingface_hub通过huggingface镜像站hf-mirror.com下载大模型(附代码,实现大模型自由))
def download_model(local_dir,repo_id,filename,subfolder,token):print(f'开始下载\n仓库:{repo_id}\n大模型:{filename}\n如超时不用管,会自定继续下载,直至完成。中途中断,再次运行将继续下载。')while True:   try:hf_hub_download(local_dir=local_dir,repo_id=repo_id,token=token,filename=filename,subfolder=subfolder,local_dir_use_symlinks=False,resume_download=True,etag_timeout=100)except Exception as e :print(e)else:print(f'下载完成,大模型保存在:{local_dir}\{filename}')break
  1. 运行代码进行下载
if __name__ == '__main__':repo_id='stabilityai/stable-diffusion-xl-base-1.0'filename='diffusion_pytorch_model.safetensors'subfolder='unet'token='第三步复制得到'local_dir = r'models'download_model(local_dir,repo_id,filename,subfolder,token)

开始下载:
在这里插入图片描述
如超时不用管,会自定继续下载,直至完成。中途中断,再次运行将继续下载;

最终下载完成界面:
在这里插入图片描述

四、全部代码

import os
# 注意os.environ得在import huggingface库相关语句之前执行。
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
from huggingface_hub import hf_hub_downloaddef download_model(local_dir,repo_id,filename,subfolder,token):print(f'开始下载\n仓库:{repo_id}\n大模型:{filename}\n如超时不用管,会自定继续下载,直至完成。中途中断,再次运行将继续下载。')while True:   try:hf_hub_download(local_dir=local_dir,repo_id=repo_id,token=token,filename=filename,subfolder=subfolder,local_dir_use_symlinks=False,resume_download=True,etag_timeout=100)except Exception as e :print(e)else:print(f'下载完成,大模型保存在:{local_dir}\{filename}')breakif __name__ == '__main__':repo_id='stabilityai/stable-diffusion-xl-base-1.0'filename='diffusion_pytorch_model.safetensors'subfolder='unet'token='复制得到'local_dir = r'models'download_model(local_dir,repo_id,filename,subfolder,token)

参考:
如何快速下载huggingface模型——全方法总结
【AI之路】使用huggingface_hub通过huggingface镜像站hf-mirror.com下载大模型(附代码,实现大模型自由)

这篇关于huggingface学习 | 云服务器使用hf_hub_download下载huggingface上的模型文件的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/629006

相关文章

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

Jsoncpp的安装与使用方式

《Jsoncpp的安装与使用方式》JsonCpp是一个用于解析和生成JSON数据的C++库,它支持解析JSON文件或字符串到C++对象,以及将C++对象序列化回JSON格式,安装JsonCpp可以通过... 目录安装jsoncppJsoncpp的使用Value类构造函数检测保存的数据类型提取数据对json数

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

springboot整合 xxl-job及使用步骤

《springboot整合xxl-job及使用步骤》XXL-JOB是一个分布式任务调度平台,用于解决分布式系统中的任务调度和管理问题,文章详细介绍了XXL-JOB的架构,包括调度中心、执行器和Web... 目录一、xxl-job是什么二、使用步骤1. 下载并运行管理端代码2. 访问管理页面,确认是否启动成功

Apache Tomcat服务器版本号隐藏的几种方法

《ApacheTomcat服务器版本号隐藏的几种方法》本文主要介绍了ApacheTomcat服务器版本号隐藏的几种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需... 目录1. 隐藏HTTP响应头中的Server信息编辑 server.XML 文件2. 修China编程改错误

使用Nginx来共享文件的详细教程

《使用Nginx来共享文件的详细教程》有时我们想共享电脑上的某些文件,一个比较方便的做法是,开一个HTTP服务,指向文件所在的目录,这次我们用nginx来实现这个需求,本文将通过代码示例一步步教你使用... 在本教程中,我们将向您展示如何使用开源 Web 服务器 Nginx 设置文件共享服务器步骤 0 —

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min