evaluate.load(metric)和dataset.load_metric(metric)

2024-05-29 13:12
文章标签 load evaluate dataset metric

本文主要是介绍evaluate.load(metric)和dataset.load_metric(metric),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

evaluate.loaddataset.load_metric 是两个不同的库中用于加载评估指标的方法,分别属于 evaluate 库和 datasets 库。它们虽然功能相似,但在使用场景和细节上有一些区别。

evaluate.load(metric)

evaluate 库是 Hugging Face 提供的一个专门用于评估模型性能的库。evaluate.load 用于加载预定义的或自定义的评估指标。

import evaluate# 加载预定义的指标,例如准确率
accuracy = evaluate.load('accuracy')# 加载自定义的指标
custom_metric = evaluate.load('path/to/custom/metric')
特点:
  1. 专注于评估evaluate 库专门设计用于各种评估任务,因此它包含了大量常见的评估指标,如准确率(accuracy)、精确率(precision)、召回率(recall)等。
  2. 灵活性高:支持加载和使用自定义指标,适用于需要自定义评估逻辑的场景。
  3. 独立使用:可以独立于 datasets 库使用,更加专注于评估部分。

datasets.load_metric(metric)

datasets 库同样是 Hugging Face 提供的,用于处理和操作数据集。dataset.load_metric 用于加载评估指标,并且和数据集操作紧密结合。

from datasets import load_metric# 加载预定义的指标,例如准确率
accuracy = load_metric('accuracy')# 加载自定义的指标(此功能可能受限,具体视版本和实现情况而定)
# custom_metric = load_metric('path/to/custom/metric')
特点:
  1. 与数据集紧密集成datasets 库主要用于数据集的加载和处理,load_metric 提供了与数据集评估相关的便捷功能。
  2. 便捷性:对于已经使用 datasets 库进行数据处理的用户,直接调用 load_metric 来评估数据会更加方便。
  3. 功能有限:虽然也提供了多种预定义的评估指标,但在灵活性和可扩展性方面可能不如 evaluate 库。

选择建议

  • 如果你只需要评估模型性能,并且可能需要自定义或更复杂的评估逻辑,推荐使用 evaluate.load
  • 如果你已经在使用 datasets 库处理数据集,并且你的评估需求相对简单,推荐使用 datasets.load_metric 以便捷和一致性。

总结:evaluate.load 更加专业和灵活,适合独立使用和复杂评估需求;而 datasets.load_metric 则适合与数据集处理流程结合的简单评估任务。

Tips:

因为远程加载容易连网失败,所以一般将metric的脚本下载到本地,但是经过测试,两者的"bleu"指标都不能成功的本地加载,具体也不懂(看见别人也有类似的情况,有人懂了麻烦踢一下),最后我放弃测bleu,使用sacrebleu和google_bleu 。   另外,加载本地脚本两种脚本的加载方法要对应,似乎是不能兼容的。  我最后是把datasets.load_metric下载的缓存文件直接复制出来新建的一个文件夹,然后用datasets.load_metric()加载该脚本

运行的过程他会报一个警告:/opt/conda/envs/test/lib/python3.9/site-packages/datasets/load.py:855: FutureWarning: The repository for sacrebleu contains custom code which must be executed to correctly load the metric. You can inspect the repository content at /opt/data/private/xxx/xxx/dataset_metrics/metrics/sacrebleu/sacrebleu.py

意思是你是使用的自定义的code脚本来评估,然后你可以在/opt/data/private/xxx/xxx/dataset_metrics/metrics/sacrebleu/sacrebleu.py这里面查看脚本的具体情况。       反思:每次报错都不认真看,还得认真看警告和报错,才知道你是否本地加载成功了没啊。。。。

参考:Huggingface Evaluate包使用小坑_evaluate huggingface-CSDN博客

这篇关于evaluate.load(metric)和dataset.load_metric(metric)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1013729

相关文章

HTML5自定义属性对象Dataset

原文转自HTML5自定义属性对象Dataset简介 一、html5 自定义属性介绍 之前翻译的“你必须知道的28个HTML5特征、窍门和技术”一文中对于HTML5中自定义合法属性data-已经做过些介绍,就是在HTML5中我们可以使用data-前缀设置我们需要的自定义属性,来进行一些数据的存放,例如我们要在一个文字按钮上存放相对应的id: <a href="javascript:" d

类的load方法和initialize方法对比

1. load方法在main()之前被调用,而initialize方法在main()之后调用 load方法实际是在load_images过程中被调用的。load_images会将当前应用依赖的所有镜像(动态库)加载到内存,在在加载中首先是对镜像进行扫描,将所有包含 load 方法的类加入列表 loadable_classes ,然后从这个列表中逐一调用其所包含的 load 方法。 +[XXCl

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes

论文精读-Supervised Raw Video Denoising with a Benchmark Dataset on Dynamic Scenes 优势 1、构建了一个用于监督原始视频去噪的基准数据集。为了多次捕捉瞬间,我们手动为对象s创建运动。在高ISO模式下捕获每一时刻的噪声帧,并通过对多个噪声帧进行平均得到相应的干净帧。 2、有效的原始视频去噪网络(RViDeNet),通过探

Unity Adressables 使用说明(六)加载(Load) Addressable Assets

【概述】Load Addressable Assets Addressables类提供了加载 Addressable assets 的方法。你可以一次加载一个资源或批量加载资源。为了识别要加载的资源,你需要向加载方法传递一个键或键列表。键可以是以下对象之一: Address:包含你分配给资源的地址的字符串。Label:包含分配给一个或多个资源的标签的字符串。AssetReference Obj

Metric Matrice(nyoj545)

Metric Matrice 时间限制: 1000 ms  |  内存限制: 65535 KB 难度:1 描述 Given as input a square distance matrix, where a[i][j] is the distance between point i and point j, determine if the distance matrix is

How can I load the openai api configuration through js in html?

题意:怎样在HTML中通过JavaScript加载OpenAI API配置 问题背景: I am trying to send a request through js in my html so that openai analyzes it and sends a response, but if in the js I put the following: 我正在尝试通过HTM

JavaBug系列- Failed to load driver class com.mysql.cj.jdbc.Driver in either of HikariConfig class load

JavaBug系列之Mysql驱动问题 Java医生一、关于错误信息二、如何解决问题 Java医生 本系列记录常见Bug,以及诊断过程和原因 Java/一对一零基础辅导/企业项目一对一辅导/日常Bug解决/代码讲解/毕业设计等 V:study_51ctofx 一、关于错误信息 APPLICATION FAILED TO START Description: Fai

【Python百日进阶-Web开发-音频】Day705 - 音频加载 librosa.load / librosa.stream

文章目录 一、音频加载1.1 librosa.load1.1.1 语法与参数1.1.2 例子1.1.2.1 下载并加载文件1.1.2.2 加载并重采样1.1.2.3 加载文件,从第15秒开始,加载5秒- 1.2 librosa.stream1.2.1 语法与参数1.2.2 例子1.2.2.1 一次对 256 帧的块应用短期傅里叶变换。1.2.2.2 使用较短的帧和不重叠的窗口计算流上的 m

【异常】java.sql.SQLException: Unable to load authentication plugin ‘caching_sha2_password‘.

异常现象 执行mysql数据库操作的时候,出现以下异常信息: java.sql.SQLException: Unable to load authentication plugin 'caching_sha2_password'.at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:868) ~[mysql-connector-

SparkRDD转DataSet/DataFrame的一个深坑

大数据技术与架构 点击右侧关注,大数据开发领域最强公众号! 暴走大数据 点击右侧关注,暴走大数据! By  大数据技术与架构 场景描述:本文是根据读者反馈的一个问题总结而成的。 关键词:Saprk RDD 原需求:希望在map函数中将每一