dvc 更改大型数据集的处理方法

2024-06-14 23:36

本文主要是介绍dvc 更改大型数据集的处理方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

背景

2024年6月,由于需要对图像的数据集经常增删改查,故需要有一个基础和可以管理数据集的工具,查看网上相关的资料,初步尝试了dvc + git + minio的组合方式。
同时,参考官网关于dvc对于的文章大型数据集:
https://dvc.org/doc/user-guide/data-management/modifying-large-datasets

思路:

使用dvc data status --granular取得需要dvc add的图像,小步add, 减少时间。
因为每次都要自己看,故这里写了一个小脚本,自动dvc add file.
如果文件大于5000,这里直接dvc add dirs。

import os
import subprocess
import re
import time
from typing import TypedDict, Listclass ResultAddFile(TypedDict):is_need_git_commit: boolfiles_path: List[str]def get_need_add_files() -> ResultAddFile:is_need_git_commit = Falsefile_list = []# 定义要执行的命令command = "dvc data status --granular"# 正则表达式用于移除ANSI控制序列ansi_escape = re.compile(r'\x1b[^m]*m')# 使用subprocess.Popen以确保可以实时读取输出并控制编码process = subprocess.Popen(command, stdout=subprocess.PIPE, stderr=subprocess.PIPE, shell=True)# 实时读取并打印输出is_need_add = Falseindex = 0for line in iter(process.stdout.readline, b''):# 显式指定使用UTF-8解码index += 1# 去掉尾的空格text = line.decode('utf-8', 'ignore').strip()# 移除ANSI控制序列text = ansi_escape.sub('', text).strip()match = re.search(r':\s*(.*)', text)if match:file_path = match.group(1).strip()if "." not in file_path:continueif is_need_add:print(f"{index}{text}")file_list.append(file_path)else:if len(text) == 0:continueprint(f"{index}{text}")if 'dvc commit' in text:is_need_add = Trueif 'git status' in text:is_need_git_commit = True# 等待命令执行完毕并获取返回码process.wait()return_code = process.returncodeif return_code == 0:print(f"文件数量:{len(file_list)}")else:print(f"失败,返回码:{return_code}")# 创建并返回 ResultAddFile 类型的结果result = {"is_need_git_commit": is_need_git_commit,"files_path": file_list}return resultdef dvc_add(_file_list):for _file_path in _file_list:# 确保文件路径适合在命令行中使用,这一步可能不是必须的,取决于具体的系统和命令行工具encoded_path = os.fsencode(_file_path)  # 如果dvc需要字节串command = f"dvc add {encoded_path.decode('utf-8')}"  # 或者直接使用file_path,根据dvc的实际要求print(command)# 记录命令开始执行的时间start_time = time.time()# 使用Popen执行命令# 使用subprocess.Popen以确保可以实时读取输出并控制编码process = subprocess.Popen(command, stdout=subprocess.PIPE, stderr=subprocess.PIPE, shell=True,encoding='utf-8')stdout, stderr = process.communicate()return_code = process.returncode# os.system(command)# 计算命令执行的耗时(转换为毫秒)execution_time = (time.time() - start_time)print(f"命令耗时: {execution_time:.2f}秒")if return_code == 0:print(f"命令成功执行耗时: {execution_time:.2f}秒")else:print(f"命令执行失败,返回码:{return_code}\n错误信息:{stderr} 执行耗时: {execution_time:.2f}毫秒")if __name__ == '__main__':# 假设file_list已经是一个包含超过10000个文件路径的列表unique_paths = set()  # 用于存储唯一的文件路径result: ResultAddFile = get_need_add_files()file_list = result["files_path"]is_need_git_commit = result["is_need_git_commit"]if len(file_list) > 5000:for file_path in file_list:dir_path = os.path.dirname(file_path)if dir_path not in unique_paths:unique_paths.add(dir_path)for dir_path in unique_paths:print(dir_path)# 确保文件路径适合在命令行中使用,这一步可能不是dvc_add(unique_paths)elif len(file_list) > 0:dvc_add(file_list)# 最后的提示if is_need_git_commit:print("有文件未提交,请执行: git commit!")

这篇关于dvc 更改大型数据集的处理方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1061817

相关文章

vue基于ElementUI动态设置表格高度的3种方法

《vue基于ElementUI动态设置表格高度的3种方法》ElementUI+vue动态设置表格高度的几种方法,抛砖引玉,还有其它方法动态设置表格高度,大家可以开动脑筋... 方法一、css + js的形式这个方法需要在表格外层设置一个div,原理是将表格的高度设置成外层div的高度,所以外层的div需要

Java中注解与元数据示例详解

《Java中注解与元数据示例详解》Java注解和元数据是编程中重要的概念,用于描述程序元素的属性和用途,:本文主要介绍Java中注解与元数据的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参... 目录一、引言二、元数据的概念2.1 定义2.2 作用三、Java 注解的基础3.1 注解的定义3.2 内

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据

C++中使用vector存储并遍历数据的基本步骤

《C++中使用vector存储并遍历数据的基本步骤》C++标准模板库(STL)提供了多种容器类型,包括顺序容器、关联容器、无序关联容器和容器适配器,每种容器都有其特定的用途和特性,:本文主要介绍C... 目录(1)容器及简要描述‌php顺序容器‌‌关联容器‌‌无序关联容器‌(基于哈希表):‌容器适配器‌:(

Python判断for循环最后一次的6种方法

《Python判断for循环最后一次的6种方法》在Python中,通常我们不会直接判断for循环是否正在执行最后一次迭代,因为Python的for循环是基于可迭代对象的,它不知道也不关心迭代的内部状态... 目录1.使用enuhttp://www.chinasem.cnmerate()和len()来判断for

C#提取PDF表单数据的实现流程

《C#提取PDF表单数据的实现流程》PDF表单是一种常见的数据收集工具,广泛应用于调查问卷、业务合同等场景,凭借出色的跨平台兼容性和标准化特点,PDF表单在各行各业中得到了广泛应用,本文将探讨如何使用... 目录引言使用工具C# 提取多个PDF表单域的数据C# 提取特定PDF表单域的数据引言PDF表单是一

Java循环创建对象内存溢出的解决方法

《Java循环创建对象内存溢出的解决方法》在Java中,如果在循环中不当地创建大量对象而不及时释放内存,很容易导致内存溢出(OutOfMemoryError),所以本文给大家介绍了Java循环创建对象... 目录问题1. 解决方案2. 示例代码2.1 原始版本(可能导致内存溢出)2.2 修改后的版本问题在

四种Flutter子页面向父组件传递数据的方法介绍

《四种Flutter子页面向父组件传递数据的方法介绍》在Flutter中,如果父组件需要调用子组件的方法,可以通过常用的四种方式实现,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录方法 1:使用 GlobalKey 和 State 调用子组件方法方法 2:通过回调函数(Callb

一文详解Python中数据清洗与处理的常用方法

《一文详解Python中数据清洗与处理的常用方法》在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战,本文总结了多种数据清洗与处理方法,文中的示例代码简洁易懂,有需要的小伙伴可以参考下... 目录缺失值处理重复值处理异常值处理数据类型转换文本清洗数据分组统计数据分箱数据标准化在数据处理与分析过

Java中Object类的常用方法小结

《Java中Object类的常用方法小结》JavaObject类是所有类的父类,位于java.lang包中,本文为大家整理了一些Object类的常用方法,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. public boolean equals(Object obj)2. public int ha