本文主要是介绍在 Hub 上使用 Presidio 进行自动 PII 检测实验,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
在 Hub 上使用 Presidio 进行自动 PII 检测实验
我们在 Hugging Face Hub 上托管的机器学习(ML)数据集中发现了一个引人关注的现象:包含个人未经记录的私密信息。这一现象为机器学习从业者带来了一些特殊挑战。
在本篇博客中,我们将深入探讨含有一种称为个人识别信息(PII)的私密信息的各类数据集,分析这些数据集存在的问题,并介绍我们在数据集 Hub 上正在测试的一个新功能,旨在帮助应对这些挑战。
包含个人识别信息(PII)的数据集类型
我们注意到包含个人识别信息(PII)的数据集主要有两种类型:
- 标注的PII数据集:例如由 Ai4Privacy 提供的 PII-Masking-300k,这类数据集专门用于训练PII检测模型。这些模型用于检测和掩盖PII,可以帮助进行在线内容审核或提供匿名化的数据库。
- 预训练数据集:这些通常是大规模的数据集,往往有数TB大小,通常通过网络爬虫获得。尽管这些数据集一般会过滤掉某些类型的PII,但由于数据量庞大和PII检测模型的不完善,仍可能有少量敏感信息遗漏。
机器学习数据集中的个人识别信息(PII)面临的挑战
机器学习数据集中存在的个人识别信息(PII)会为从业者带来几个挑战。首先,它引发
这篇关于在 Hub 上使用 Presidio 进行自动 PII 检测实验的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!