自动查找并修正机器学习数据集中错误的标签: Cleanlab v2.0

weijinglok 2022-04-26 07:48:02

网友们，我们最近发布了 cleanlab 2.0版本，cleanlab 将利用机器学习算法自动查找并分析真实世界的数据集中错误的数据标签，再将其做出修正。简单来说，cleanlab 为与数据标签有关的AI程序提供更高效的框架。

去年1.0版本发布后，中国平安的工程师们在cleanlab的帮助下为稳建模型进行电子商务产品分类。Amazon的工程师们则利用cleanlab来对Alexa设备不被唤醒的几率进行估计。富国银行(Wells Fargo)也使用 cleanlab 研发可靠的财务预测模型。此外，cleanlab也在Microsoft、Tesla、腾讯(Tencent)等公司给予贡献。

为了让所有数据学家可有效地使用cleanlab，我们重建了2.0版本。目前新版本可用于任何机器学习分类数据集与模型。在面对要让 cleanlab 成为拥有专属权的专有软件或是开放于大众的开源软件的问题时，我们仨决定将 cleanlab 开源化，并至此至终没有一丝反悔。

以下显示一些 2.0 版本公开的新开源功能（大多是一行代码）：

在数据集中查找相关问题并按数据点的质量进行排名
改善任何有数据集标签问题的分类模型
查找并合并/删除数据集内出现重叠的数据
衡量数据集的整体标签健康状况

一行代码识别问题数据：

from cleanlab.classification import CleanLearning
# labels = 噪声标签
issues = CleanLearning(yourFavoriteModel).find_label_issues(data, labels)

一行代码衡量并跟踪数据集整体健康状况:

from cleanlab.dataset import overall_label_health_score
# pred_probs = 样本外的预测概率, 通过交叉验证获得
dataset_health = overall_label_health_score(labels, pred_probs)

官方公告博客（更多详情）：https://cleanlab.ai/blog/cleanlab-2/
GitHub：https://github.com/cleanlab/cleanlab
文档：https://cleanlab.org/
cleanlab 在顶级 ML 数据集中发现的数百万个错误：https://labelerrors.com
NeurIPS 演讲：https://slideslive.com/38971637/finding-millions-of-label-errors-with-cleanlab
现在就使用 cleanlab 在您的表格、文子、图像或语音数据集内查找问题吧！

若有任何问题请随时发出提问！

...全文

113 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

在Data-centric AI范式下，数据质量已成为模型性能的决定性瓶颈。本文围绕标签错误（label errors）这一核心数据缺陷，解析其产生机理与对模型泛化能力的破坏路径；介绍基于预测置信度与特征空间离群度的双重诊断原理，强调cleanlab工具链在可解释性、轻量化和工程嵌入性上的技术优势；阐述如何将清洗动作转化为可审计、可回滚的结构化操作，并通过主动学习与鲁棒训练实现数据治理闭环；内容覆盖CIFAR-10-C等真实退化数据集的工业级处理流程，适用于需快速构建数据健康评估能力的算法工程师与MLOps

你还在为数据集标签错误头疼吗？训练模型时总遇到"数据质量不佳导致模型效果差"的困境？别担心！本文将带你掌握Confident Learning（置信学习）这一数据清洗黑科技，用Cleanlab轻松揪出标签问题，让模型性能提升20%不再是梦！读完本文，你将学会：识别数据集中隐藏的标签错误、用3行代码实现自动化数据清洗、在实际业务场景中落地置信学习算法。 ## 为什么标签错误是AI项目的隐形障碍？ ...

在机器学习中，标签噪声是导致模型性能瓶颈的关键隐性因素，尤其在小样本、高专业性场景（如医疗影像、工业缺陷检测）中尤为突出。其本质源于人工标注的主观性与系统性偏差，而非随机错误。Confident Learning 作为一种鲁棒的数据质量评估范式，不依赖外部规则或真实标签，而是通过交叉验证下的模型预测概率矩阵，识别‘高置信度但自我矛盾’的样本——即模型最笃定预测的类别与标注标签不一致的情形。该方法兼具统计可解释性与工程落地性，能输出可排序的可疑标签清单及量化噪声率，直接支撑数据清洗、主动学习与MLOps监控等

在金融风控领域，数据质量直接决定了模型性能和业务决策的准确性。传统金融数据面临标签噪声、异常值、重复记录、缺失值等多重挑战： - **标签噪声问题**：人工标注的逾期标签可能存在误标 - **异常值干扰**：极端交易行为或数据录入错误 - **数据不一致**：多源数据整合时的格式和标准差异 - **特征质量问题**：数值异常、分布偏移等问题 Cleanlab作为数据为中心的AI工具包，为金融风...

智能研习社

35,136

社区成员

511

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章