自动查找并修正机器学习数据集中错误的标签: Cleanlab v2.0

weijinglok 2022-04-26 07:48:02

网友们,我们最近发布了 cleanlab 2.0版本,cleanlab 将利用机器学习算法自动查找并分析真实世界的数据集中错误的数据标签,再将其做出修正。 简单来说,cleanlab 为与数据标签有关的AI程序提供更高效的框架。

去年1.0版本发布后,中国平安的工程师们在cleanlab的帮助下为稳建模型进行电子商务产品分类。Amazon的工程师们则利用cleanlab来对Alexa设备不被唤醒的几率进行估计。富国银行(Wells Fargo)也使用 cleanlab 研发可靠的财务预测模型。此外,cleanlab也在Microsoft、Tesla、腾讯(Tencent)等公司给予贡献。

为了让所有数据学家可有效地使用cleanlab,我们重建了2.0版本。目前新版本可用于任何机器学习分类数据集与模型。在面对要让 cleanlab 成为拥有专属权的专有软件或是开放于大众的开源软件的问题时, 我们仨决定将 cleanlab 开源化,并至此至终没有一丝反悔。

以下显示一些 2.0 版本公开的新开源功能(大多是一行代码):

  1. 在数据集中查找相关问题并按数据点的质量进行排名
  2. 改善任何有数据集标签问题的分类模型
  3. 查找并合并/删除数据集内出现重叠的数据
  4. 衡量数据集的整体标签健康状况

一行代码识别问题数据:

from cleanlab.classification import CleanLearning
# labels = 噪声标签
issues = CleanLearning(yourFavoriteModel).find_label_issues(data, labels)

一行代码衡量并跟踪数据集整体健康状况:

from cleanlab.dataset import overall_label_health_score
# pred_probs = 样本外的预测概率, 通过交叉验证获得
dataset_health = overall_label_health_score(labels, pred_probs)

若有任何问题请随时发出提问!

...全文
14 回复 打赏 收藏 举报
写回复
回复
切换为时间正序
请发表友善的回复…
发表回复
发帖
智能研习社
加入

3.5w+

社区成员

记录学习历程,分享学习心得,关注深度学习,欢迎交流学习.
社区管理员
  • 盼小辉丶
帖子事件
编辑了帖子
2022-04-26 08:03
创建了帖子 (查看)
2022-04-26 07:48
社区公告
暂无公告