35,135
社区成员
发帖
与我相关
我的任务
分享
网友们,我们最近发布了 cleanlab 2.0版本,cleanlab 将利用机器学习算法自动查找并分析真实世界的数据集中错误的数据标签,再将其做出修正。 简单来说,cleanlab 为与数据标签有关的AI程序提供更高效的框架。
去年1.0版本发布后,中国平安的工程师们在cleanlab的帮助下为稳建模型进行电子商务产品分类。Amazon的工程师们则利用cleanlab来对Alexa设备不被唤醒的几率进行估计。富国银行(Wells Fargo)也使用 cleanlab 研发可靠的财务预测模型。此外,cleanlab也在Microsoft、Tesla、腾讯(Tencent)等公司给予贡献。
为了让所有数据学家可有效地使用cleanlab,我们重建了2.0版本。目前新版本可用于任何机器学习分类数据集与模型。在面对要让 cleanlab 成为拥有专属权的专有软件或是开放于大众的开源软件的问题时, 我们仨决定将 cleanlab 开源化,并至此至终没有一丝反悔。
以下显示一些 2.0 版本公开的新开源功能(大多是一行代码):
一行代码识别问题数据:
from cleanlab.classification import CleanLearning
# labels = 噪声标签
issues = CleanLearning(yourFavoriteModel).find_label_issues(data, labels)
一行代码衡量并跟踪数据集整体健康状况:
from cleanlab.dataset import overall_label_health_score
# pred_probs = 样本外的预测概率, 通过交叉验证获得
dataset_health = overall_label_health_score(labels, pred_probs)
若有任何问题请随时发出提问!