答案是显而易见的,没有。
原因很多同行都分析过了,说几个我觉得最重要的:
高质量的数据,很多人都意识到了高质量数据对AI模型的重要性,但为什么没有中文高质量数据集呢?
(1)没人。但是清洗数据是费时费力的苦活累活,博士、研究员们可没有时间和耐心去做,有那个时间为什么不找个清洗好的公开数据集,调调参数,搞几个trick,刷刷SOTA,发几篇顶会来的惬意。所有数据标注清洗都交给数据标注公司,或者低年级的学生去做,他们对数据完成什么任务,数据和任务关系,怎样的数据能训练出好模型知之甚少,怎么能建设出高质量数据集呢?数据集建设必须由训练模型的研究员或者工程师亲自参与,反复迭代。大模型时代,好数据比好模型重要N个数量级。
(2)没利益。做科研的等着别人公开数据集,商业化公司又不愿意烧钱去build数据集。大多数科研人员连爬虫都不愿意写,反正有那么多公开数据集等着我去刷榜呢,为什么要做数据集。辛辛苦苦爬了一些数据,标了一些数据,赶紧发个文章领域内第一个XXX数据集,然后大家写文章引用起来。高质量的数据集和质量一般的数据集有差别吗?
训练大模型的能力。现在国内好多机构都在发布大模型,可真
, 相关下载链接:
https://download.csdn.net/download/2301_77769537/87741649?utm_source=bbsseo