3,281
社区成员




很多公司不愿意从java转向kotlin,原因是你能想到的几乎所有编程问题,bug,一搜索都会有一堆java案例,而kotlin,那则少的可怜,因为kotlin毕竟是一门新生语言,虽然java可以转为kotlin,但对kotlin新手还是不友好,转换经常会产生一些编译错误,新手一筹莫展。
如果有大量的kotlin源代码可参考,这个问题会大有改观。
BigCode数据集是一个开放的科学合作项目,旨在负责任地训练大语言模型,以应用于编码领域。该数据集包含了来自Stack Exchange平台上的问题和答案,包括StackOverflow的编程话题下的问题和答案。BigCode数据集可以用于许多自然语言处理任务,如代码补全、代码摘要、代码搜索等。此外,BigCode数据集还可以用于研究代码的语义和结构,以及代码的演化和变化。BigCode项目中包含了StarCoder、The Stack和SantaCoder等工件,其中StarCoder是用于编码的最先进的语言模型,The Stack是可用的最大的预训练数据集,包含宽容的代码,而SantaCoder是一个参数达到1.1B的编码模型。
BigCode中就有大量的kotlin源码,数量是13G, 375万个kt文件.
下载方法:https://huggingface.co/datasets/bigcode/the-stack/tree/main/data
打开后,点击底部的 Load more files, 直到看见 kotlin, 点击kotlin
就会看到有15个parquet文件下载
可以用Python对 parquet文件解压:
import pyarrow.parquet as pq
table = pq.read_table('input.parquet')
table.to_pandas().to_csv('output.csv')
这样你就可以在本地检索kotlin源代码了,在线搜索:源代码搜索网站 www.tanglib.com 提供了本kotlin源代码数据集在线全文检索。