kotlin源代码数据集

bigtang5 2023-06-23 09:47:58

很多公司不愿意从java转向kotlin,原因是你能想到的几乎所有编程问题,bug,一搜索都会有一堆java案例,而kotlin,那则少的可怜,因为kotlin毕竟是一门新生语言,虽然java可以转为kotlin,但对kotlin新手还是不友好,转换经常会产生一些编译错误,新手一筹莫展。

如果有大量的kotlin源代码可参考,这个问题会大有改观。

BigCode数据集是一个开放的科学合作项目,旨在负责任地训练大语言模型,以应用于编码领域。该数据集包含了来自Stack Exchange平台上的问题和答案,包括StackOverflow的编程话题下的问题和答案。BigCode数据集可以用于许多自然语言处理任务,如代码补全、代码摘要、代码搜索等。此外,BigCode数据集还可以用于研究代码的语义和结构,以及代码的演化和变化。BigCode项目中包含了StarCoder、The Stack和SantaCoder等工件,其中StarCoder是用于编码的最先进的语言模型,The Stack是可用的最大的预训练数据集,包含宽容的代码,而SantaCoder是一个参数达到1.1B的编码模型。

BigCode中就有大量的kotlin源码,数量是13G, 375万个kt文件.

下载方法:https://huggingface.co/datasets/bigcode/the-stack/tree/main/data  
打开后,点击底部的 Load more files, 直到看见 kotlin, 点击kotlin
就会看到有15个parquet文件下载

可以用Python对 parquet文件解压:

   import pyarrow.parquet as pq   

   table = pq.read_table('input.parquet')

   table.to_pandas().to_csv('output.csv')

这样你就可以在本地检索kotlin源代码了,在线搜索:源代码搜索网站   www.tanglib.com 提供了本kotlin源代码数据集在线全文检索。

...全文
162 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

3,281

社区成员

发帖
与我相关
我的任务
社区描述
Kotlin语言的技术分享社区,分享用Kotlin作为主流语言学习安卓过程的点点滴滴,一起学习才有动力
社区管理员
  • wresource
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

大家可以发一些用kotlin开发过程中的问题,多多学习和交流。

试试用AI创作助手写篇文章吧