社区
其它技术问题
帖子详情
写聚类内存不够用。。。
RouShan007
2012-05-22 02:23:26
小白刚刚入门数据挖掘
老板给个工作要对4G,1000w左右条目的数据进行聚类并且生成倒排索引
计划用k-means,但是小本内存不够啊读不进来。。。
以前没有用文件流辅助过计算所以不是很清楚流程。
似乎听人说过可以只保留数组下标每次要用数据的时候去读文件
但是4G的数据啊。。这样每次取数据的时候都要读不是也很慢么~?
求问大家有没有什么好方法。。。><
...全文
400
2
打赏
收藏
写聚类内存不够用。。。
小白刚刚入门数据挖掘 老板给个工作要对4G,1000w左右条目的数据进行聚类并且生成倒排索引 计划用k-means,但是小本内存不够啊读不进来。。。 以前没有用文件流辅助过计算所以不是很清楚流程。 似乎听人说过可以只保留数组下标每次要用数据的时候去读文件 但是4G的数据啊。。这样每次取数据的时候都要读不是也很慢么~? 求问大家有没有什么好方法。。。><
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
RouShan007
2012-05-24
打赏
举报
回复
[Quote=引用 1 楼 的回复:]
内存映射文件,或者 直接搞个大内存的。
要做算法之类的, 24GB 内存,起步
[/Quote]
啊~谢谢><去研究下。。。
内存映射文件还是好久前写过超简单的快排= =~
学生党表示内存加不起啊。。。QAQ
这个其实是俺们的课程项目。。。
CandPointer
2012-05-22
打赏
举报
回复
内存映射文件,或者 直接搞个大内存的。
要做算法之类的, 24GB 内存,起步
dbscan
内存
不够
_一种提高DBSCAN
聚类
算法质量的新方法
本文提出了一种基于遗传算法的DBSCAN改进方案(DPDGA),旨在解决DBSCAN
聚类
算法的输入参数敏感、
内存
需求高以及数据分布不均导致的
聚类
效果问题。通过遗传算法改进K-means获取初始
聚类
中心,数据分区后对每个部分应用DBSCAN,最后合并
聚类
结果。实验表明,DPDGA在
聚类
效率和效果上均优于传统DBSCAN。
模型训练遇到数据量太大而导致
内存
不够
问题?今天教你一招
本文针对数据量太大导致
内存
不够
的问题,介绍了sklearn中支持迭代训练的模型。按模块划分汇总了支持迭代训练的模块,展示了分类、
聚类
、预处理、降维等相关代码案例。指出使用迭代训练可在
内存
有限时进行,但效果和精度可能稍差。
短文本
聚类
【DBSCAN】算法原理+Python代码实现+
聚类
结果展示
本文介绍了DBSCAN
聚类
算法,对比了它与其他
聚类
算法的优缺点,并展示了如何在Python中实现DBSCAN进行短文本
聚类
。通过对数据进行分词、TF-IDF权重计算和词性加权,最终实现对短文本的有效
聚类
。
四种常用
聚类
及代码(三):birch(一种层次
聚类
)
BIRCH是一种层次
聚类
算法,通过构建
聚类
特征树(CF Tree)来快速处理大规模数据。算法分为构建CF Tree和后续
聚类
两步,适合数据量大、类别数多的场景。CF由N(样本数)、LS(线性求和)、SS(平方和)组成,用于概括簇信息。BIRCH通过调整参数能处理离群点和
内存
限制,但对高维数据和非凸簇效果不佳。
K均值
聚类
本文详细介绍了K-均值
聚类
算法的原理、过程,并通过实例展示了算法的应用。K-均值将样本集合划分为指定数量的类,通过迭代更新类中心以达到
聚类
效果。此外,还探讨了算法的变异性,即不同初始
聚类
中心可能导致的不同结果。最后,以鸢尾花数据集为例,展示了如何使用sklearn库实现K-均值
聚类
,并给出了
聚类
结果的可视化展示。
其它技术问题
3,881
社区成员
9,044
社区内容
发帖
与我相关
我的任务
其它技术问题
C/C++ 其它技术问题
复制链接
扫一扫
分享
社区描述
C/C++ 其它技术问题
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章