写聚类内存不够用。。。

RouShan007 2012-05-22 02:23:26

小白刚刚入门数据挖掘
老板给个工作要对4G，1000w左右条目的数据进行聚类并且生成倒排索引
计划用k-means，但是小本内存不够啊读不进来。。。
以前没有用文件流辅助过计算所以不是很清楚流程。
似乎听人说过可以只保留数组下标每次要用数据的时候去读文件
但是4G的数据啊。。这样每次取数据的时候都要读不是也很慢么~？
求问大家有没有什么好方法。。。><

...全文

401 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

RouShan007 2012-05-24

打赏
举报

回复

[Quote=引用 1 楼的回复:]

内存映射文件，或者直接搞个大内存的。

要做算法之类的， 24GB 内存，起步
[/Quote]

啊~谢谢><去研究下。。。
内存映射文件还是好久前写过超简单的快排= =~
学生党表示内存加不起啊。。。QAQ
这个其实是俺们的课程项目。。。

CandPointer 2012-05-22

打赏
举报

回复

内存映射文件，或者直接搞个大内存的。

要做算法之类的， 24GB 内存，起步

收稿日期:2007-07-12基金项目:国家自然科学基金资助(50474033)作者简介:冯少荣(1964-),男,副教授,华南理工大学博士研究生,E-mail:shaorong@xmu.edu.cn.一种提高DBSCAN聚类算法质量的新方法冯少荣1,2,肖文俊1(1.华南理工大学计算机科学与工程学院,广东广州510640;2.厦门大学信息科学与技术学院,福建厦门361005)摘要:针对基于密度带...

sklearn中不少模块支持迭代训练和处理，特点是这些模块包含方法。在使用过程中需要考虑处理数据集为多批次的过程，需要考虑批大小和批个数，同时也需要考虑对最终精度的影响。与使用全量数据的处理相比，使用迭代训练和处理在效果和精度上可能会稍差，但可以在内存有限的情况下使用。

短文本聚类之DBSCAN算法原理常见的聚类算法DBSCAN聚类代码实现import需要的包载入数据对文本进行分词，并记录词性文本向量化--TF-IDF权重基于词性的新权重DBSCAN聚类结果算法原理常见的聚类算法聚类算法属于常见的无监督分类算法，在很多场景下都有应用，如用户聚类，文本聚类等。常见的聚类算法可以分成两类：以 k-means 为代表的基于分区的算法以层次聚类为代表的基于层...

birch1、birch概述2、概念准备2.1、 CF-Tree2.1.1、CF 聚类特征2.1.2、CF的三个统计量2.2、簇间距离3、生成聚类特征树CF Tree4、BIRCH算法4.1 二度聚类4.2 CF树瘦身（可选）4.3 离群点处理优缺点python实现 BIRCH，Balanced Iterative Reducing and Clustering Using Hierarchies...

K-均值聚类算法 1. 什么是K均值聚类算法 K均值聚类（k-means）是基于样本集合划分的聚类算法。K均值聚类将样本集合划分为k个子集，构成k个类，将n个样本分到k个类中，每个样本到其所属类的中心距离最小，每个样本仅属于一个类，这就是k均值聚类，同时根据一个样本仅属于一个类，也表示了k均值聚类是一种硬聚类算法。 2：K均值聚类算法的过程 2.1 k均值聚类的算法过程输入：n个样本的集合输出：样本集合的聚类过程：（1）初始化。随机选择k的样本作为初始聚类的中心。（2）对样本进行聚类。针对初始化时

其它技术问题

3,881

社区成员

9,044

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章