R语言中k均值聚类对数据量的要求,我有一个数据量大概200多万样本,变量七个,在确定k值的时候,总是提醒数据量太大如何破?
R语言中k均值聚类对数据量的要求,我有一个数据量大概200多万样本,变量七个,在确定k值的时候,总是提醒数据量太大如何破?
#图形确定最佳K
wssplot <- function(data,nc=15,seed=1234){
wss <- (nrow(data)-1)*sum(apply(data,2,var))
for (i in 2:nc){
set.seed(seed)
wss[i] <- sum(kmeans(data,centers = i)$withinss)
}
plot(1:nc,wss,type='b',xlab = 'Number of Clusters',
ylab = 'Whithin groups sum of squares')
}
wssplot(norm_data)
结果总是出现:
> wssplot(norm_data)
Error: cannot allocate vector of size 132.3 Mb
Called from: aperm.default(X, c(s.call, s.ans))
如何解决?????