我现在基于probalistic latent semantic indexing(plsa)做图像检索,我的方法和这篇论文很像,需要计算一个条件概率p(z|w,v,d),我直接定义成了“double p_z_d_wt_wv[][][][];”简单地说,z是主题,w是英文单词,v是视觉单词,d是文档,大小分别为12*100*500*7000,就是12个主题,100个英文单词,500个视觉单词,7000个文档,double型的话算下来大概32G,其中z和d的数目是确定的,每个d的w和v的数目是不确定的。我的实现是这样的:
p_z_d_wt_wv = new double[12][7000][][];
for( int t = 0; t < 12; ++t)
{
for( int d = 0; d < 7000; ++d )
{
p_z_d_wt_wv[t][d] = new double[100][500];
}
}
但是这样没分配完就溢出了。我问了很多人,都说用文件或是数据库存储比较好,但是用文件的话怎么定位到某个数组元素呢。如果用数据库的话mongodb可以吗,我现在想试试这个,还没用过
大家有什么好的建议没