集合算法求助:识别经常在一起出现的人群
总共有3000个人,每周末都参加集体活动,每个人都根据兴趣选择参加哪个活动,也有一点随机性。
已知每周都有10~20个活动,活动形式是不固定的,每个人都参加一项活动,而且每周只参加一项。
已知每周哪些人在一起参加活动,即参加同一项活动,但不知道每个人参加的具体活动形式。
统计了一年52周的信息。
要根据统计的信息对3000个人进行分类,分类原则:如果两个人经常一起参加活动,那么就分在同一类。
目标是将3000个人分成10类。
如果用一个矩阵统计两个人一起参加活动的次数,需要3000*3000字节的内存,约8.6MByte,有点大。人数再增加时就吃不消了。
有没有牺牲一点准确性,减少内存占用,而且快速的算法呢?