写聚类内存不够用。解决思路

2012-05-27

写聚类内存不够用。。。小白刚刚入门数据挖掘老板给个工作要对4G，1000w左右条目的数据进行聚类并且生成倒排索

写聚类内存不够用。。。
小白刚刚入门数据挖掘
老板给个工作要对4G，1000w左右条目的数据进行聚类并且生成倒排索引
计划用k-means，但是小本内存不够啊读不进来。。。
以前没有用文件流辅助过计算所以不是很清楚流程。
似乎听人说过可以只保留数组下标每次要用数据的时候去读文件
但是4G的数据啊。。这样每次取数据的时候都要读不是也很慢么~？
求问大家有没有什么好方法。。。><

[解决办法]
内存映射文件，或者直接搞个大内存的。

要做算法之类的， 24GB 内存，起步