雅量数据处理之一

2012-08-24

海量数据处理之一?1 楼huangsky2012-06-18博主是在2G的内存情况下完成这4000万的去重的吗？2 楼周凡杨2012-

海量数据处理之一

1 楼 huangsky 2012-06-18   博主是在2G的内存情况下完成这4000万的去重的吗？ 2 楼周凡杨 2012-06-19   huangsky 写道博主是在2G的内存情况下完成这4000万的去重的吗？
是啊 3 楼 datawarehouse 2012-06-19   给出方法啊啊啊 4 楼周凡杨 2012-06-19   datawarehouse 写道给出方法啊啊啊
思路和过程写的还不够明显吗？源代码我这也有啊 5 楼 datawarehouse 2012-06-19   哪里下载代码啊 6 楼 eyes_on_you 2012-06-22   能把数据传上来测试下不 7 楼周凡杨 2012-06-24   eyes_on_you 写道能把数据传上来测试下不
数据文件很大啊，几百M ，你可以自己写个点代码生成嘛 8 楼 lengyimeng 2012-06-25   博主，你的第一步是把文件的数据读一遍，然后把数据的前三位放入一个list中，然后再遍历这个list，通过这个list中的数据，即文件数据的前三位又再去读一遍文件，然后再通过set去重，为什么要读两遍数据，而且你把前三位拿出来又通过前三位去读文件拿数据是为什么呢，我记得好像String的subString方法比较耗资源，你这里拿前三位是用哪个方法。还有，最后一个疑问，为什么不直接一次性把数据读入一个linkedList中，然后再遍历一次放入set中啊？ 9 楼周凡杨 2012-06-26   lengyimeng 写道博主，你的第一步是把文件的数据读一遍，然后把数据的前三位放入一个list中，然后再遍历这个list，通过这个list中的数据，即文件数据的前三位又再去读一遍文件，然后再通过set去重，为什么要读两遍数据，而且你把前三位拿出来又通过前三位去读文件拿数据是为什么呢，我记得好像String的subString方法比较耗资源，你这里拿前三位是用哪个方法。还有，最后一个疑问，为什么不直接一次性把数据读入一个linkedList中，然后再遍历一次放入set中啊？

数据量太大，一次性的把数据读入linkedList中，会内存溢出的！我第一次读取文件，取前三位，是要得到号段值。比如 135 136 是手机号码的号段。然后再读取文件就可以归类了，是根据已经得到的号段归类的，比如以135开头的数据为一类数据... 总体原理还是化大为小，实现数据过滤。

热点排行

编程

雅量数据处理之一