首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > 编程 >

雅量数据处理之一

2012-08-24 
海量数据处理之一?1 楼huangsky2012-06-18博主是在2G的内存情况下完成这4000万的去重的吗?2 楼周凡杨2012-

海量数据处理之一

?

1 楼 huangsky 2012-06-18   博主是在2G的内存情况下完成这4000万的去重的吗? 2 楼 周凡杨 2012-06-19   huangsky 写道博主是在2G的内存情况下完成这4000万的去重的吗?
是啊 3 楼 datawarehouse 2012-06-19   给出方法啊啊啊 4 楼 周凡杨 2012-06-19   datawarehouse 写道给出方法啊啊啊
思路和过程写的还不够明显吗? 源代码我这也有啊 5 楼 datawarehouse 2012-06-19   哪里下载代码啊 6 楼 eyes_on_you 2012-06-22   能把数据传上来测试下不 7 楼 周凡杨 2012-06-24   eyes_on_you 写道能把数据传上来测试下不
数据文件很大啊,几百M ,你可以自己写个点代码生成嘛 8 楼 lengyimeng 2012-06-25   博主,你的第一步是把文件的数据读一遍,然后把数据的前三位放入一个list中,然后再遍历这个list,通过这个list中的数据,即文件数据的前三位又再去读一遍文件,然后再通过set去重,为什么要读两遍数据,而且你把前三位拿出来又通过前三位去读文件拿数据是为什么呢,我记得好像String的subString方法比较耗资源,你这里拿前三位是用哪个方法。还有,最后一个疑问,为什么不直接一次性把数据读入一个linkedList中,然后再遍历一次放入set中啊? 9 楼 周凡杨 2012-06-26   lengyimeng 写道博主,你的第一步是把文件的数据读一遍,然后把数据的前三位放入一个list中,然后再遍历这个list,通过这个list中的数据,即文件数据的前三位又再去读一遍文件,然后再通过set去重,为什么要读两遍数据,而且你把前三位拿出来又通过前三位去读文件拿数据是为什么呢,我记得好像String的subString方法比较耗资源,你这里拿前三位是用哪个方法。还有,最后一个疑问,为什么不直接一次性把数据读入一个linkedList中,然后再遍历一次放入set中啊?

数据量太大,一次性的把数据读入linkedList中,会内存溢出的!我第一次读取文件,取前三位,是要得到号段值。比如 135 136 是手机号码的号段。然后再读取文件就可以归类了,是根据已经得到的号段归类的,比如以135开头的数据为一类数据... 总体原理还是化大为小,实现数据过滤。

热点排行