菜鸟前来请教一个 排序 问题~~求指导
前两天看到有个人问如何对4000 0000(即40M行)的文本文件进行排序并且去重。
想了想,感觉没有什么好方法,故此来请教下各位大侠。
(简要说说算法和时间复杂度和内存占用就可以了,不用详细分析。给个参考链接更佳)。
[解决办法]
先分段,再每段分别排序去重,再归并。
4千万行算什么啊。 O(N)一分就变成子问题了。
排序可以做到N*logN
分段N=∑n
(∑n)*log(∑n) >> max(n*logn)
大规模数据缩小成多个小规模数据同时计算,这就是云计算,网格计算速度快的原因
不知道这个数学原理,都是伪云