关于海量有关问题处理的若干有关问题第一季

2012-10-05

关于海量问题处理的若干问题第一季海量问题：经常看到海量数据使用hash统计，或者hash_map统计频数。qb0:如

关于海量问题处理的若干问题第一季
海量问题：

经常看到海量数据使用hash统计，或者hash_map统计频数。
qb0:如何实现一个hash_map类，简化点说如何实现Hash_map的要点//常见与海量数据的频率统计。

qb1:大数据的处理中，经常有分而治之的思想。
比如40g的数据放在1g的内存系统下处理，一般方法有hash到1000个文件，每个文件40m,
我的疑问就是：这里的方法很理想,感觉hash能够很平均的分配到每个文件，实际过程中会这样嘛？
如果不能找到这样的hash，那该怎么办？

qb2:大数据的处理中，也说道mapreduce,一个浅显的例子就是：10亿*10亿的2个等大的矩阵A,B相乘。
mapreduce能够做到，将A矩阵分成10行，将B矩阵分成10列，分发到100台机器上，获得10倍的计算加速。
一般情形的总结，是不是：
将A矩阵分成n行，将B矩阵分成n列，分发到 n*n 台机器上，获得n倍的计算加速。

上面是我理解的mapreduce,大家看对不对？

[解决办法]
没有某种统一的方法。
大数据处理的核心在于并发，而如何并发则和你的数据处理过程密切相关。
换句话说，它和业务逻辑密切相关。

热点排行

C++

关于海量有关问题处理的若干有关问题 第一季

关于海量有关问题处理的若干有关问题第一季