首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > C++ >

关于海量有关问题处理的若干有关问题 第一季

2012-10-05 
关于海量问题处理的若干问题 第一季海量问题:经常看到海量数据使用hash统计,或者hash_map统计频数。qb0:如

关于海量问题处理的若干问题 第一季
海量问题:

经常看到海量数据使用hash统计,或者hash_map统计频数。
qb0:如何实现一个hash_map类,简化点说如何实现Hash_map的要点//常见与海量数据的频率统计。


qb1:大数据的处理中,经常有 分而治之的思想。
比如40g的数据放在1g的内存系统下处理,一般方法有hash到1000个文件,每个文件40m,
我的疑问就是:这里的方法很理想,感觉hash能够很平均的分配到每个文件,实际过程中会这样嘛?
如果不能找到这样的hash,那该怎么办?


qb2:大数据的处理中,也说道mapreduce,一个浅显的例子就是:10亿*10亿的2个等大的矩阵A,B相乘。
mapreduce能够做到,将A矩阵分成10行,将B矩阵分成10列,分发到100台机器上,获得10倍的计算加速。
一般情形的总结,是不是:
将A矩阵分成n行,将B矩阵分成n列,分发到 n*n 台机器上,获得n倍的计算加速。

上面是我理解的mapreduce,大家看对不对?


[解决办法]
没有某种统一的方法。
大数据处理的核心在于并发,而如何并发则和你的数据处理过程密切相关。
换句话说,它和业务逻辑密切相关。

热点排行