我的一次Hadoop小文件Job优化预研报告 前言
? ? 公司有日志排序的需求,目前收集环节会产生大量小文件,目前我们没有使用flume和Hbase,本次优化只涉及HDFS和MapReduce。
? ? 关于小文件对Namenode影响,本文不涉及,我们现在使用HAR归档小文件。
? ? 本文的结论基于HDFS大量小文件的情况。
?
24mins, 32sec
30%
--本文来自heipark iteye博客