重要参数
name | 说明 |
mapred.task.profile | 是否对任务进行profiling,调用java内置的profile功能,打出相关性能信息 |
mapred.task.profile.{maps|reduces} | 对几个map或reduce进行profiling。非常影响速度,建议在小数据量上尝试 |
mapred.job.reuse.jvm.num.tasks | 1表示不reuse,-1表示无限reuse,其他数值表示每个jvm reuse次数。reuse的时候,map结束时不会释放内存! |
mapred.{map|reduce}.tasks.speculative.execution | 会对运行慢的任务起一个备份任务,看哪个先完成,kill掉后完成的备份 |
io.sort.spill.percent | 开始spill的内存比例阈值,对map和reduce都生效 |
mapred.job.shuffle.input.buffer.percent | reduce在copy时使用的堆空间的比例 |
mapred.tasktracker.{map|reduce}.tasks.maximum | 一个Tasktracker上可同时运行的最大map、reduce任务数 |
mapred.reduce.copy.backoff | reduce获取一份map输出数据的最大时间,单位秒。 |
io.compression.codecs | 压缩算法 |
dfs.block.size | hdfs上的文件block大小 |
mapred.reduce.slowstart.completed.maps | 控制reduce的启动时机。表示全部map的百分之多少完成后,才启动reduce。如果机器内存紧张,可以适当设大改参数,等大部分map结束并释放内存后才启动reduce;如果希望尽快开始shuffle,则可配合大量map数,将该值设小,以尽早启动reduce,开始copy。 |
io.sort.mb | map使用的缓存,影响spill的次数。 |
mapred.child.java.opts | 同时设置map和reduce的jvm参数 |
mapred.map.child.java.opts | 分开设置map的jvm参数,包括GC策略 |
mapred.reduce.child.java.opts | 分开设置reduce的jvm参数 |
map.sort.class | 对map的输出key的排序方法 |
mapred.output.compression.type | 压缩类型 |
mapred.min.split.size | 每个map的最小输入大小,该值越大,map数越少 |
mapred.max.split.size | 每个map的最大输入大小,该值约小,map数越多 |
mapred.reduce.parallel.copies | reduce从map结果copy数据时,每个reduce起的并行copy线程数。该值越大,io压力越大,但可能引起网络堵塞,copy效率反而降低。 |
io.sort.factor | merge时的并行merge数,同时影响map的spill文件merge和reduce中的merge |
mapred.compress.map.output | 指定map的输出是否压缩。有助于减小数据量,减小io压力,但压缩和解压有cpu成本,需要慎重选择压缩算法。 |
mapred.map.output.compression.codec | map输出的压缩算法 |
mapred.output.compress | reduce输出是否压缩 |
mapred.output.compression.codec | 控制mapred的输出的压缩的方式 |
io.sort.record.percent | map中间数据的index和data在io.sort.mb中占内存的比例,默认0.05%,需要根据具体数据的特点调整:index的大小固定为16byte,需要根据data的大小调整这个比例,以使io.sort.mb的内存得到充分利用)。 |
参考:
相关推荐
hadoop 参数调优参考,根据经验以及源码调整参数使得Hadoop效率提升
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据...
hadoop调优指南
hadoop 配置项的调优,列出大部分HADOOP系统参数的定义及与系统性能之间的关系。
2014年大数据处理HADOOP与性能调优
基于Hadoop的电商大数据平台性能调优.pdf
Hadoop大数据开发与性能调优实战培训课程-Hadoop组件详解
第7章 Hadoop性能调优和运维 应用篇:商业智能系统项目实战 第8章 在线图书销售商业智能系统 第9章 系统结构设计 第10章 在开发之前 第11章 实现数据导入导出模块 第12章 实现数据分析工具模块 第13章 实现业务数据...
Cloudera Hadoop 5&Hadoop高阶管理及调优课程,完整版,提供课件代码资料下载。 内容简介 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1、Hadoop2.0高阶运维,包括Hadoop...5、Hadoop各组件性能调优
Hadoop大数据开发与性能调优实战培训课程.pptx
Hadoop大数据开发与性能调优实战培训课程(PPT-59张).ppt
Hadoop+框架的扩展和性能调优
基于Hadoop的电商大数据平台性能调优
1.3 开启回收站配置 6 2.1 测试 HDFS 写性能 9 2.2 测试 HDFS 读性能 11 3.3 集群数据均衡之磁盘间数据均衡13 4.1 添加白名
各种大数据资源调优,希望有帮助。
CDH性能调优,CDH热点问题分析,安装注意事件
该文件为hadoop集群平台常见故障进行总结及处理问题相关的技巧,还有一些操作系统性能方面的调优策略。
一种基于Hadoop的云计算平台搭建与性能调优方法,周磊,李昕,随着互联网技术的飞速发展和应用的推广,云计算正作为当前计算机技术的热点被越来越多的企业和科研机构研究和使用。Hadoop作为一个
共59页,主要内容: 1、理解HDFS原理 2、掌握mapreduce原理和开发 3、应用举例讲解