分类: Hadoop

YARN Federation Router REST API

官方的YARN Federation Router ,将Router REST API 做成了统一汇总输出方式 ,即: Router REST服务使用了RM的规范,其URL路径相同。这样保证了客户端访问方式不变最大化向前兼容。其返回结果是所有SubCluster信息的聚合,即它会将所有SubCluster的信息合…

Read More

第二篇 YARN Federation Router 组件源码分析

Router 组件在Federation 模式下可以部署多个,通过部署多个Router可以分担单点压力。目前Router组件官方提供了多种策略,灵活保证资源请求的路由负载包括应用程序被调度到哪个集群,请求哪个子集群的资源。根据这个特性我们可以部署多个Router 配置不同的…

Read More

第一篇 Hadoop 3.0.0-beta1 中的 YARN Federation 概述

随着Hadoop 成为大数据处理的一个基础组件之后,各大公司都使用Hadoop做大数据平台的底层。但是随着集群规模的增长与业务量的激增会遇到很多瓶颈。其中最显著的缺点是在早期的(Hadoop  2.9 之前 )Hadoop版本中,ResourceManager这个组件会限制你集群的规…

Read More

自己动手写YARN Application

概述:    大数据处理是现在炙手可热的一个话题,目前流行的处理技术有很多,其中比较流行的要属Hadoop了。他自从诞生以来一直被社会各界人士关注,并被应用于不同行业的大数据处理中。     从Hadoop 2.0 有了YARN 之后,让我们实现多种应用使用同一套…

Read More

hadoop集群调优与参数配置

一、Linux 平台(文件系统)       (1) noatime 和 nodiratime 属性 (/etc/fstab 文件) 文件挂载时设置这两个属性可以明显提高性能。。默认情况下,Linux ext2/ext3 文件系统在文件被访问、创建、修改时会记录下文件的时间戳,比如:文件创建时间、最近一…

Read More

MapReduce BUG 作业卡住问题,Map未获得资源导致Reduce无法完成

问题描述 使用2.7.1版本的Hadoop跑一些作业时,会遇到Map和Reduce竞争资源导致整个作业卡死无法完成的情况。即使将Preempt Reduce 机制打开也无法解决。后来从官方获得了一个修复的Patch MAPREDUCE-6302 , 测试后已经解决。 错误时截图

Read More

FairScheduler 调度器性能问题

问题 对于大型集群来说,ResourceManager 和 NameNode 是整个集群的瓶颈。集群规模越大,RM和NM的压力也就越大。如果这两个组件出了问题,会直接影响到集群的处理能力和吞吐量。 最近在我们的处理集群上,经常发生如下问题: 1. 集群有很多剩余资源…

Read More

NameNode 本地用户验证时 IO ERROR

Lots of the following messages appeared in NN log:

  The real reason of failure is the second message about StandbyException, However, the first message is confusing because it talks about “DI…

Read More

CapacityScheduler 线程死锁 deadlock

之前遇到一个问题。使用CapacityScheduler调度器,在运行一个长作业时,如果有另一个线程或用户在不停获取与计算队列信息,那么ResourceManager 会因为内存不足导致OOM异常。原因是CapacityScheduler 的handle 函数死锁之后,后续的来自集群节点的event无…

Read More

Hadoop sls (Yarn Scheduler Load Simulator)使用

概述 hadoop sls (Yarn Scheduler Load Simulator) 是 apache 官方提供的调度器模拟工具。可以模拟App资源请求与资源分配过程,分析调度器的负载与性能。支持Fair , fifo , capacity 三种调度器。 Hadoop sls 利用单机的方式,模拟大规模集群和应用…

Read More
京ICP备13010354号-1