标签: Hadoop

第一篇 Hadoop 3.0.0-beta1 中的 YARN Federation 概述

随着Hadoop 成为大数据处理的一个基础组件之后,各大公司都使用Hadoop做大数据平台的底层。但是随着集群规模的增长与业务量的激增会遇到很多瓶颈。其中最显著的缺点是在早期的(Hadoop  2.9 之前 )Hadoop版本中,ResourceManager这个组件会限制你集群的规…

Read More

Spark入门(六)——Spark简单程序开发实战(微博数据问题)

问题定义 本文介绍如何使用Spark 解决一个简单的问题,问题定义如下: 有一组微博数据,记录了每个用户和他好友之间信息。试编写一个程序从这些信息中找出: 1、从数据集中找到,关注别人的最多的10个用户,并计算关注最多的人与最少的人相差多少 …

Read More

自己动手写YARN Application

概述:    大数据处理是现在炙手可热的一个话题,目前流行的处理技术有很多,其中比较流行的要属Hadoop了。他自从诞生以来一直被社会各界人士关注,并被应用于不同行业的大数据处理中。     从Hadoop 2.0 有了YARN 之后,让我们实现多种应用使用同一套…

Read More

FairScheduler 调度器性能问题

问题 对于大型集群来说,ResourceManager 和 NameNode 是整个集群的瓶颈。集群规模越大,RM和NM的压力也就越大。如果这两个组件出了问题,会直接影响到集群的处理能力和吞吐量。 最近在我们的处理集群上,经常发生如下问题: 1. 集群有很多剩余资源…

Read More

CapacityScheduler 线程死锁 deadlock

之前遇到一个问题。使用CapacityScheduler调度器,在运行一个长作业时,如果有另一个线程或用户在不停获取与计算队列信息,那么ResourceManager 会因为内存不足导致OOM异常。原因是CapacityScheduler 的handle 函数死锁之后,后续的来自集群节点的event无…

Read More

Hadoop sls (Yarn Scheduler Load Simulator)使用

概述 hadoop sls (Yarn Scheduler Load Simulator) 是 apache 官方提供的调度器模拟工具。可以模拟App资源请求与资源分配过程,分析调度器的负载与性能。支持Fair , fifo , capacity 三种调度器。 Hadoop sls 利用单机的方式,模拟大规模集群和应用…

Read More
京ICP备13010354号-1