月度归档: 2016年11月

MapReduce BUG 作业卡住问题,Map未获得资源导致Reduce无法完成

问题描述 使用2.7.1版本的Hadoop跑一些作业时,会遇到Map和Reduce竞争资源导致整个作业卡死无法完成的情况。即使将Preempt Reduce 机制打开也无法解决。后来从官方获得了一个修复的Patch MAPREDUCE-6302 , 测试后已经解决。 错误时截图

Read More

Vultr vps 网络主机与阿里云网络主机对比

本人也建站几年了,一直是走免费模式。为了降低网站运营成本,本人也使用了几款产品,同时也有朋友推荐的几款,这里主要对比两款产品,一个国内的阿里云,另外一个是国外的Vultr , 这两个服务商都有各自的优点。对于前者来说提供了丰富的基础工具可以帮助…

Read More

FairScheduler 调度器性能问题

问题 对于大型集群来说,ResourceManager 和 NameNode 是整个集群的瓶颈。集群规模越大,RM和NM的压力也就越大。如果这两个组件出了问题,会直接影响到集群的处理能力和吞吐量。 最近在我们的处理集群上,经常发生如下问题: 1. 集群有很多剩余资源…

Read More

NameNode 本地用户验证时 IO ERROR

Lots of the following messages appeared in NN log:

  The real reason of failure is the second message about StandbyException, However, the first message is confusing because it talks about “DI…

Read More

CapacityScheduler 线程死锁 deadlock

之前遇到一个问题。使用CapacityScheduler调度器,在运行一个长作业时,如果有另一个线程或用户在不停获取与计算队列信息,那么ResourceManager 会因为内存不足导致OOM异常。原因是CapacityScheduler 的handle 函数死锁之后,后续的来自集群节点的event无…

Read More
京ICP备13010354号-1