作者: @yiran

Java Ojbect 转换成XML String

JavaObject 转换成XML String方法

 

Read More

YARN Federation Router REST API

官方的YARN Federation Router ,将Router REST API 做成了统一汇总输出方式 ,即: Router REST服务使用了RM的规范,其URL路径相同。这样保证了客户端访问方式不变最大化向前兼容。其返回结果是所有SubCluster信息的聚合,即它会将所有SubCluster的信息合…

Read More

第二篇 YARN Federation Router 组件源码分析

Router 组件在Federation 模式下可以部署多个,通过部署多个Router可以分担单点压力。目前Router组件官方提供了多种策略,灵活保证资源请求的路由负载包括应用程序被调度到哪个集群,请求哪个子集群的资源。根据这个特性我们可以部署多个Router 配置不同的…

Read More

利用Python获取网站的注册信息

有时需要判断一个网站是以企业名义注册的还是以个人名义的注册的,一般可以在备案网站上获取这个网站的信息,不过对于一个会写程序的人来说,当然还是希望能够以代码的方式获取相应网站的注册信息。

Read More

Spark On YARN 资源管理与优化

最近笔者在用Spark进行离线处理时,观察到很多Spark On YARN 的APP 虽然请求了很多个executor 但是实际上每个executor的利用率不高。最后导致整个集群的CPU利用率一直处于低点。而由于这些APP占用了资源,导致YARN无法运行其他APP,造成排队现象。

Read More

Spark性能优化 整理汇总

一、参数篇 1、Spark SQL 参数 hive.exec.orc.split.strategy 默认值: HYBRID 参数说明:orc 文件切片策略。rdd action生成Task时会计算 调优建议:当我们执行SQL处理ORC格式的HIVE表时,会发现很简单的一个处理会花很长时间去生成task 。原因是用Sp…

Read More

第一篇 Hadoop 3.0.0-beta1 中的 YARN Federation 概述

随着Hadoop 成为大数据处理的一个基础组件之后,各大公司都使用Hadoop做大数据平台的底层。但是随着集群规模的增长与业务量的激增会遇到很多瓶颈。其中最显著的缺点是在早期的(Hadoop  2.9 之前 )Hadoop版本中,ResourceManager这个组件会限制你集群的规…

Read More

Docker 镜像压缩心得

Docker镜像越大存储管理成本越大,大量的Docker Images 会浪费很多磁盘存储另外传输也不方便。

Read More

TensorFlow On Spark 开源项目分析

概述 自Google发布TensorFlow并宣布开源,促使更多的开发者与学术研究者开始关注深度学习。各大公司也加入到深度学习的应用和开发中。TensorFlow 是谷歌基于DistBelief进行研发的第二代人工学习系统,最初由Google大脑小组开发出来,用于机器学习和深度神…

Read More

Tensorflow 中文翻译项目

2015年11月9日,Google发布人工智能系统TensorFlow并宣布开源,同日,极客学院组织在线TensorFlow中文文档翻译。

Read More
京ICP备13010354号-1