月份:2016年12月

Spark入门(六)——Spark简单程序开发实战(微博数据问题)

问题定义 本文介绍如何使用Spark 解决一个简单的问题,问题定义如下: 有一组微博数据,记录了每个用户和他好…

Read More

Spark入门(五)——Spark编程模型

1.Spark 编程模型 我们先看一段代码,这段代码会创建一个本地模式运行的Spark程序 ,使用4个线程创建…

Read More

Spark入门(四)——Standalone 集群搭建

  1.基础环境修改 a)多节点之间的免密登陆设置 参考:http://chenlb.iteye.c…

Read More

Spark入门(三)——源码阅读环境搭建、编译

Spark 编译安装前的准备工作 1. 构建Linux 虚拟机或物理测试节点(1~3台) 2. 安装JDK 1…

Read More

Spark入门(二)——Spark 运行架构

1.Spark 术语 1.1 运行模式 Spark 是一个非常灵活的计算引擎,他可以使用如下几种模式运行自己。…

Read More

Spark入门(一)——Spark概述与架构

概述 Spark 作为新一代的大数据处理引擎,使大数据处理和机器学习又向前迈向了一步。Spark 最初是由加州…

Read More

Spark 广播变量(Broadcast Variables)

广播变量(Broadcast Variables) 广播变量允许程序员将一个只读变量缓存在每台机器上,而不需要…

Read More

Spark 累加器变量(Accumulator)

累加器 累加器是只支持被相关操作累加的变量,因此可以在并行中被有效地支持。它可以被用来实现计数器和计算求和。S…

Read More

自己动手写YARN Application

概述:    大数据处理是现在炙手可热的一个话题,目前流行的处理技术有很多,其中比较流行的要属Hadoop了。…

Read More

Alluxio 1.3.0 On YARN 模式时无法修改ALLUXIO_RAM_FOLDER 问题

最近在测试Alluxio ON YARN 模式时,发现无论在配置文件中怎么修改ALLUXIO_RAM_FOLD…

Read More