分类:Spark

Spark On YARN 资源管理与优化

最近笔者在用Spark进行离线处理时,观察到很多Spark On YARN 的APP 虽然请求了很多个exec…

Read More

Spark性能优化 整理汇总

一、参数篇 1、Spark SQL 参数 hive.exec.orc.split.strategy 默认值: …

Read More

Spark入门(六)——Spark简单程序开发实战(微博数据问题)

问题定义 本文介绍如何使用Spark 解决一个简单的问题,问题定义如下: 有一组微博数据,记录了每个用户和他好…

Read More

Spark入门(五)——Spark编程模型

1.Spark 编程模型 我们先看一段代码,这段代码会创建一个本地模式运行的Spark程序 ,使用4个线程创建…

Read More

Spark入门(四)——Standalone 集群搭建

  1.基础环境修改 a)多节点之间的免密登陆设置 参考:http://chenlb.iteye.c…

Read More

Spark入门(三)——源码阅读环境搭建、编译

Spark 编译安装前的准备工作 1. 构建Linux 虚拟机或物理测试节点(1~3台) 2. 安装JDK 1…

Read More

Spark入门(二)——Spark 运行架构

1.Spark 术语 1.1 运行模式 Spark 是一个非常灵活的计算引擎,他可以使用如下几种模式运行自己。…

Read More

Spark入门(一)——Spark概述与架构

概述 Spark 作为新一代的大数据处理引擎,使大数据处理和机器学习又向前迈向了一步。Spark 最初是由加州…

Read More

Spark 广播变量(Broadcast Variables)

广播变量(Broadcast Variables) 广播变量允许程序员将一个只读变量缓存在每台机器上,而不需要…

Read More

Spark 累加器变量(Accumulator)

累加器 累加器是只支持被相关操作累加的变量,因此可以在并行中被有效地支持。它可以被用来实现计数器和计算求和。S…

Read More