标签:Spark

Spark性能优化 整理汇总

一、参数篇 1、Spark SQL 参数 hive.exec.orc.split.strategy 默认值: …

Read More

Spark入门(六)——Spark简单程序开发实战(微博数据问题)

问题定义 本文介绍如何使用Spark 解决一个简单的问题,问题定义如下: 有一组微博数据,记录了每个用户和他好…

Read More

Spark入门(五)——Spark编程模型

1.Spark 编程模型 我们先看一段代码,这段代码会创建一个本地模式运行的Spark程序 ,使用4个线程创建…

Read More

Spark入门(四)——Standalone 集群搭建

  1.基础环境修改 a)多节点之间的免密登陆设置 参考:http://chenlb.iteye.c…

Read More

Spark入门(三)——源码阅读环境搭建、编译

Spark 编译安装前的准备工作 1. 构建Linux 虚拟机或物理测试节点(1~3台) 2. 安装JDK 1…

Read More

Spark入门(二)——Spark 运行架构

1.Spark 术语 1.1 运行模式 Spark 是一个非常灵活的计算引擎,他可以使用如下几种模式运行自己。…

Read More

Spark入门(一)——Spark概述与架构

概述 Spark 作为新一代的大数据处理引擎,使大数据处理和机器学习又向前迈向了一步。Spark 最初是由加州…

Read More

Spark 累加器变量(Accumulator)

累加器 累加器是只支持被相关操作累加的变量,因此可以在并行中被有效地支持。它可以被用来实现计数器和计算求和。S…

Read More