标签: Spark

Spark性能优化 整理汇总

一、参数篇 1、Spark SQL 参数 hive.exec.orc.split.strategy 默认值: HYBRID 参数说明:orc 文件切片策略。rdd action生成Task时会计算 调优建议:当我们执行SQL处理ORC格式的HIVE表时,会发现很简单的一个处理会花很长时间去生成task 。原因是用Sp…

Read More

Spark入门(六)——Spark简单程序开发实战(微博数据问题)

问题定义 本文介绍如何使用Spark 解决一个简单的问题,问题定义如下: 有一组微博数据,记录了每个用户和他好友之间信息。试编写一个程序从这些信息中找出: 1、从数据集中找到,关注别人的最多的10个用户,并计算关注最多的人与最少的人相差多少 …

Read More

Spark入门(五)——Spark编程模型

1.Spark 编程模型 我们先看一段代码,这段代码会创建一个本地模式运行的Spark程序 ,使用4个线程创建SparkContext对象,Application 的名字是“Test Spark”. 之后在Driver 端会打印出file中的每一行内容。

上面的代码中…

Read More

Spark入门(四)——Standalone 集群搭建

  1.基础环境修改 a)多节点之间的免密登陆设置 参考:http://chenlb.iteye.com/blog/211809 b)Spark 部署目录创建   2.Spark 配置文件修改 修改$SPARK_HOME/conf/spark-default.conf, 增加如下内容 [crayon-6391b733a9a0f608…

Read More

Spark入门(三)——源码阅读环境搭建、编译

Spark 编译安装前的准备工作 1. 构建Linux 虚拟机或物理测试节点(1~3台) 2. 安装JDK 1.7 3. 安装Scala 2.10 4. 安装maven 编译工具(仅需要在编译节点上安装,笔者这里使用的是自己的虚拟机) Spark 下载 下载地址:http://spark.apache.org…

Read More

Spark入门(二)——Spark 运行架构

1.Spark 术语 1.1 运行模式 Spark 是一个非常灵活的计算引擎,他可以使用如下几种模式运行自己。其超强的适配性使用我们可以根据自己的需要来运行和使用。大大降低的使用难度。减少了学习成本。 运行环境 模式 描述 Local 本地模式 用于…

Read More

Spark入门(一)——Spark概述与架构

概述 Spark 作为新一代的大数据处理引擎,使大数据处理和机器学习又向前迈向了一步。Spark 最初是由加州大学伯克利分校AMP实验室(UC Berkeley AMP lab) 所开发的研究性项目。在2013年6月进入Apache 成为孵化项目,8个月后成为Apache顶级项目。 Spark…

Read More

Spark 累加器变量(Accumulator)

累加器 累加器是只支持被相关操作累加的变量,因此可以在并行中被有效地支持。它可以被用来实现计数器和计算求和。Spark原生只支持数值类型的累加器,我们可以添加新类型的支持。当我们在创建累加器时指定了名字,那么我们在Spark ui 上就能看到这个变…

Read More
京ICP备13010354号-1