RDD and DAG
为什么要设计RDD
The first spark app: word count
这里介绍怎么编写一个spark app。
Execution of Spark at cluster
Spark处理并行问题的逻辑比较简单,将一个大的数据集拆分成若干小的数据集,将各个小的数据集,然后对这些小的数据集用相同的程序来处理,得到结果之后再重新聚集到一起。Spark是在MapReudce编程模型下,加入了“内存计算”和“DAG”拥有较高运算效率的。这篇文章,对Spark整个运行流程进行一个介绍。
install and use Spark
Spark是一种分布式处理技术,运行在CPU集群上。作为高性能计算的软件框架之一,Spark具有诸多优点,特别擅长于大数据处理。相较于Hadoop,Spark发明了(1)内存计算技术;(2)DAG。这两项技术提高了Map-Reduce编程模型的计算效率,适用于迭代运算。目前,spark已经成为了大数据处理的主流软件。
Hello World!
前言
独立写博客的想法已经出现在几个月前了,兜兜转转,到现在才写成功。Blog之前已经搭建起来了,但是如何写文章还不知道。这里,参考了简书-HEXO搭建个人博客(一):发布第一篇文章的教程。