functional programming

函数式编程就是一种抽象程度很高的编程范式,纯粹的函数式编程语言编写的函数没有变量,因此,任意一个函数,只要输入是确定的,输出就是确定的,这种纯函数我们称之为没有副作用。而允许使用变量的程序设计语言,由于函数内部的变量状态不确定,同样的输入,可能得到不同的输出,因此,这种函数是有副作用的。

Read More

Execution of Spark at cluster

Spark处理并行问题的逻辑比较简单,将一个大的数据集拆分成若干小的数据集,将各个小的数据集,然后对这些小的数据集用相同的程序来处理,得到结果之后再重新聚集到一起。Spark是在MapReudce编程模型下,加入了“内存计算”和“DAG”拥有较高运算效率的。这篇文章,对Spark整个运行流程进行一个介绍。

Read More

install and use Spark

Spark是一种分布式处理技术,运行在CPU集群上。作为高性能计算的软件框架之一,Spark具有诸多优点,特别擅长于大数据处理。相较于Hadoop,Spark发明了(1)内存计算技术;(2)DAG。这两项技术提高了Map-Reduce编程模型的计算效率,适用于迭代运算。目前,spark已经成为了大数据处理的主流软件。

Read More