Spark-浅析API 与工具集P1

Spark 概述、浅析、工具集与结构化API。

Spark 指南

多语言支持中通过 spark 会话提交任务给执行器，具体如下图所示：

结构化API指以下三种核心分布式集合类型的API： - Dataset类型。 - DataFrame类型。 - SQL表和视图。

结构化API是在编写大部分数据处理程序时会用到的基础抽象概念。

通过控制台提交给Spark，或者以一个Spark作业的形式提交。然后代码将交由Catalyst优化器决定如何执行，并指定一个执行计划。最后代码被运行，得到的结果返回给用户。图4-1展示了整个过程。

Spark使用catalog（所有表和DataFrame信息的存储库）在分析器中解析列和表格。如果目录中不存在所需的表或列名称，分析器可能会拒绝该未解析的逻辑计划。

在成功创建优化的逻辑计划后， Spark开始执行物理计划流程。物理规划产生一系列的RDD和转换操作。这就是Spark被称为编译器的原因，因为它将对DataFrame、Dataset和SQL中的查询来作为你编译一系列RDD的转换操作。

在选择一个物理计划时， Spark将所有代码运行在Spark的底层编程接口RDD上（第Ⅲ 部分将会介绍）。 Spark在运行时执行进一步优化，生成可以在执行期间优化任务或阶段的本地Java字节码，最终将结果返回给用户。