spark 还有哪些核心概念需要重点掌握的?
Resilient Distributed Datasets (RDDs):RDD 是 spark 的基础,是一种可以在分布式集群上并行操作的分布式数据集合。
Spark Core API:Spark Core API 是 spark 的核心,提供了一套高层的分布式操作的函数库,包括数据的加载、转换、缓存、计算和输出等。
Spark SQL:Spark SQL 是 Spark 的一个模块,提供了对数据查询和分析的功能,并提供了丰富的数据读取能力。
Spark Streaming:Spark Streaming 是 spark 的流式计算模块,提供了高效、实时的流式数据处理能力。
Spark MLlib:Spark MLlib 是 Spark 的机器学习库,提供了高效、分布式的机器学习算法,包括分类、回归、聚类、降维、特征选择等。
Cluster Manager:Cluster Manager 是 spark 的资源管理器,负责管理 spark 作业在集群上的资源分配和调度。
Spark UI:Spark UI 是 spark 的可视化界面,提供了作业的实时监控和可视化分析,帮助用户诊断问题。
以上是 spark 的核心概念,理解这些概念是 spark 的入门和学习的基