-
PySpark教程--5、PySpark流数据处理
Spark Streaming概述Hadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐、实时网站性能分析等,流式计算可以解决这些问题。目前有三种比较常用的流式计算框架,它们分别是Twitter Storm,Spark Streamin...
08月17日[PySpark]浏览:90
-
PySpark教程--4、PySpark机器学习
MLlibApache Spark提供了一个名为 MLlib 的机器学习库,包含基于RDD的原始算法的API。此外,MLlib是目前唯一支持流媒体训练模型的库。从Spark2.0开始,ML是主要的机器学习库,它对DataFrame进行操作。 MLlib概括了其公开三个核心机器学习功能: 数据...
08月17日[PySpark]浏览:87
-
PySpark教程--3、PySpark基础知识
Spark 初始化spark 交互式执行环境 spark-shell --master <master-url> # scala pyspark --master <master-url> # python 下面介绍几种常用Spark应用程序提交方式 loca...
08月17日[PySpark]浏览:74
-
PySpark教程--2、Spark基本概念
文章目录 Spark 基本概念 Hadoop 生态Spark 生态Spark 基本架构Spark运行基本流程弹性分布式数据集(RDD [Spark安装配置](https://blog.csdn.net/qq_41518277/article/details/...
08月17日[PySpark]浏览:94
-
PySpark教程--1、Spark安装配置
文章目录 准备工作Spark下载和安装配置spark环境变量Spark配置文件启动Spark集群启动Shell界面Spark集群配置免密钥登陆 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还...
08月17日[PySpark]浏览:93