Spark RDD
编程语言 | Scala |
---|---|
网站 | spark |
Spark RDD(
转换
[编辑]- map(func):
返 回 一个新的分布式数据集,由 每 个原元素 经过func函数 处理后 的 新 元素 组成
- filter(func):
返 回 一个新的数据集,由 经过func函数 处理后 返 回 值为true的 原 元素 组成
- flatMap(func):类似于map,
但 是 每 一 个输入 元素 ,会 被 映 射 为0个或多 个输出 元素 ,因 此,func函数 的 返 回 值是一 个seq,而不是 单一元素
行 动
[编辑]- reduce(func):
通 过函数 func聚集数 据 集中 的 所有 元素 ,这个函数 必须是 关联性 的 ,确保可 以被正 确的并发执行
- collect():
在 driver的 程 序 中 ,以数组的形式 ,返 回数 据 集 的 所有 元素 ,这通常会 在 使用 filter或 者 其它操作 后 ,返 回 一个足够小的数据子集再使用
依 赖
[编辑]- 宽依赖:
父 RDD中 的 分 片 可能 被 子 RDD中 的 多 个分片 所 依 赖 - 窄依赖:
父 RDD的 每 个分片 至 多 被 子 RDD中 的 一个分片所依赖