(Translated by https://www.hiragana.jp/)
Spark RDD - 维基百科,自由的百科全书 とべ转到内容ないよう

Spark RDD

本页使用了标题或全文手工转换
维基百科ひゃっか自由じゆうてき百科ひゃっかぜん
RDD [1]
開發かいはつしゃ加州かしゅう大学だいがくかしわかつ莱分こうAMPLab, Databricks
编程语言Scala
操作そうさけいまたが平台ひらだい
网站spark.apache.org

Spark RDD英語えいごResilient Distributed Dataset,弹性分布ぶんぷしきすうすえしゅういちかずすえそん集合しゅうごうただのうよし支持しじてきすうすえげんあるよし其他RDD经过一定いっていてき转换(Transformation)らい产生。ざいRDDじょう以执ぎょうてき操作そうさゆう两种转换(Transformation)和行かずゆき动(Action),まい个 RDD 记录りょう自己じこ如何いかゆかり持久じきゅうそん储中てきみなもとすうすえ计算とくてきそく其血统(Lineage)。

转换

[编辑]
  • map(func):かえしかい一个新的分布式数据集,よしごと个原元素げんそ经过func函数かんすう处理きさきてきしん元素げんそ组成
  • filter(func):かえしかい一个新的数据集,よし经过func函数かんすう处理きさきかえしかい值为trueてきげん元素げんそ组成
  • flatMap(func):类似于map,ただしごといち个输にゅう元素げんそかいうつ为0个或个输元素げんそいん此,func函数かんすうてきかえしかい值是いち个seq,而不单一元素げんそ

くだり

[编辑]
  • reduce(func):つう过函すうfunc聚集すうすえ集中しゅうちゅうてき所有しょゆう元素げんそ,这个函数かんすう必须关联せいてき,确保以被せい确的并发执行
  • collect():ざいdriverてきほどじょちゅう,以数组的形式けいしきかえし回数かいすうすえしゅうてき所有しょゆう元素げんそ,这通常会じょうかいざい使用しようfilterあるもの其它操作そうさきさきかえしかい一个足够小的数据子集再使用

[编辑]
  • 宽依赖:ちちRDDちゅうてきぶんへん可能かのう RDD ちゅうてき个分へんしょ
  • 窄依赖:ちちRDDてきまい个分へんいたり RDD ちゅうてき一个分片所依赖

参考さんこう文献ぶんけん

[编辑]
  1. ^ [1]