Spark RDD

RDD ^[1]
開發かいはつ者しゃ	加州かしゅう大学だいがく柏かしわ克かつ莱分校こうAMPLab, Databricks
编程语言	Scala
操作そうさ系けい统	跨またが平台ひらだい
网站	spark.apache.org

Spark RDD（英語えいご：Resilient Distributed Dataset，弹性分布ぶんぷ式しき数すう据すえ集しゅう）是ぜ一いち种数かず据すえ存そん储集合しゅうごう。只ただ能のう由よし它支持しじ的てき数すう据すえ源げん或ある是ぜ由よし其他RDD经过一定いってい的てき转换（Transformation）来らい产生。在ざいRDD上じょう可か以执行ぎょう的てき操作そうさ有ゆう两种转换（Transformation）和行かずゆき动（Action），每まい个 RDD 都と记录了りょう自己じこ是ぜ如何いか由ゆかり持久じきゅう化か存そん储中的てき源みなもと数すう据すえ计算得とく出で的てき，即そく其血统（Lineage）。

转换

map(func)：返かえし回かい一个新的分布式数据集，由よし每ごと个原元素げんそ经过func函数かんすう处理后きさき的てき新しん元素げんそ组成

filter(func)：返かえし回かい一个新的数据集，由よし经过func函数かんすう处理后きさき返かえし回かい值为true的てき原げん元素げんそ组成

flatMap(func)：类似于map，但ただし是ぜ每ごと一いち个输入にゅう元素げんそ，会かい被ひ映うつ射い为0个或多た个输出で元素げんそ，因いん此，func函数かんすう的てき返かえし回かい值是一いち个seq，而不是ぜ单一元素げんそ

行くだり动

reduce(func)：通つう过函数すうfunc聚集数すう据すえ集中しゅうちゅう的てき所有しょゆう元素げんそ，这个函数かんすう必须是ぜ关联性せい的てき，确保可か以被正せい确的并发执行

collect()：在ざいdriver的てき程ほど序じょ中ちゅう，以数组的形式けいしき，返かえし回数かいすう据すえ集しゅう的てき所有しょゆう元素げんそ，这通常会じょうかい在ざい使用しようfilter或ある者もの其它操作そうさ后きさき，返かえし回かい一个足够小的数据子集再使用

依よ赖

宽依赖：父ちちRDD中ちゅう的てき分ぶん片へん可能かのう被ひ子こ RDD 中ちゅう的てき多た个分片へん所しょ依よ赖
窄依赖：父ちちRDD的てき每まい个分片へん至いたり多た被ひ子こ RDD 中ちゅう的てき一个分片所依赖

参考さんこう文献ぶんけん

^ [1]

[1] [1]

[1]