天天看點

Spark的RDD的依賴關系

RDD的依賴關系:寬依賴、窄依賴、Lineage(血統關系)

寬依賴:指的是多個子RDD的Partition會依賴同一個父RDD的Partition,會引起shuffle(可以了解為超生)

窄依賴:指的是每一個父RDD的Partition最多被子RDD的一個Partition使用(可以了解為獨生子女)

Spark的RDD的依賴關系

Lineage:應用在整個過程中,RDD之間形成的産生關系,就叫做血統關系,RDD在沒有持久化的時候預設是不儲存的,如果需要那麼根據血統關系來重新計算。

RDD的Lineage會記錄RDD的中繼資料資訊和轉換行為,當該RDD的部分分區資料丢失時,它可以根據這些資訊來重新運算和恢複丢失的資料分區。

Spark的RDD的依賴關系

推薦:

Spark的RDD介紹

Spark的RDD操作:轉換(transformation)和行動(action)

Spark的DAG圖

繼續閱讀