RDD的依賴關系:寬依賴、窄依賴、Lineage(血統關系)
寬依賴:指的是多個子RDD的Partition會依賴同一個父RDD的Partition,會引起shuffle(可以了解為超生)
窄依賴:指的是每一個父RDD的Partition最多被子RDD的一個Partition使用(可以了解為獨生子女)
Lineage:應用在整個過程中,RDD之間形成的産生關系,就叫做血統關系,RDD在沒有持久化的時候預設是不儲存的,如果需要那麼根據血統關系來重新計算。
RDD的Lineage會記錄RDD的中繼資料資訊和轉換行為,當該RDD的部分分區資料丢失時,它可以根據這些資訊來重新運算和恢複丢失的資料分區。
推薦:
Spark的RDD介紹
Spark的RDD操作:轉換(transformation)和行動(action)
Spark的DAG圖