popcorny 積分 0 編輯於

方法1: 直接在 DB query. 兩個大table內部就是用 sort merge join

方法2: 用 spark,開兩個 dataset,然後 join, 當然 spark 內部也是用類似 sort merge join。

方法2好處是直接可以輸出到文字檔,對 DB 的impact小。而且可以平行,除了stage 1因為拉資料可能只能有兩個task,stage 2可以 shuffle 到很多個partition 去做平行處理。

這是文章的子討論串,你可以回到上層查看所有討論和文章