7
Announcing Apache Spark 1.4 (databricks.com)
popcorny 積分 6

最大的進步是新增了R的支援。看起來最近資料分析大大崛起,不只個資料庫都開始要增加R的Support,而各個生態系也漸漸看到R的身影。 還有Spark也漸漸變成資料分析的第三生態系

  1. R。原本就是有Total Solution。統計, ML, dataframe, 原生的線性代數, 還有豐富的視覺化功能,IDE也有R Studio
  2. Python。統計線代有scipy/numpy, ML有Scikit-Learn, dataframe有pandas, 資料視覺化有matplotlib,還有ipython notebook的加持
  3. Spark。統計ML線性代數就是在MLLib,dataframe從1.3之後把原本的SparkSQL更一般化成DataFrame。現在只差好用的分析IDE。

前兩個適合Agile的分析應用。Spark負責online大數據的分析處理。