Announcing Apache Spark 1.4
(databricks.com)
popcorny
積分 6
最大的進步是新增了R的支援。看起來最近資料分析大大崛起,不只個資料庫都開始要增加R的Support,而各個生態系也漸漸看到R的身影。 還有Spark也漸漸變成資料分析的第三生態系
- R。原本就是有Total Solution。統計, ML, dataframe, 原生的線性代數, 還有豐富的視覺化功能,IDE也有R Studio
- Python。統計線代有scipy/numpy, ML有Scikit-Learn, dataframe有pandas, 資料視覺化有matplotlib,還有ipython notebook的加持
- Spark。統計ML線性代數就是在MLLib,dataframe從1.3之後把原本的SparkSQL更一般化成DataFrame。現在只差好用的分析IDE。
前兩個適合Agile的分析應用。Spark負責online大數據的分析處理。