資料科學與工程

資料科學與工程 /z/data

IngramChen 積分 0

哇嚓！！

好在現在 server 都在新加坡

回應 6 years ago

caterpillar 積分 0 編輯於 7 years ago

只能說自動模組是必要之惡吧！

這也說明了，在決定遷移至模組化之前，看看各程式庫官方是不是決定好（自動）模組名稱，可以免去後續的一些麻煩。

回應 7 years ago

kaif 積分 0 編輯於 7 years ago

他建議現階段一般都先改MANIFEST.MF就好，不用先加module-info.java。測了一下這樣改必須把intellij (2017.3 EAP), maven compiler plugin (3.7.0)等等都升到最新版才會work。

回應 7 years ago

kaif 積分 0

Do not release to Maven Central a modular jar file that depends on an automatic module, unless the automatic module has an "Automatic-Module-Name" MANIFEST.MF entry.

回應 7 years ago

ksc91u 積分 0

我覺得上班時候跑，等他跑完下班。這樣比較好，要觀察有沒有跑到一半斷掉很辛苦的

回應 7 years ago

chao 積分 0

匯出來用diff 會不會比較快?

回應 7 years ago

popcorny 積分 0 編輯於 7 years ago

方法1: 直接在 DB query. 兩個大table內部就是用 sort merge join

方法2: 用 spark，開兩個 dataset，然後 join, 當然 spark 內部也是用類似 sort merge join。

方法2好處是直接可以輸出到文字檔，對 DB 的impact小。而且可以平行，除了stage 1因為拉資料可能只能有兩個task，stage 2可以 shuffle 到很多個partition 去做平行處理。

回應 7 years ago

kaif 積分 0

幾億的資料不就下班下query明天來再收就好了嗎XD

回應 7 years ago

natsu 積分 0

原來是 Berkeley DB ...

不過光是把 資料全部都撈回來 local 就要花掉不少時間了吧？(假設資料筆數很多的話)

回應 7 years ago

ksc91u 積分 0

Link1

Link2

https://en.wikipedia.org/wiki/Berkeley_DB

https://en.wikipedia.org/wiki/Dbm

回應 7 years ago

natsu 積分 0

寫 procedure, 但是好像好麻煩

應該還是寫 procedure 效能會比較快吧...

Hibernate 在這方面好像就無能為力？

把資料全部都撈回來 local 跑, 用 DBD 之類的 key value db, key = 他要比對的欄位, value = 他要寫入的資料在檔案的位置(offset) 這樣應該就會快多了吧

請問 DBD 是什麼？

回應 7 years ago

chchwy 積分 0

牽涉到Database所以就不能單純看時間複雜度啦。DB query過程中可能會存取硬碟，而存取硬碟的時間遠大於存取記憶體的時間，O()預測法八成會失準(因為常數太大)。

我自己猜測直接用 DB Query 會比較快，因為DB本身的資料結構通常都已經針對硬碟存取優化過了。

真的要硬做的話，直覺的作法就是先排序然後用二分搜尋法，看你的資料量有多「大」，能不能全部塞進記憶體裡面做。

回應 7 years ago

IngramChen 積分 0

沒試過直接 join ?

回應 7 years ago

ksc91u 積分 0

覺得有趣是, 首先把時間複雜度從 n^2 降到 n log n 然後又有人跟我講說query db 很耗時間。所以想,

寫 procedure, 但是好像好麻煩
把資料全部都撈回來 local 跑, 用 DBD 之類的 key value db, key = 他要比對的欄位, value = 他要寫入的資料在檔案的位置(offset) 這樣應該就會快多了吧

回應 7 years ago

fox 積分 0

現在的密碼 hash 前不是都要加 salt ，這種不加 salt 的單純密碼 hash 應該越來越沒有用處了吧。

回應 7 years ago

alsuka 積分 2

真是不錯的分享。個人認為，舉辦比賽的公司巧思在於，透過釋放部份資料，把原本自己公司想研究的東西包裝成比賽，只要獎賞夠吸引人，應該會有不少資料分析人才會提供不錯的演算方法 https://inclass.kaggle.com/c/kkbox-data-game-17-06

延伸閱讀， Kaggle 平台還不錯 https://www.inside.com.tw/2017/03/09/kaggle-joins-google-cloud

回應 7 years ago

kaif 積分 2 編輯於 7 years ago

• 整篇就是解microservice架構帶來的各種雷

• 微服務通訊讓人類看得懂：從gRPC/protolbuf轉到json

• 避免microservice有"flapping"（時好時壞）的狀況：每個microservice做連線數限制限流、若有錯誤發生暫時隔離

• 各種監控

• Sizing

• 感覺這些內容要做過以後看才有fu

• 微服務太吃維運和持續的照料，傳統dev/ops分離，或是走瀑布流程出貨後就不管的組織運作，感覺不太適合

回應 7 years ago

kaif 積分 0

作者寫一半就中離到airbnb了qq

回應 7 years ago

kaif 積分 3

filesystem對critical mission不是那麼可靠
如果application的資料有點重要，與其自己刻，不如寫到sqllite
讀出來做checksum應該是確認檔案寫入健康最簡單的方法

回應 7 years ago

IngramChen 積分 0 編輯於 7 years ago

壓縮比高和解釋的容易理解

不過專門搞影像處理的人大概覺得沒什麼吧

回應 7 years ago

fox 積分 0

不太明白magic在那裡?

回應 7 years ago

IngramChen 積分 0

我想說怎麼會在 hacker news 這麼紅，一讀才知道，wow! it's magic!

回應 7 years ago

kaif 積分 2

他的算法好像傾向選長文阿

回應 8 years ago

koji 積分 0

me 2...等哪天會用到就會看懂了...XD

回應 8 years ago

Kros 積分 0

都看不懂怎麼辦QQ

回應 8 years ago

Kmark 語法說明

Kmark 是一個類似 Markdown 語法的格式，以下為提供的功能:

種類	語法	呈現
斜體	兩邊加單星	兩邊加單星
粗體	兩邊加雙星	兩邊加雙星
刪除線	~~兩邊加雙曲號~~	~~兩邊加雙曲號~~
引用	> 左邊加個大於符號	左邊加個大於符號
列表	* 可用星號 * 也可以 - 減號 * 數字加點也可以	可用星號也可以 - 減號數字加點也可以
固定寬字	`abcdefghijk` 兩邊用倒引號包住	`abcdefghijk`
編碼區塊	``` function abc() ``` 上下都用三個倒引號包住	`function abc()`
連結	[這是連結][1] [1]: http://example.com 連結第一部份是文字，先用中括號包住，後面再加上 [編號]。第二部份是連結本身，放在文末，開頭是 [編號]: http	這是連結1 1 http://example.com