IngramChen 積分 0

這是五月的消息,要最新版 15

貼這個是因為 GCP 今天也支援 pgvector 了

IngramChen 積分 0

以為不用碰 DB

到最後還是自己弄 repository,這種老人一開始就做的事

IngramChen 積分 1 編輯於

三種都有用…

offset based 大概就是數量很確定的 table 才能使用。例如終端用戶產生的內容幾乎都不行,因為隨著時間 table 會長大到不可預知。反之則可以。

cursor based 這名字取的不好,hacker news 建議用 token based pagination

token based 就是麻煩在多一個 codec ,實務上我盡量避開,像是 kaif 這個小站1 只用了 keyset based pagination

然後 keyset based 這個分類其實算 token based 的子類。你在設計 rest api 時,就算你的實作是 keyset ,你給別人的 api 也要用 start=end= 等變數名稱,而不是 since_idsince_updated_at 這種會 leak abstraction 的名字 (你難保哪一天你不會修改排序)

j0n 積分 1

我最近做的服務剛好有遇到 emoji 塞不進 DB 的問題 XD

qrtt1 積分 2 編輯於

2016 年的文,在當時勸世聽起來合理啊。

現在如果要存文字,起手就是 utf8mb4 了。

j0n 積分 1

不是想用,是只能用.. 敝社的 infra 只有 MySQL 可以選

IngramChen 積分 2

其實這個是進入 emoji 時代後大家才發覺的事

手機大量引入 emoji 後,資料庫 log 就開始看到一堆詭異的錯誤

從一開始不要用 MySQL 就沒事了

oktak 積分 2

這個每個人都值得進一次的坑🚭

wybeen 積分 2

原來是看受歡迎程度, 這樣的話 DB2 居然還在前十蠻令人吃驚的

The DB-Engines Ranking is a list of database management systems ranked by their current popularity.

kaif 積分 0

是說一般 LSM tree 會用 bloom filter 避免 key not exist 時需要 sequential search。他這邊沒有說他是怎麼做的。或許他的 usage pattern 不會有這種狀況,還是反正就慢慢來?

kaif 積分 0

TL;DR: 做一個可以存 PB 數量級 log 的 DB,基於 LSM tree,只是把 DynamoDB 當 ram, S3 當 disk。

標題蠻 misleading 的,一般應該不會把 log 叫做 metadata 吧?

kaif 積分 1 編輯於

討論除了 RDBMS 以外的各種 buzzword 的資料儲存系統,和怎麼用這些系統兜出 scalable/reliable 的應用。

例如用RDBMS 去搭配 noSOL, object storage, message queue... 去做 large scale web application, stream/batch data processing...等等。

IngramChen 積分 0

這新的版是要討論 NAS 和硬碟嗎… ?