作者powerup (東刀輪一流)
看板Database
標題[系統] 正規/反正規化的取捨
時間Fri Jun 8 19:22:37 2012
各位前輩好,有些關於資料庫規劃的問題想請問一下
小弟目前的專案有點像會員制的google reader 一樣,使用者可以自訂閱其想要的網站
原先資料庫的規劃是根據一般的正規化那樣:
網站統一管理在一個table,每筆網站資料都有一個ID
使用者的訂閱資訊用另一個table管理,訂閱的東西用text或BLOB儲存
就像這樣:
----------------- ----------------
| user | value | | id | name |
----------------- ----------------
| A | 1,5,7,8| | 1 | yahoo |
----------------- ----------------
| B | 2,4 | | 2 | engadge|
----------------- .
.
但是現在主管想要增進我們資料庫的效能,不管空間浪費(因為現在硬碟很便宜)
所以他要求用反正規化的方式,亦即每一個使用者都用一個資料表
彼此訂閱的網站互不干涉,資料重複沒差
這樣子資料存取會比較快,因為不用做where查詢,使用者越多越明顯(跟原先的結構比)
而且同步也方便(我們之後會有許多台伺服器,會有資料庫同步問題)
因為原先的結構是儲存id,如果同一個網站在不同伺服器有不同的id同步會很麻煩
但是這樣的話,資料庫裡會有一堆user table耶!
這樣會不會資料庫的執行或管理上面會有問題啊? 從來沒想過要這樣作,我完全沒概念
畢竟這作法和書本上及我在版上看的資料大不相同
所以想請問各位前輩這樣作,是否真的有其根據?
又,一般網路遊戲或其他有會員制的的專案是怎麼管理龐大的會員資料的啊
(約數十萬筆以上,而且會員數會一直增加)?
就算是分散式資料庫,也只是把不同table分散到不同伺服器而已啊
我朋友說mysql一個資料表要維持最高效能,所儲存的資料大約只有十萬筆
所以可以每十萬筆資料換一個資料表,也就是有user_table1, user_table2之類的
這樣在做查詢時,還要先作數學運算看這個使用者是在哪個資料表......
請各位前輩能不吝指點,或是給我一個連結或一本書,一個方向
因為之前都沒處理過這麼多資料的資料庫,不知從何著手
不限任何方式或資料庫種類,我甚至考慮過乾脆用檔案來存資料
反正主管都說一個使用者一個資料表了,那我一個使用者一個檔案也可以啊....
感謝您能看完小弟的冗長文章,謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.128.209.67
1F:→ alpe:靠, 我又用到回信. 幫我貼上來吧 06/08 21:01
2F:→ alpe:php版 [請益] 資料庫規劃問題 (MySQL) 也可以看一下 06/08 21:05
3F:推 danielguo:你需要的是sharding, 例如機器A放使用者1-10,B放11-20 06/09 00:18
4F:→ danielguo:一個使用者建一個表壞處遠大於好處 06/09 00:18
5F:→ danielguo:MySQL 最佳效能不是十萬筆, 是 index 可以放進記憶體 06/09 00:20
6F:→ danielguo:可以用內建的 partioning 達成, 不一定要手動建 1, 2, 3 06/09 00:21
7F:→ danielguo:sharding 同一個表分散到不同伺服器,查詢時查表看是哪臺 06/09 00:23
8F:→ danielguo:但要追求效能還有很多其他方式可以先做 06/09 00:24
9F:→ powerup:謝謝各位的指點,我要好好研究一下,這樣我才能說服主管 06/11 10:38
10F:→ powerup:希望他能打消五百萬個table的想法,不然我之後會很想死... 06/11 10:42
11F:→ powerup:請問dan大有哪些其他提高效能的方式可作呢? 06/11 10:45
12F:→ powerup:因為最近資料庫要重構來因應新spec,順便想想如何提高效能 06/11 10:48
13F:→ powerup:所以主管才會有反正規化的想法出現... 06/11 10:49
14F:推 petertc:partition只是分不同表吧,沒有分到不同台 06/13 23:01
15F:→ adrianshum:這叫反正規?亂來 06/17 00:55