DataScience 板


LINE

※ 引述《peter308 (pete)》之銘言: : 在處理龐大的數據的時候 : 經常會透過分團(Clique, cluster analysis) 來將數據做分類 : 我最近有觀察到這種分團問題都會附帶一個關聯矩陣 : 這個矩陣的長相大致上如下: : https://i.imgur.com/IgE8Y75.jpg : 因為我之前修群論的時候 : 對於這樣的圖形常常接觸 : 像有一本量子力學的教科書的封面就是這類型的矩陣 : https://i.imgur.com/I9Aa6cU.jpg : 通常有這樣的圖形出現就表示系統有某種對稱性! : 不知道各位在數據科學領域(非我的專長) : 可有聽過有什麼樣的對稱性的狀況或是討論嗎?? : 感謝!! 想再聊聊這個話題 我覺得分群或是分團問題,本身就是一個大哉問。 通常這類問題 我們都會把哈密頓矩陣在一個比較直觀容易處理的基底ψs上做展開。 但因為這些ψs所形成的矩陣比較稀疏或是矩陣元素散布各處 我們通常會做一件事 那就是矩陣對角化或是區塊矩陣對角化 這件事情的幾何上意義,就是再做一個座標轉換 (similiarity transformation) 將原本的座標系統轉到一個新的座標系統上 讓矩陣元素可以變成集中在區塊的對角線上,而非區塊對角線上的元素越小越好。 這件事情其實在數據科學也常常看見 像是 PCA, k-means,.....等等 本質上 和 做block diagonization是非常類似的 然而這件事情,其實可以從一另一個完全不同方向來著手。 也就是從觀測系統的對稱性 S 上直接下手。 ================================================================ 比方說 化學的分子點群就是一個很棒的例子 如果用一個比較簡單的例子 水分子 H20 ( 分子點群為C2v) 那麼水分子的哈密頓矩陣就可以被區塊對角化 而區塊對角化後的矩陣所對應的座標系統我們給一個名稱叫做"不可化約的" 這個區塊對角化後的新的矩陣上的基底ψ' 會對應C2v的徵值表所能列出的所有不可化約表象, e.g. A1,A2,B1,B2 http://symmetry.jacobs-university.de/cgi-bin/group.cgi?group=402&option=4 ================================================================ 回到數據科學上 針對某個數據資料集 我們能否在還沒做分群前,就先知道數據資料集的對稱性Ω為何? 類似前面舉的那個水分子的分子對稱性'C2v'一樣 事實上,我個人覺得找數據資料集的整體對稱性Ω這件事情 已經有人再做了 如果對稱性Ω能事先知道 那麼理論上我們應該可以加速分群這件事 因為,在分群前我們其實已經事先知道答案了。 那就是最後的區塊對角化的矩陣 一定會在Ω的不可化約表像基底所形成的線性空間上 這些不可化約表象上的基底,會和這個資料集所具備的整體對稱性Ω有某些關係存在 如果能知道Ω為何?以及其對應的徵值表和不可化約表象。 那在對於資料及分群這件事情上 應該會事半功倍 進而設計出更有快有效率的新的分群演算法! 再找數據資料集的對稱性Ω上所花的時間,可能就能做完分群了。 (可能是這個原因 做數據科學的人比較少在談Ω) 儘管如此,我還是覺得分析數據資料集的整體對稱性的這個課題 在學術研究甚至是應用層面上都是非常有意義的! P.S. 似乎目前有看到一些人是用拓樸的方式來描述數據的結構或是對稱性 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.117.32.251 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/DataScience/M.1613621707.A.C0C.html ※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:23:57 ※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:24:11 ※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:27:27 ※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:29:03 ※ 編輯: peter308 (140.117.32.251 臺灣), 02/18/2021 12:30:20
1F:推 ddavid: 等等,在你說的理想之前,先要考慮一件事情:所謂的分群( 02/18 17:11
2F:推 ddavid: Clustering)跟分類(Classification)有關鍵性的差異 02/18 17:13
3F:→ ddavid: 在你這串開頭第一篇中講了「經常會透過分團(Clique, 02/18 17:14
4F:→ ddavid: cluster analysis) 來將數據做分類」,我認為這邊用詞要更 02/18 17:14
5F:→ ddavid: 明確小心些,因為你同時講了分群又講了分類 02/18 17:15
6F:→ ddavid: 然後講回到分群,基本上是非監督式學習為主,所以事實上分 02/18 17:15
7F:→ ddavid: 群是沒有唯一標準的,所以「必然」不會有所謂「分群就是在 02/18 17:17
8F:→ ddavid: 找xxx」中的唯一xxx存在 02/18 17:17
9F:推 wtchen: Spectral Biclustering? 02/18 17:22
對,是很接近的東西 不知道有沒辦法從checkbroad的圖形 去分析出資料可能的對稱性為何? 類似內文舉的水分子的C2v點群那樣
10F:推 ddavid: 一般初接觸Clustering,往往會看到「分群是讓同一群的點盡 02/18 17:22
11F:→ ddavid: 量相似,而不同群的點盡量不相似」之類的粗略入門介紹,但 02/18 17:23
12F:→ ddavid: 光是這句話就未必是絕對的 02/18 17:25
13F:推 ddavid: 所以原Po你所提到的方向,只能說可以建立出「一種分群方式 02/18 17:29
14F:→ ddavid: 」,而無法說「分群就是這個」 02/18 17:30
15F:推 ddavid: 像k-means跟DBSCAN找出的分群天差地遠,但不能說誰比較對 02/18 17:34
16F:→ ddavid: ,所謂的對稱性也沒有必然存在,分群是可以在有向圖的點上 02/18 17:35
17F:→ ddavid: 進行的 02/18 17:37
18F:推 ddavid: Clustering的主要目標本來也就不是要找出肯定的結論,反而 02/18 17:49
19F:→ ddavid: 是偏重在分割之後能幫助到後續分析就是有益的分群了 02/18 17:50
其實我的重點是再做分群前 如果能知道資料數據集的Ω 理論上,分群的速度會快非常多。 應該可以快10-100倍
20F:→ followwar: 你對資料取的features決定分群的好壞 02/22 22:17
21F:→ followwar: features反映什麼特性 就分出啥 02/22 22:18
※ 編輯: peter308 (140.117.32.17 臺灣), 02/24/2021 11:20:25 ※ 編輯: peter308 (140.117.32.17 臺灣), 02/24/2021 11:33:26 ※ 編輯: peter308 (140.117.32.17 臺灣), 02/24/2021 11:34:47 ※ 編輯: peter308 (42.74.233.91 臺灣), 02/24/2021 14:23:02 ※ 編輯: peter308 (42.74.233.91 臺灣), 02/24/2021 14:30:27 ※ 編輯: peter308 (42.74.233.91 臺灣), 02/24/2021 14:36:28 ※ 編輯: peter308 (42.74.233.91 臺灣), 02/24/2021 14:52:24 ※ 編輯: peter308 (140.117.32.17 臺灣), 02/24/2021 15:15:15
23F:→ wtchen: tml 02/25 01:06
24F:推 ddavid: 有些分群方法有自己的特點,並不是可以用同樣方法加速的 02/25 14:57
25F:推 ddavid: 你可能沒有考慮到有很多分群演算法根本跟對角化一丁點關係 02/25 15:00
26F:→ ddavid: 都沒有,甚至連同一群的instances要彼此相似這種限制都不 02/25 15:01
27F:→ ddavid: 存在 02/25 15:01
28F:→ ddavid: 所謂分群的好壞也沒有絕對性,是依據後續應用而定 02/25 15:05







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Tech_Job站內搜尋

TOP