| 10 | 1/1 | 返回列表 |
| 查看: 2265 | 回復(fù): 9 | ||
[求助]
kmeans聚類(lèi)的問(wèn)題請(qǐng)教! 已有2人參與
|
| 每類(lèi)訓(xùn)練樣本約200多不等,如果只選用其中的兩類(lèi)進(jìn)行kmeans自動(dòng)聚類(lèi),準(zhǔn)確率會(huì)相對(duì)的高。但是如果把所有的18類(lèi)樣本進(jìn)行自動(dòng)聚類(lèi)。正確率不到3%。 難道樣本類(lèi)型越多,每類(lèi)所需要的樣本個(gè)數(shù)越多碼? |
至尊木蟲(chóng) (著名寫(xiě)手)
weibo.com/138147022

金蟲(chóng) (初入文壇)
鐵桿木蟲(chóng) (正式寫(xiě)手)
|
首先,k-means(KM)確實(shí)有準(zhǔn)確率的說(shuō)法,這是一種外部指標(biāo)。所謂的無(wú)監(jiān)督不過(guò)是指在聚類(lèi)過(guò)程中沒(méi)用使用到標(biāo)簽之類(lèi)的信息而已。 然后是樓主的問(wèn)題。我沒(méi)有看過(guò)你使用的是什么樣子的數(shù)據(jù)集。但是把所有的18類(lèi)樣本進(jìn)行自動(dòng)聚類(lèi)正確率下降并不奇怪。你說(shuō)的自動(dòng)聚類(lèi)是指不指定聚類(lèi)數(shù)嗎?要算法自己找到合適的聚類(lèi)數(shù)并不容易。即便指定聚類(lèi)數(shù),類(lèi)別多了正確率也容易下降。 KM只適用于每類(lèi)樣本在空間中分布呈超球體且超球中心間的距離明顯大于超球半徑的情況。當(dāng)這些條件不滿(mǎn)足的時(shí)候,很容易出現(xiàn)錯(cuò)分。樓主僅僅選擇兩類(lèi)樣本,這些樣本在空間中的分布比較容易滿(mǎn)足KM的要求,故準(zhǔn)確率較高。18類(lèi)樣本放在一起,相互影響之下準(zhǔn)確率自然就低了。 Liu Y, Li Z, Xiong H, et al. Understanding of internal clustering validation measures[C]//Data Mining (ICDM), 2010 IEEE 10th International Conference on. IEEE, 2010: 911-916. 還有一篇類(lèi)似的論文在IEEE trans. 上,樓主不妨看看,也許對(duì)你了解這個(gè)問(wèn)題有幫助。 |
金蟲(chóng) (初入文壇)

鐵桿木蟲(chóng) (正式寫(xiě)手)
|
首先是歸一化的問(wèn)題。歸一化是因?yàn)楦鱾(gè)屬性的取值區(qū)間大小不一致,而km算法是基于距離的聚類(lèi)方法。因此,在不為屬性添加權(quán)值的情況下,如果有個(gè)別屬性的區(qū)間跨度明顯大于其它屬性,那么這些屬性將成為距離的主要因素,導(dǎo)致其它屬性被忽略。歸一化使所有屬性能公平地比較,所以聚類(lèi)前進(jìn)行歸一化是有理由的。歸一化有可能能使得聚類(lèi)算法得到更好的效果,但不是絕對(duì)的。結(jié)合km的適用情況,如果在歸一化前樣本的分布呈超球體,歸一化后可能就會(huì)變成一個(gè)橢球體,聚類(lèi)效果就可能變差。反過(guò)來(lái),歸一化前呈橢球體分布,歸一化后有可能變成超球體,聚類(lèi)效果就可能變好。因此,不能一概而論。 主成分分析的問(wèn)題。這是一種降維方法,被提取的主成分是樣本分布差異大的方向。主成分分析法不是必須的,一般會(huì)在需要降維的時(shí)候使用。雖然主成分分析法的降維效果相當(dāng)出色,但也有很明顯的不足。通過(guò)主成分分析獲取的新屬性會(huì)失去原有的現(xiàn)實(shí)意義,也就是說(shuō),屬性的可解釋性會(huì)降低。如果在你的應(yīng)用中屬性的可解釋性是重要的,為屬性添加權(quán)值,即子空間聚類(lèi),是一個(gè)可以考慮的選擇。無(wú)論選擇哪一種方法,都能一定程度上去除冗余、不相關(guān)屬性對(duì)聚類(lèi)的影響,有可能提高聚類(lèi)效果。但是,這是從排除干擾的角度上得到的結(jié)論,雖然這兩種方法都有提高聚類(lèi)效果的研究成果,并沒(méi)有嚴(yán)格證明這種提升是絕對(duì)的,至少我沒(méi)有看到這樣的推導(dǎo)。 只要數(shù)據(jù)集是通過(guò)數(shù)據(jù)矩陣的方式給出,即給出各樣本在各個(gè)屬性上的值,就可以使用km算法。然而,要取得好的聚類(lèi)效果,最理想的狀態(tài)是各類(lèi)樣本分布呈超球體,且兩個(gè)超球體相互遠(yuǎn)離(球心距離大于兩個(gè)超球體中半徑較大一個(gè)的半徑的兩倍)。這是因?yàn),km算法對(duì)樣本進(jìn)行劃分時(shí)實(shí)際上是對(duì)樣本空間進(jìn)行分割,分割面通過(guò)聚類(lèi)中心連心線(xiàn)中點(diǎn)且與連心線(xiàn)垂直。顯然,對(duì)于兩個(gè)聚類(lèi)中心間的樣本空間而言,這種分割是均勻的。在上述的分布下,各類(lèi)樣本不會(huì)跨越分割面導(dǎo)致誤分。當(dāng)然,這不是不導(dǎo)致誤分的必要條件。只要各類(lèi)樣本相隔足夠遠(yuǎn),分布不是超球體也是可以的。 |
| 10 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研]
|
y7czhao 2026-03-26 | 10/500 |
|
|---|---|---|---|---|
|
[考研] 本科新能源科學(xué)與工程,一志愿華理能動(dòng)285求調(diào)劑 +3 | AZMK 2026-03-28 | 5/250 |
|
|
[考研]
|
nnnnnnn5 2026-03-25 | 6/300 |
|
|
[考研] 266分,求材料冶金能源化工等調(diào)劑 +7 | 哇呼哼呼哼 2026-03-27 | 9/450 |
|
|
[考研] 283求調(diào)劑 +7 | A child 2026-03-28 | 7/350 |
|
|
[考研] 292求調(diào)劑 +14 | 鵝鵝鵝額額額額?/a> 2026-03-25 | 15/750 |
|
|
[考研] 一志愿上海理工能源動(dòng)力(085800)310分求調(diào)劑 +3 | zhangmingc 2026-03-27 | 4/200 |
|
|
[考研] 08開(kāi)頭275求調(diào)劑 +4 | 拉誰(shuí)不重要 2026-03-26 | 4/200 |
|
|
[考研] 一志愿211,335分,0856,求調(diào)劑院校和導(dǎo)師 +4 | 傾____蕭 2026-03-27 | 5/250 |
|
|
[考研] 286求調(diào)劑 +4 | lim0922 2026-03-26 | 4/200 |
|
|
[碩博家園] 北京林業(yè)大學(xué)碩導(dǎo)招生廣告 +6 | kongweilin 2026-03-26 | 8/400 |
|
|
[考研] 284求調(diào)劑 +11 | junqihahaha 2026-03-26 | 12/600 |
|
|
[考研] 329求調(diào)劑 +7 | 鈕恩雪 2026-03-25 | 7/350 |
|
|
[考研] 321求調(diào)劑 +6 | wasdssaa 2026-03-26 | 6/300 |
|
|
[考研] 329求調(diào)劑 +5 | 1() 2026-03-22 | 5/250 |
|
|
[考研] 一志愿天津大學(xué)339材料與化工求調(diào)劑 +3 | 江往賣(mài)魚(yú) 2026-03-26 | 3/150 |
|
|
[考研] 303求調(diào)劑 +6 | 藍(lán)山月 2026-03-25 | 6/300 |
|
|
[考研] 求老師收我 +3 | zzh16938784 2026-03-23 | 3/150 |
|
|
[考研]
|
酥酥魚(yú).. 2026-03-21 | 4/200 |
|
|
[考研] 求調(diào)劑院校信息 +6 | CX 330 2026-03-21 | 6/300 |
|