| 10 | 1/1 | 返回列表 |
| 查看: 2266 | 回復(fù): 9 | ||
[求助]
kmeans聚類的問(wèn)題請(qǐng)教! 已有2人參與
|
| 每類訓(xùn)練樣本約200多不等,如果只選用其中的兩類進(jìn)行kmeans自動(dòng)聚類,準(zhǔn)確率會(huì)相對(duì)的高。但是如果把所有的18類樣本進(jìn)行自動(dòng)聚類。正確率不到3%。 難道樣本類型越多,每類所需要的樣本個(gè)數(shù)越多碼? |
至尊木蟲 (著名寫手)
weibo.com/138147022

金蟲 (初入文壇)
鐵桿木蟲 (正式寫手)
|
首先,k-means(KM)確實(shí)有準(zhǔn)確率的說(shuō)法,這是一種外部指標(biāo)。所謂的無(wú)監(jiān)督不過(guò)是指在聚類過(guò)程中沒(méi)用使用到標(biāo)簽之類的信息而已。 然后是樓主的問(wèn)題。我沒(méi)有看過(guò)你使用的是什么樣子的數(shù)據(jù)集。但是把所有的18類樣本進(jìn)行自動(dòng)聚類正確率下降并不奇怪。你說(shuō)的自動(dòng)聚類是指不指定聚類數(shù)嗎?要算法自己找到合適的聚類數(shù)并不容易。即便指定聚類數(shù),類別多了正確率也容易下降。 KM只適用于每類樣本在空間中分布呈超球體且超球中心間的距離明顯大于超球半徑的情況。當(dāng)這些條件不滿足的時(shí)候,很容易出現(xiàn)錯(cuò)分。樓主僅僅選擇兩類樣本,這些樣本在空間中的分布比較容易滿足KM的要求,故準(zhǔn)確率較高。18類樣本放在一起,相互影響之下準(zhǔn)確率自然就低了。 Liu Y, Li Z, Xiong H, et al. Understanding of internal clustering validation measures[C]//Data Mining (ICDM), 2010 IEEE 10th International Conference on. IEEE, 2010: 911-916. 還有一篇類似的論文在IEEE trans. 上,樓主不妨看看,也許對(duì)你了解這個(gè)問(wèn)題有幫助。 |
金蟲 (初入文壇)

鐵桿木蟲 (正式寫手)
|
首先是歸一化的問(wèn)題。歸一化是因?yàn)楦鱾(gè)屬性的取值區(qū)間大小不一致,而km算法是基于距離的聚類方法。因此,在不為屬性添加權(quán)值的情況下,如果有個(gè)別屬性的區(qū)間跨度明顯大于其它屬性,那么這些屬性將成為距離的主要因素,導(dǎo)致其它屬性被忽略。歸一化使所有屬性能公平地比較,所以聚類前進(jìn)行歸一化是有理由的。歸一化有可能能使得聚類算法得到更好的效果,但不是絕對(duì)的。結(jié)合km的適用情況,如果在歸一化前樣本的分布呈超球體,歸一化后可能就會(huì)變成一個(gè)橢球體,聚類效果就可能變差。反過(guò)來(lái),歸一化前呈橢球體分布,歸一化后有可能變成超球體,聚類效果就可能變好。因此,不能一概而論。 主成分分析的問(wèn)題。這是一種降維方法,被提取的主成分是樣本分布差異大的方向。主成分分析法不是必須的,一般會(huì)在需要降維的時(shí)候使用。雖然主成分分析法的降維效果相當(dāng)出色,但也有很明顯的不足。通過(guò)主成分分析獲取的新屬性會(huì)失去原有的現(xiàn)實(shí)意義,也就是說(shuō),屬性的可解釋性會(huì)降低。如果在你的應(yīng)用中屬性的可解釋性是重要的,為屬性添加權(quán)值,即子空間聚類,是一個(gè)可以考慮的選擇。無(wú)論選擇哪一種方法,都能一定程度上去除冗余、不相關(guān)屬性對(duì)聚類的影響,有可能提高聚類效果。但是,這是從排除干擾的角度上得到的結(jié)論,雖然這兩種方法都有提高聚類效果的研究成果,并沒(méi)有嚴(yán)格證明這種提升是絕對(duì)的,至少我沒(méi)有看到這樣的推導(dǎo)。 只要數(shù)據(jù)集是通過(guò)數(shù)據(jù)矩陣的方式給出,即給出各樣本在各個(gè)屬性上的值,就可以使用km算法。然而,要取得好的聚類效果,最理想的狀態(tài)是各類樣本分布呈超球體,且兩個(gè)超球體相互遠(yuǎn)離(球心距離大于兩個(gè)超球體中半徑較大一個(gè)的半徑的兩倍)。這是因?yàn),km算法對(duì)樣本進(jìn)行劃分時(shí)實(shí)際上是對(duì)樣本空間進(jìn)行分割,分割面通過(guò)聚類中心連心線中點(diǎn)且與連心線垂直。顯然,對(duì)于兩個(gè)聚類中心間的樣本空間而言,這種分割是均勻的。在上述的分布下,各類樣本不會(huì)跨越分割面導(dǎo)致誤分。當(dāng)然,這不是不導(dǎo)致誤分的必要條件。只要各類樣本相隔足夠遠(yuǎn),分布不是超球體也是可以的。 |
| 10 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 一志愿華北電力大學(xué)能動(dòng)專碩,293,求調(diào)劑 +3 | 15537177284 2026-03-23 | 5/250 |
|
|---|---|---|---|---|
|
[考研] 0703化學(xué)求調(diào)劑 +9 | 奶油草莓. 2026-03-22 | 10/500 |
|
|
[考研] 291求調(diào)劑 +15 | hhhhxn.. 2026-03-23 | 21/1050 |
|
|
[考研] 277跪求調(diào)劑 +5 | 1915668 2026-03-27 | 9/450 |
|
|
[材料工程] 一志愿C9材料與化工專業(yè)總分300求調(diào)劑 +8 | 曼111 2026-03-24 | 9/450 |
|
|
[考研] 322求調(diào)劑 +6 | 宋明欣 2026-03-27 | 6/300 |
|
|
[考研] 295求調(diào)劑 +5 | 1428151015 2026-03-27 | 6/300 |
|
|
[考研] 安徽大學(xué)專碩生物與醫(yī)藥專業(yè)(086000)324分,英語(yǔ)已過(guò)四六級(jí),六級(jí)521,求調(diào)劑 +4 | 美味可樂(lè)雞翅 2026-03-26 | 4/200 |
|
|
[考研] 334求調(diào)劑 +3 | 雨清天晴 2026-03-21 | 3/150 |
|
|
[考研] 一志愿鄭州大學(xué),080500學(xué)碩,總分317分求調(diào)劑 +4 | 舉個(gè)栗子oi 2026-03-24 | 5/250 |
|
|
[考研] 333求調(diào)劑 +6 | wfh030413@ 2026-03-23 | 6/300 |
|
|
[考研] 中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院-光纖傳感課題組招生-中國(guó)科學(xué)院大學(xué)、深圳理工大學(xué)聯(lián)培 +5 | YangTyu1 2026-03-26 | 5/250 |
|
|
[考研] 一志愿 南京郵電大學(xué) 288分 材料考研 求調(diào)劑 +3 | jl0720 2026-03-26 | 3/150 |
|
|
[考研] 0854人工智能方向招收調(diào)劑 +4 | 章小魚567 2026-03-24 | 4/200 |
|
|
[考研] 285求調(diào)劑 +3 | AZMK 2026-03-24 | 3/150 |
|
|
[考研] 344求調(diào)劑 +3 | desto 2026-03-24 | 3/150 |
|
|
[考研] 一志愿山東大學(xué)藥學(xué)學(xué)碩求調(diào)劑 +3 | 開(kāi)開(kāi)心心沒(méi)煩惱 2026-03-23 | 4/200 |
|
|
[考研] 環(huán)境學(xué)碩288求調(diào)劑 +8 | 皮皮皮123456 2026-03-22 | 8/400 |
|
|
[考研] 341求調(diào)劑(一志愿湖南大學(xué)070300) +5 | 番茄頭--- 2026-03-22 | 6/300 |
|
|
[考研] 269求調(diào)劑 +4 | 我想讀研11 2026-03-23 | 4/200 |
|