| 1 | 1/1 | 返回列表 |
| 查看: 1559 | 回復(fù): 0 | |||||||||
[交流]
推薦:幾款優(yōu)秀的開源數(shù)據(jù)挖掘工具
|
|
http://www.iteye.com/news/4693 IDMer說道:本文只對幾種流行的開源數(shù)據(jù)挖掘平臺進(jìn)行了檢視,比如Weka和R等。如果您想找尋更多的開源數(shù)據(jù)挖掘軟件,可以到KDnuggets和Open Directory上查看。為了評測這些軟件,我們用了UCI Machine Learning Repository上的心臟病診斷數(shù)據(jù)集。 R R (http://www.r-project.org) 是用于統(tǒng)計(jì)分析和圖形化的計(jì)算機(jī)語言及分析工具,為了保證性能, 其核心計(jì)算模塊是用C、C++和Fortran編寫的。同時(shí)為了便于使用,它提供了一種腳本語言,即R語言。R語言和貝爾實(shí)驗(yàn)室開發(fā)的S語言類似。R支持 一系列分析技術(shù),包括統(tǒng)計(jì)檢驗(yàn)、預(yù)測建模、數(shù)據(jù)可視化等等。在CRAN(http://cran.r-project.org) 上可以找到眾多開源的擴(kuò)展包。 R軟件的首選界面是命令行界面,通過編寫腳本來調(diào)用分析功能。如果缺乏編程技能,也可使用圖形界面,比如使用R Commander(http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/)或Rattle(http://rattle.togaware.com)。 Tanagra Tanagra (http://eric.univ-lyon2.fr/wricco/tanagra/) 是使用圖形界面的數(shù)據(jù)挖掘軟件,采用了類似Windows資源管理器中的樹狀結(jié)構(gòu)來組織分析組件。Tanagra缺乏高級的可視化能力,但它的強(qiáng)項(xiàng)是統(tǒng)計(jì) 分析,提供了眾多的有參和無參檢驗(yàn)方法。同時(shí)它的特征選取方法也很多。 Weka Weka (Waikato Environment for Knowledge Analysis, http://www.cs.waikato.ac.nz/ml/weka/) 可能是名氣最大的開源機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘軟件。高級用戶可以通過Java編程和命令行來調(diào)用其分析組件。同時(shí),Weka也為普通用戶提供了圖形化界面,稱 為Weka KnowledgeFlow Environment和Weka Explorer。和R相比,Weka在統(tǒng)計(jì)分析方面較弱,但在機(jī)器學(xué)習(xí)方面要強(qiáng)得多。在Weka論壇 (http://weka.sourceforge.net/wiki/index.php/Related_Projects) 可以找到很多擴(kuò)展包,比如文本挖掘、可視化、網(wǎng)格計(jì)算等等。很多其它開源數(shù)據(jù)挖掘軟件也支持調(diào)用Weka的分析功能。 YALE (IDMer:現(xiàn)在已經(jīng)更名為RapidMiner) YALE (Yet Another Learning Environment, http://rapid-i.com) 提供了圖形化界面,采用了類似Windows資源管理器中的樹狀結(jié)構(gòu)來組織分析組件,樹上每個節(jié)點(diǎn)表示不同的運(yùn)算符(operator)。YALE中提供 了大量的運(yùn)算符,包括數(shù)據(jù)處理、變換、探索、建模、評估等各個環(huán)節(jié)。YALE是用Java開發(fā)的,基于Weka來構(gòu)建,也就是說它可以調(diào)用Weka中的各 種分析組件。 KNIME KNIME (Konstanz InformationMiner, http://www.knime.org)是基于Eclipse開發(fā)環(huán)境來精心開發(fā)的數(shù)據(jù)挖掘工具。無需安裝,方便使用(IDMer:呵呵,大家喜歡的綠色版)。和YALE一樣,KNIME也是用Java開發(fā)的,可以擴(kuò)展使用Weka中的挖掘算法。和YALE不同點(diǎn)的是,KNIME采用的是類似數(shù)據(jù)流(data flow)的方式來建立分析挖掘流程(IDMer:這個我喜歡,和SAS EM或SPSS Clementine等商用數(shù)據(jù)挖掘軟件的操作方式類似)。挖掘流程由一系列功能節(jié)點(diǎn)(node)組成,每個節(jié)點(diǎn)有輸入/輸出端口(port),用于接收數(shù)據(jù)或模型、導(dǎo)出結(jié)果。(IDMer:感覺KNIME比Weka的KnowledgeFlow更好用,連接節(jié)點(diǎn)時(shí)很方便,直接用鼠標(biāo)拖拽連接端口即可。而Weka中則需要在節(jié)點(diǎn)上按鼠標(biāo)右鍵,再選擇后續(xù)節(jié)點(diǎn),比較麻煩,剛開始使用時(shí)找了半天才知道怎么連) KNIME中每個節(jié)點(diǎn)都帶有交通信號燈,用于指示該節(jié)點(diǎn)的狀態(tài)(未連接、未配置、缺乏輸入數(shù)據(jù)時(shí)為紅燈;準(zhǔn)備執(zhí)行為黃燈;執(zhí)行完畢后為綠燈)。在KNIME中有個特色功能——HiLite,允許用戶在節(jié)點(diǎn)結(jié)果中標(biāo)記感興趣的記錄,并進(jìn)一步展開后續(xù)探索。 Orange Orange (http://www.ailab.si/orange)是類似KNIME和Weka KnowledgeFlow的數(shù)據(jù)挖掘工具,它的圖形環(huán)境稱為Orange畫布(OrangeCanvas),用戶可以在畫布上放置分析控件 (widget),然后把控件連接起來即可組成挖掘流程。這里的控件和KNIME中的節(jié)點(diǎn)是類似的概念。每個控件執(zhí)行特定的功能,但與KNIME中的節(jié)點(diǎn) 不同,KNIME節(jié)點(diǎn)的輸入輸出分為兩種類型(模型和數(shù)據(jù)),而Orange的控件間可以傳遞多種不同的信號,比如learners, classifiers, evaluation results, distance matrices, dendrograms等等。Orange的控件不象KNIME的節(jié)點(diǎn)分得那么細(xì),也就是說要完成同樣的分析挖掘任務(wù),在Orange里使用的控件數(shù)量可 以比KNIME中的節(jié)點(diǎn)數(shù)少一些。Orange的好處是使用更簡單一些,但缺點(diǎn)是控制能力要比KNIME弱。 除了界面友好易于使用的優(yōu)點(diǎn),Orange的強(qiáng)項(xiàng)在于提供了大量可視化方法,可以對數(shù)據(jù)和模型進(jìn)行多種圖形化展示,并能智能搜索合適的可視化形式,支持對數(shù)據(jù)的交互式探索。 Orange的弱項(xiàng)在于傳統(tǒng)統(tǒng)計(jì)分析能力不強(qiáng),不支持統(tǒng)計(jì)檢驗(yàn),報(bào)表能力也有限。Orange的底層核心也是采用C++編寫,同時(shí)允許用戶使用Python腳本語言來進(jìn)行擴(kuò)展開發(fā)(參見http://www.scipy.org)。 GGobi 數(shù)據(jù)可視化是數(shù)據(jù)挖掘的重要組成部分, GGobi (http://www.ggobi.org)就是用于交互式可視化的開源軟件,它使用brushing的方法。GGobi可以用作R軟件的插件,或者通過Perl、Python等腳本語言來調(diào)用。 結(jié)論 ---- 以 上介紹的幾款軟件都是優(yōu)秀的開源數(shù)據(jù)挖掘軟件,各有所長,同時(shí)也各有缺點(diǎn)。讀者可以結(jié)合自己的需求來進(jìn)行選擇,或者組合使用多個軟件。對于普通用戶可以選 用界面友好易于使用的軟件,對于希望從事算法開發(fā)的用戶則可以根據(jù)軟件開發(fā)工具不同(Java、R、C++、Python等)來選擇相應(yīng)的軟件。以上這幾 款軟件(除了GGobi)基本上都提供了我們期望的大部分功能。 (IDMer:我嘗試了以上這幾種 開源軟件,Weka很有名但用起來并不方便,界面也簡單了點(diǎn);RapidMiner現(xiàn)在流行的勢頭在上升,但它的操作方式和商用軟件差別較大,不支持分析 流程圖的方式,當(dāng)包含的運(yùn)算符比較多的時(shí)候就不容易查看了;KNIME和Orange看起來都不錯,Orange界面看上去很清爽,但我發(fā)現(xiàn)它不支持中 文。我的推薦是KNIME,同時(shí)安裝Weka和R擴(kuò)展包。) (IDMer:我的點(diǎn)評純屬個人意見,歡迎大家批評交流。在我的實(shí)際工作中使用開源挖掘工具并不多,大部分時(shí)候都是在使用SAS Enterprise Miner。) |
數(shù)學(xué)與算法等 | 科研與育人 | ML相關(guān) | 數(shù)據(jù)挖掘?qū)嵱脮N |
分子動力學(xué) | 飄渺 |
找到一些相關(guān)的精華帖子,希望有用哦~
| 1 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 求調(diào)劑 +6 | 十三加油 2026-03-21 | 6/300 |
|
|---|---|---|---|---|
|
[考研] 0856材料專碩353求調(diào)劑 +4 | NIFFFfff 2026-03-20 | 4/200 |
|
|
[考研] 328求調(diào)劑,英語六級551,有科研經(jīng)歷 +5 | 生物工程調(diào)劑 2026-03-17 | 9/450 |
|
|
[考研] 化學(xué)調(diào)劑 +5 | yzysaa 2026-03-21 | 5/250 |
|
|
[考研] 297求調(diào)劑 +3 | 喜歡還是不甘心 2026-03-20 | 3/150 |
|
|
[考研] 一志愿深大,0703化學(xué),總分302,求調(diào)劑 +4 | 七月-七七 2026-03-21 | 4/200 |
|
|
[考研] 材料 271求調(diào)劑 +5 | 展信悅_ 2026-03-21 | 5/250 |
|
|
[考研] 279求調(diào)劑 +5 | 紅衣隱官 2026-03-21 | 5/250 |
|
|
[考研] 求調(diào)劑 +3 | 白QF 2026-03-21 | 3/150 |
|
|
[考研] 材料學(xué)學(xué)碩080502 337求調(diào)劑-一志愿華中科技大學(xué) +4 | 順順順mr 2026-03-18 | 5/250 |
|
|
[考研] 南昌大學(xué)材料專碩311分求調(diào)劑 +6 | 77chaselx 2026-03-20 | 6/300 |
|
|
[考研] 一志愿天津大學(xué)化學(xué)工藝專業(yè)(081702)315分求調(diào)劑 +12 | yangfz 2026-03-17 | 12/600 |
|
|
[考研] 332求調(diào)劑 +4 | ydfyh 2026-03-17 | 4/200 |
|
|
[考研] 一志愿西南交大,求調(diào)劑 +5 | 材化逐夢人 2026-03-18 | 5/250 |
|
|
[考研] 321求調(diào)劑 +9 | 何潤采123 2026-03-18 | 11/550 |
|
|
[考研] 一志愿福大288有機(jī)化學(xué),求調(diào)劑 +3 | 小木蟲200408204 2026-03-18 | 3/150 |
|
|
本科鄭州大學(xué)物理學(xué)院,一志愿華科070200學(xué)碩,346求調(diào)劑 +4 | 我不是一根蔥 2026-03-18 | 4/200 |
|
|
[考研] 收復(fù)試調(diào)劑生 +4 | 雨后秋荷 2026-03-18 | 4/200 |
|
|
[考博] 26博士申請 +3 | 1042136743 2026-03-17 | 3/150 |
|
|
[考研] 290求調(diào)劑 +3 | p asserby. 2026-03-15 | 4/200 |
|