| 10 | 1/1 | 返回列表 |
| 查看: 1253 | 回復(fù): 9 | |||
yuffey新蟲 (著名寫手)
World Tour
|
[交流]
【分享-Science最新力作-數(shù)據(jù)分析】如何在數(shù)據(jù)集中尋找關(guān)聯(lián)/關(guān)系 已有9人參與
|
|
【來源】Havard University 【內(nèi)容】本月16日Science出版的如何在大數(shù)據(jù)集中尋找關(guān)系的論文,非常有意思,可以借鑒。我已經(jīng)向作者要了相關(guān)的代碼,等待回復(fù)。 【題目】Detecting Novel Associations in Large Data Sets 【頁碼】期卷頁: 12/16/2011 第334卷 第6062期 1518~1524頁 【領(lǐng)域】信息科學(xué) » 計算機(jī)科學(xué) » 計算機(jī)科學(xué)的基礎(chǔ)理論 【鏈接】http://www.sciencemag.org/content/334/6062/1518 【DOI】 10.1126/science.1205438 【摘要】Identifying interesting relationships between pairs of variables in large data sets is increasingly important. Here, we presenta measure of dependence for two-variable relationships: the maximal information coefficient (MIC). MIC captures a wide rangeof associations both functional and not, and for functional relationships provides a score that roughly equals the coefficientof determination (R2) of the data relative to the regression function. MIC belongs to a larger class of maximal information-based nonparametricexploration (MINE) statistics for identifying and classifying relationships. We apply MIC and MINE to data sets in globalhealth, gene expression, major-league baseball, and the human gut microbiota and identify known and novel relationships. 作 者:Reshef, David N.; Reshef, Yakir A.; Finucane, Hilary K.; Grossman, Sharon R.; McVean, Gilean; Turnbaugh, Peter J.; Lander, Eric S.; Mitzenmacher, Michael; Sabeti, Pardis C. [ 來自科研家族 快樂家族 ] |
銀蟲 (著名寫手)

| 謝謝分享! |
金蟲 (小有名氣)

金蟲 (小有名氣)
木蟲 (著名寫手)
|
http://www.xinkexue.com/lib.php? ... iew&refid=26251 科學(xué)家介紹數(shù)據(jù)處理新工具 來自哈佛大學(xué),Broad研究院的研究人員發(fā)表了題為“Detecting novel associations in large data sets Science”的文章,介紹了一種強(qiáng)大的在龐大數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關(guān)系的統(tǒng)計方法,這種方法能快速通過給不同類型關(guān)聯(lián)進(jìn)行評估,從而發(fā)現(xiàn)廣泛范圍的關(guān)系類型,這將有助于生物學(xué),及其它學(xué)科的研究,相關(guān)成果公布在Science雜志上。 文章的第一作者是哈佛大學(xué),麻省理工健康科學(xué)與技術(shù)組的David N. Reshef,以及Yakir A. Reshef,前者表示,“標(biāo)準(zhǔn)的方法只能通過一種模式觀察一種信號,而把其它作為了背景”,“但是關(guān)系數(shù)據(jù)集中存在許多不同類型的關(guān)聯(lián),我們的這種方法令人激動之處在于它能尋找任何類型數(shù)據(jù)清楚結(jié)構(gòu),并嘗試發(fā)現(xiàn)它們! 現(xiàn)代社會充斥著各種各樣的信息,生命科學(xué)領(lǐng)域尤其是在測序技術(shù)飛速發(fā)展以來,獲得了大量的 DNA基因組信息,比如國內(nèi)的華大基因,據(jù)稱其167臺DNA組序器每天制造著相當(dāng)于2000人的基因組,如此多的基因組使測序機(jī)構(gòu)常常很難通過互聯(lián)網(wǎng)或其他通訊線路將這些結(jié)果傳送給客戶或是合作伙伴,因為這需要幾周時間,因此出現(xiàn)了通過快遞郵寄包含了這些數(shù)據(jù)的電腦磁盤的現(xiàn)象。 而且如果需要從這些龐大的數(shù)據(jù)集里找到其中的關(guān)聯(lián),更加是令人感到頭疼,在這篇文章中,研究人員提出了一種在龐大的數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關(guān)系的強(qiáng)有力的統(tǒng)計方法。 利用這種方法——被稱為MINE,研究人員無需事前對其尋找的關(guān)系類型有所了解,就檢測由多種因素驅(qū)動的復(fù)雜模式。MINE基于最大信息系數(shù)(MIC),其依據(jù)的理念是,如果2個變量之間存在著一種關(guān)系,那么就應(yīng)該有一種方法在那些變量的散點圖上畫一個網(wǎng)格,使得大多數(shù)的數(shù)據(jù)點集中在該網(wǎng)格的幾個單元格中。 通過搜尋這種“最適合”的網(wǎng)格,計算機(jī)可以計算MIC及一族可用來發(fā)現(xiàn)并描繪關(guān)系的相關(guān)的統(tǒng)計數(shù)據(jù)。 研究人員將MINE方法與其它的方法進(jìn)行了比較,結(jié)果發(fā)現(xiàn)MINE更適合于作快速的數(shù)據(jù)探索。他們利用這一方法,揭示了4例真正的數(shù)據(jù)集中的熟悉的和先前未知的關(guān)系:世界衛(wèi)生數(shù)據(jù)、棒球統(tǒng)計數(shù)據(jù)、酵母菌基因表達(dá)數(shù)據(jù)及一組人類腸道中細(xì)菌豐度的數(shù)據(jù)。 同期Science觀點欄目也對這一研究進(jìn)行了討論,并回顧了相關(guān)系數(shù)的歷史,該歷史以1888年由查爾斯-達(dá)爾文的半表親Francis Galton所發(fā)明的相關(guān)系數(shù)開始。 近期值得關(guān)注的還有,由中國科學(xué)家主導(dǎo)的研究完成了50個水稻基因組重測序及遺傳變異數(shù)據(jù)庫構(gòu)建等,這首次對栽培稻和野生稻基因組進(jìn)行了大規(guī)模的遺傳變異分析,為科學(xué)家深入挖掘水稻重要農(nóng)藝性狀基因及促進(jìn)水稻分子育種改良等研究提供了寶貴的基因資源。 (來源:生物通 萬紋) |
木蟲 (著名寫手)
新蟲 (初入文壇)
| 10 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 求調(diào)劑,一志愿 南京航空航天大學(xué) ,080500材料科學(xué)與工程學(xué)碩,總分289分 +6 | @taotao 2026-03-29 | 6/300 |
|
|---|---|---|---|---|
|
[考研] 298求調(diào)劑 +4 | 種圣賜 2026-03-28 | 4/200 |
|
|
[考研] 300求調(diào)劑,材料科學(xué)英一數(shù)二 +8 | leaflight 2026-03-24 | 8/400 |
|
|
[考研] 0703化學(xué)求調(diào)劑 +9 | 奶油草莓. 2026-03-22 | 10/500 |
|
|
[考研] 299求調(diào)劑 +7 | 嗯嗯嗯嗯2 2026-03-27 | 7/350 |
|
|
[考研] 277跪求調(diào)劑 +5 | 1915668 2026-03-27 | 9/450 |
|
|
[考研]
|
孅華 2026-03-22 | 17/850 |
|
|
[考研] 材料求調(diào)劑 一志愿哈工大總分298分,前三科223分 +5 | dongfang59 2026-03-27 | 5/250 |
|
|
[考研] 328求調(diào)劑 +7 | 嗯滴的基本都 2026-03-27 | 7/350 |
|
|
[考研] 求調(diào)劑 +8 | 張zz111 2026-03-27 | 9/450 |
|
|
[考研] 一志愿211院校 344分 東北農(nóng)業(yè)大學(xué)生物學(xué)學(xué)碩,求調(diào)劑 +5 | 丶風(fēng)雪夜歸人丶 2026-03-26 | 8/400 |
|
|
[考研]
材料學(xué)碩,求調(diào)劑
6+5
|
糖葫蘆888ll 2026-03-22 | 10/500 |
|
|
[考研] 081200-11408-276學(xué)碩求調(diào)劑 +4 | 崔wj 2026-03-26 | 4/200 |
|
|
[考研]
材料調(diào)劑
5+4
|
想要一壺桃花水 2026-03-25 | 10/500 |
|
|
[考研]
|
平樂樂樂 2026-03-26 | 4/200 |
|
|
[考研] 334分 一志愿武理 材料求調(diào)劑 +4 | 李李不服輸 2026-03-26 | 4/200 |
|
|
[考研] 網(wǎng)絡(luò)空間安全0839招調(diào)劑 +4 | w320357296 2026-03-25 | 6/300 |
|
|
[考研] 285求調(diào)劑 +3 | AZMK 2026-03-24 | 3/150 |
|
|
[考研] 材料調(diào)劑 +3 | iwinso 2026-03-23 | 3/150 |
|
|
[考研] 280分求調(diào)劑 一志愿085802 +4 | PUMPT 2026-03-22 | 7/350 |
|