| 5 | 1/1 | 返回列表 |
| 查看: 1245 | 回復(fù): 9 | |||
| 當(dāng)前只顯示滿足指定條件的回帖,點(diǎn)擊這里查看本話題的所有回帖 | |||
yuffey新蟲 (著名寫手)
World Tour
|
[交流]
【分享-Science最新力作-數(shù)據(jù)分析】如何在數(shù)據(jù)集中尋找關(guān)聯(lián)/關(guān)系 已有9人參與
|
||
|
【來源】Havard University 【內(nèi)容】本月16日Science出版的如何在大數(shù)據(jù)集中尋找關(guān)系的論文,非常有意思,可以借鑒。我已經(jīng)向作者要了相關(guān)的代碼,等待回復(fù)。 【題目】Detecting Novel Associations in Large Data Sets 【頁碼】期卷頁: 12/16/2011 第334卷 第6062期 1518~1524頁 【領(lǐng)域】信息科學(xué) » 計(jì)算機(jī)科學(xué) » 計(jì)算機(jī)科學(xué)的基礎(chǔ)理論 【鏈接】http://www.sciencemag.org/content/334/6062/1518 【DOI】 10.1126/science.1205438 【摘要】Identifying interesting relationships between pairs of variables in large data sets is increasingly important. Here, we presenta measure of dependence for two-variable relationships: the maximal information coefficient (MIC). MIC captures a wide rangeof associations both functional and not, and for functional relationships provides a score that roughly equals the coefficientof determination (R2) of the data relative to the regression function. MIC belongs to a larger class of maximal information-based nonparametricexploration (MINE) statistics for identifying and classifying relationships. We apply MIC and MINE to data sets in globalhealth, gene expression, major-league baseball, and the human gut microbiota and identify known and novel relationships. 作 者:Reshef, David N.; Reshef, Yakir A.; Finucane, Hilary K.; Grossman, Sharon R.; McVean, Gilean; Turnbaugh, Peter J.; Lander, Eric S.; Mitzenmacher, Michael; Sabeti, Pardis C. [ 來自科研家族 快樂家族 ] |
木蟲 (著名寫手)
|
http://www.xinkexue.com/lib.php? ... iew&refid=26251 科學(xué)家介紹數(shù)據(jù)處理新工具 來自哈佛大學(xué),Broad研究院的研究人員發(fā)表了題為“Detecting novel associations in large data sets Science”的文章,介紹了一種強(qiáng)大的在龐大數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關(guān)系的統(tǒng)計(jì)方法,這種方法能快速通過給不同類型關(guān)聯(lián)進(jìn)行評(píng)估,從而發(fā)現(xiàn)廣泛范圍的關(guān)系類型,這將有助于生物學(xué),及其它學(xué)科的研究,相關(guān)成果公布在Science雜志上。 文章的第一作者是哈佛大學(xué),麻省理工健康科學(xué)與技術(shù)組的David N. Reshef,以及Yakir A. Reshef,前者表示,“標(biāo)準(zhǔn)的方法只能通過一種模式觀察一種信號(hào),而把其它作為了背景”,“但是關(guān)系數(shù)據(jù)集中存在許多不同類型的關(guān)聯(lián),我們的這種方法令人激動(dòng)之處在于它能尋找任何類型數(shù)據(jù)清楚結(jié)構(gòu),并嘗試發(fā)現(xiàn)它們! 現(xiàn)代社會(huì)充斥著各種各樣的信息,生命科學(xué)領(lǐng)域尤其是在測序技術(shù)飛速發(fā)展以來,獲得了大量的 DNA基因組信息,比如國內(nèi)的華大基因,據(jù)稱其167臺(tái)DNA組序器每天制造著相當(dāng)于2000人的基因組,如此多的基因組使測序機(jī)構(gòu)常常很難通過互聯(lián)網(wǎng)或其他通訊線路將這些結(jié)果傳送給客戶或是合作伙伴,因?yàn)檫@需要幾周時(shí)間,因此出現(xiàn)了通過快遞郵寄包含了這些數(shù)據(jù)的電腦磁盤的現(xiàn)象。 而且如果需要從這些龐大的數(shù)據(jù)集里找到其中的關(guān)聯(lián),更加是令人感到頭疼,在這篇文章中,研究人員提出了一種在龐大的數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關(guān)系的強(qiáng)有力的統(tǒng)計(jì)方法。 利用這種方法——被稱為MINE,研究人員無需事前對(duì)其尋找的關(guān)系類型有所了解,就檢測由多種因素驅(qū)動(dòng)的復(fù)雜模式。MINE基于最大信息系數(shù)(MIC),其依據(jù)的理念是,如果2個(gè)變量之間存在著一種關(guān)系,那么就應(yīng)該有一種方法在那些變量的散點(diǎn)圖上畫一個(gè)網(wǎng)格,使得大多數(shù)的數(shù)據(jù)點(diǎn)集中在該網(wǎng)格的幾個(gè)單元格中。 通過搜尋這種“最適合”的網(wǎng)格,計(jì)算機(jī)可以計(jì)算MIC及一族可用來發(fā)現(xiàn)并描繪關(guān)系的相關(guān)的統(tǒng)計(jì)數(shù)據(jù)。 研究人員將MINE方法與其它的方法進(jìn)行了比較,結(jié)果發(fā)現(xiàn)MINE更適合于作快速的數(shù)據(jù)探索。他們利用這一方法,揭示了4例真正的數(shù)據(jù)集中的熟悉的和先前未知的關(guān)系:世界衛(wèi)生數(shù)據(jù)、棒球統(tǒng)計(jì)數(shù)據(jù)、酵母菌基因表達(dá)數(shù)據(jù)及一組人類腸道中細(xì)菌豐度的數(shù)據(jù)。 同期Science觀點(diǎn)欄目也對(duì)這一研究進(jìn)行了討論,并回顧了相關(guān)系數(shù)的歷史,該歷史以1888年由查爾斯-達(dá)爾文的半表親Francis Galton所發(fā)明的相關(guān)系數(shù)開始。 近期值得關(guān)注的還有,由中國科學(xué)家主導(dǎo)的研究完成了50個(gè)水稻基因組重測序及遺傳變異數(shù)據(jù)庫構(gòu)建等,這首次對(duì)栽培稻和野生稻基因組進(jìn)行了大規(guī)模的遺傳變異分析,為科學(xué)家深入挖掘水稻重要農(nóng)藝性狀基因及促進(jìn)水稻分子育種改良等研究提供了寶貴的基因資源。 (來源:生物通 萬紋) |
銀蟲 (著名寫手)

金蟲 (小有名氣)

| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 26調(diào)劑/材料/英一數(shù)二/總分289/已過A區(qū)線 +8 | 步川酷紫123 2026-03-13 | 8/400 |
|
|---|---|---|---|---|
|
[考研] 317求調(diào)劑 +3 | 申子申申 2026-03-19 | 6/300 |
|
|
[考研] 085601材料工程專碩求調(diào)劑 +10 | 慕寒mio 2026-03-16 | 10/500 |
|
|
[考研] 0703化學(xué) 305求調(diào)劑 +4 | FY_yy 2026-03-14 | 4/200 |
|
|
[考研] 【同濟(jì)軟件】軟件(085405)考研求調(diào)劑 +3 | 2026eternal 2026-03-18 | 3/150 |
|
|
[考研] 08工科 320總分 求調(diào)劑 +5 | 梨花珞晚風(fēng) 2026-03-17 | 5/250 |
|
|
[考研] 311求調(diào)劑 +11 | 冬十三 2026-03-15 | 12/600 |
|
|
[考博] 環(huán)境領(lǐng)域全國重點(diǎn)實(shí)驗(yàn)室招收博士1-2名 +3 | QGZDSYS 2026-03-13 | 5/250 |
|
|
[考研] 303求調(diào)劑 +4 | 睿08 2026-03-17 | 6/300 |
|
|
[考研] 0703化學(xué)求調(diào)劑 總分331 +3 | ZY-05 2026-03-13 | 3/150 |
|
|
[考研] 268求調(diào)劑 +8 | 一定有學(xué)上- 2026-03-14 | 9/450 |
|
|
[考研] 290求調(diào)劑 +3 | p asserby. 2026-03-15 | 4/200 |
|
|
[考研] 藥學(xué)383 求調(diào)劑 +3 | 藥學(xué)chy 2026-03-15 | 4/200 |
|
|
[考研] 304求調(diào)劑 +5 | 素年祭語 2026-03-15 | 5/250 |
|
|
[考研] 中科院材料273求調(diào)劑 +4 | yzydy 2026-03-15 | 4/200 |
|
|
[考研] 0703化學(xué)調(diào)劑 290分有科研經(jīng)歷,論文在投 +7 | 膩膩gk 2026-03-14 | 7/350 |
|
|
[考研] 070305求調(diào)劑 +3 | mlpqaz03 2026-03-14 | 4/200 |
|
|
[考研] 復(fù)試調(diào)劑 +3 | 呼呼?~+123456 2026-03-14 | 3/150 |
|
|
[考研] 297求調(diào)劑 +4 | 學(xué)海漂泊 2026-03-13 | 4/200 |
|
|
[碩博家園] 085600 260分求調(diào)劑 +3 | 天空還下雨么 2026-03-13 | 5/250 |
|