| 10 | 1/1 | 返回列表 |
| 查看: 1251 | 回復: 9 | |||
yuffey新蟲 (著名寫手)
World Tour
|
[交流]
【分享-Science最新力作-數(shù)據(jù)分析】如何在數(shù)據(jù)集中尋找關(guān)聯(lián)/關(guān)系 已有9人參與
|
|
【來源】Havard University 【內(nèi)容】本月16日Science出版的如何在大數(shù)據(jù)集中尋找關(guān)系的論文,非常有意思,可以借鑒。我已經(jīng)向作者要了相關(guān)的代碼,等待回復。 【題目】Detecting Novel Associations in Large Data Sets 【頁碼】期卷頁: 12/16/2011 第334卷 第6062期 1518~1524頁 【領(lǐng)域】信息科學 » 計算機科學 » 計算機科學的基礎(chǔ)理論 【鏈接】http://www.sciencemag.org/content/334/6062/1518 【DOI】 10.1126/science.1205438 【摘要】Identifying interesting relationships between pairs of variables in large data sets is increasingly important. Here, we presenta measure of dependence for two-variable relationships: the maximal information coefficient (MIC). MIC captures a wide rangeof associations both functional and not, and for functional relationships provides a score that roughly equals the coefficientof determination (R2) of the data relative to the regression function. MIC belongs to a larger class of maximal information-based nonparametricexploration (MINE) statistics for identifying and classifying relationships. We apply MIC and MINE to data sets in globalhealth, gene expression, major-league baseball, and the human gut microbiota and identify known and novel relationships. 作 者:Reshef, David N.; Reshef, Yakir A.; Finucane, Hilary K.; Grossman, Sharon R.; McVean, Gilean; Turnbaugh, Peter J.; Lander, Eric S.; Mitzenmacher, Michael; Sabeti, Pardis C. [ 來自科研家族 快樂家族 ] |
銀蟲 (著名寫手)

| 謝謝分享! |
金蟲 (小有名氣)

金蟲 (小有名氣)
木蟲 (著名寫手)
|
http://www.xinkexue.com/lib.php? ... iew&refid=26251 科學家介紹數(shù)據(jù)處理新工具 來自哈佛大學,Broad研究院的研究人員發(fā)表了題為“Detecting novel associations in large data sets Science”的文章,介紹了一種強大的在龐大數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關(guān)系的統(tǒng)計方法,這種方法能快速通過給不同類型關(guān)聯(lián)進行評估,從而發(fā)現(xiàn)廣泛范圍的關(guān)系類型,這將有助于生物學,及其它學科的研究,相關(guān)成果公布在Science雜志上。 文章的第一作者是哈佛大學,麻省理工健康科學與技術(shù)組的David N. Reshef,以及Yakir A. Reshef,前者表示,“標準的方法只能通過一種模式觀察一種信號,而把其它作為了背景”,“但是關(guān)系數(shù)據(jù)集中存在許多不同類型的關(guān)聯(lián),我們的這種方法令人激動之處在于它能尋找任何類型數(shù)據(jù)清楚結(jié)構(gòu),并嘗試發(fā)現(xiàn)它們! 現(xiàn)代社會充斥著各種各樣的信息,生命科學領(lǐng)域尤其是在測序技術(shù)飛速發(fā)展以來,獲得了大量的 DNA基因組信息,比如國內(nèi)的華大基因,據(jù)稱其167臺DNA組序器每天制造著相當于2000人的基因組,如此多的基因組使測序機構(gòu)常常很難通過互聯(lián)網(wǎng)或其他通訊線路將這些結(jié)果傳送給客戶或是合作伙伴,因為這需要幾周時間,因此出現(xiàn)了通過快遞郵寄包含了這些數(shù)據(jù)的電腦磁盤的現(xiàn)象。 而且如果需要從這些龐大的數(shù)據(jù)集里找到其中的關(guān)聯(lián),更加是令人感到頭疼,在這篇文章中,研究人員提出了一種在龐大的數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關(guān)系的強有力的統(tǒng)計方法。 利用這種方法——被稱為MINE,研究人員無需事前對其尋找的關(guān)系類型有所了解,就檢測由多種因素驅(qū)動的復雜模式。MINE基于最大信息系數(shù)(MIC),其依據(jù)的理念是,如果2個變量之間存在著一種關(guān)系,那么就應(yīng)該有一種方法在那些變量的散點圖上畫一個網(wǎng)格,使得大多數(shù)的數(shù)據(jù)點集中在該網(wǎng)格的幾個單元格中。 通過搜尋這種“最適合”的網(wǎng)格,計算機可以計算MIC及一族可用來發(fā)現(xiàn)并描繪關(guān)系的相關(guān)的統(tǒng)計數(shù)據(jù)。 研究人員將MINE方法與其它的方法進行了比較,結(jié)果發(fā)現(xiàn)MINE更適合于作快速的數(shù)據(jù)探索。他們利用這一方法,揭示了4例真正的數(shù)據(jù)集中的熟悉的和先前未知的關(guān)系:世界衛(wèi)生數(shù)據(jù)、棒球統(tǒng)計數(shù)據(jù)、酵母菌基因表達數(shù)據(jù)及一組人類腸道中細菌豐度的數(shù)據(jù)。 同期Science觀點欄目也對這一研究進行了討論,并回顧了相關(guān)系數(shù)的歷史,該歷史以1888年由查爾斯-達爾文的半表親Francis Galton所發(fā)明的相關(guān)系數(shù)開始。 近期值得關(guān)注的還有,由中國科學家主導的研究完成了50個水稻基因組重測序及遺傳變異數(shù)據(jù)庫構(gòu)建等,這首次對栽培稻和野生稻基因組進行了大規(guī)模的遺傳變異分析,為科學家深入挖掘水稻重要農(nóng)藝性狀基因及促進水稻分子育種改良等研究提供了寶貴的基因資源。 (來源:生物通 萬紋) |
木蟲 (著名寫手)
新蟲 (初入文壇)
| 10 | 1/1 | 返回列表 |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 一志愿西安交通大學 學碩 354求調(diào)劑 +3 | 我想要讀研究生 2026-03-20 | 3/150 |
|
|---|---|---|---|---|
|
[考研] 一志愿南昌大學,327分,材料與化工085600 +7 | Ncdx123456 2026-03-19 | 7/350 |
|
|
[考研] 319求調(diào)劑 +3 | 小力氣珂珂 2026-03-20 | 3/150 |
|
|
[考研] 08工學調(diào)劑 +5 | 用戶573181 2026-03-20 | 5/250 |
|
|
[考研] 能源材料化學課題組招收碩士研究生8-10名 +5 | 脫穎而出 2026-03-16 | 14/700 |
|
|
[考博] 申博26年 +3 | 八6八68 2026-03-19 | 3/150 |
|
|
[考研] 288求調(diào)劑,一志愿華南理工大學071005 +5 | ioodiiij 2026-03-17 | 5/250 |
|
|
[考研] 一志愿天津大學化學工藝專業(yè)(081702)315分求調(diào)劑 +11 | yangfz 2026-03-17 | 11/550 |
|
|
[考研] 一志愿福大288有機化學,求調(diào)劑 +3 | 小木蟲200408204 2026-03-18 | 3/150 |
|
|
[考研] 332求調(diào)劑 +3 | ydfyh 2026-03-17 | 3/150 |
|
|
[考研] 344求調(diào)劑 +6 | knight344 2026-03-16 | 7/350 |
|
|
[考研] 一志愿武理材料305分求調(diào)劑 +5 | 想上岸的鯉魚 2026-03-18 | 6/300 |
|
|
[考研] 085601專碩,總分342求調(diào)劑,地區(qū)不限 +5 | share_joy 2026-03-16 | 5/250 |
|
|
[考研] 311求調(diào)劑 +6 | 26研0 2026-03-15 | 6/300 |
|
|
[考研] 0854可跨調(diào)劑,一作一項核心論文五項專利,省、國級證書40+數(shù)一英一287 +8 | 小李0854 2026-03-16 | 8/400 |
|
|
[考研] 東南大學364求調(diào)劑 +5 | JasonYuiui 2026-03-15 | 5/250 |
|
|
[考研] 333求調(diào)劑 +3 | 文思客 2026-03-16 | 7/350 |
|
|
[考研] 304求調(diào)劑 +4 | ahbd 2026-03-14 | 4/200 |
|
|
[考研] 277材料科學與工程080500求調(diào)劑 +3 | 自由煎餅果子 2026-03-16 | 3/150 |
|
|
[考研] 招收0805(材料)調(diào)劑 +3 | 18595523086 2026-03-13 | 3/150 |
|