| 5 | 1/1 | 返回列表 |
| 查看: 1247 | 回復: 9 | |||
| 當前只顯示滿足指定條件的回帖,點擊這里查看本話題的所有回帖 | |||
yuffey新蟲 (著名寫手)
World Tour
|
[交流]
【分享-Science最新力作-數(shù)據(jù)分析】如何在數(shù)據(jù)集中尋找關(guān)聯(lián)/關(guān)系 已有9人參與
|
||
|
【來源】Havard University 【內(nèi)容】本月16日Science出版的如何在大數(shù)據(jù)集中尋找關(guān)系的論文,非常有意思,可以借鑒。我已經(jīng)向作者要了相關(guān)的代碼,等待回復。 【題目】Detecting Novel Associations in Large Data Sets 【頁碼】期卷頁: 12/16/2011 第334卷 第6062期 1518~1524頁 【領(lǐng)域】信息科學 » 計算機科學 » 計算機科學的基礎(chǔ)理論 【鏈接】http://www.sciencemag.org/content/334/6062/1518 【DOI】 10.1126/science.1205438 【摘要】Identifying interesting relationships between pairs of variables in large data sets is increasingly important. Here, we presenta measure of dependence for two-variable relationships: the maximal information coefficient (MIC). MIC captures a wide rangeof associations both functional and not, and for functional relationships provides a score that roughly equals the coefficientof determination (R2) of the data relative to the regression function. MIC belongs to a larger class of maximal information-based nonparametricexploration (MINE) statistics for identifying and classifying relationships. We apply MIC and MINE to data sets in globalhealth, gene expression, major-league baseball, and the human gut microbiota and identify known and novel relationships. 作 者:Reshef, David N.; Reshef, Yakir A.; Finucane, Hilary K.; Grossman, Sharon R.; McVean, Gilean; Turnbaugh, Peter J.; Lander, Eric S.; Mitzenmacher, Michael; Sabeti, Pardis C. [ 來自科研家族 快樂家族 ] |

銀蟲 (著名寫手)
金蟲 (小有名氣)

木蟲 (著名寫手)
|
http://www.xinkexue.com/lib.php? ... iew&refid=26251 科學家介紹數(shù)據(jù)處理新工具 來自哈佛大學,Broad研究院的研究人員發(fā)表了題為“Detecting novel associations in large data sets Science”的文章,介紹了一種強大的在龐大數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關(guān)系的統(tǒng)計方法,這種方法能快速通過給不同類型關(guān)聯(lián)進行評估,從而發(fā)現(xiàn)廣泛范圍的關(guān)系類型,這將有助于生物學,及其它學科的研究,相關(guān)成果公布在Science雜志上。 文章的第一作者是哈佛大學,麻省理工健康科學與技術(shù)組的David N. Reshef,以及Yakir A. Reshef,前者表示,“標準的方法只能通過一種模式觀察一種信號,而把其它作為了背景”,“但是關(guān)系數(shù)據(jù)集中存在許多不同類型的關(guān)聯(lián),我們的這種方法令人激動之處在于它能尋找任何類型數(shù)據(jù)清楚結(jié)構(gòu),并嘗試發(fā)現(xiàn)它們! 現(xiàn)代社會充斥著各種各樣的信息,生命科學領(lǐng)域尤其是在測序技術(shù)飛速發(fā)展以來,獲得了大量的 DNA基因組信息,比如國內(nèi)的華大基因,據(jù)稱其167臺DNA組序器每天制造著相當于2000人的基因組,如此多的基因組使測序機構(gòu)常常很難通過互聯(lián)網(wǎng)或其他通訊線路將這些結(jié)果傳送給客戶或是合作伙伴,因為這需要幾周時間,因此出現(xiàn)了通過快遞郵寄包含了這些數(shù)據(jù)的電腦磁盤的現(xiàn)象。 而且如果需要從這些龐大的數(shù)據(jù)集里找到其中的關(guān)聯(lián),更加是令人感到頭疼,在這篇文章中,研究人員提出了一種在龐大的數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關(guān)系的強有力的統(tǒng)計方法。 利用這種方法——被稱為MINE,研究人員無需事前對其尋找的關(guān)系類型有所了解,就檢測由多種因素驅(qū)動的復雜模式。MINE基于最大信息系數(shù)(MIC),其依據(jù)的理念是,如果2個變量之間存在著一種關(guān)系,那么就應(yīng)該有一種方法在那些變量的散點圖上畫一個網(wǎng)格,使得大多數(shù)的數(shù)據(jù)點集中在該網(wǎng)格的幾個單元格中。 通過搜尋這種“最適合”的網(wǎng)格,計算機可以計算MIC及一族可用來發(fā)現(xiàn)并描繪關(guān)系的相關(guān)的統(tǒng)計數(shù)據(jù)。 研究人員將MINE方法與其它的方法進行了比較,結(jié)果發(fā)現(xiàn)MINE更適合于作快速的數(shù)據(jù)探索。他們利用這一方法,揭示了4例真正的數(shù)據(jù)集中的熟悉的和先前未知的關(guān)系:世界衛(wèi)生數(shù)據(jù)、棒球統(tǒng)計數(shù)據(jù)、酵母菌基因表達數(shù)據(jù)及一組人類腸道中細菌豐度的數(shù)據(jù)。 同期Science觀點欄目也對這一研究進行了討論,并回顧了相關(guān)系數(shù)的歷史,該歷史以1888年由查爾斯-達爾文的半表親Francis Galton所發(fā)明的相關(guān)系數(shù)開始。 近期值得關(guān)注的還有,由中國科學家主導的研究完成了50個水稻基因組重測序及遺傳變異數(shù)據(jù)庫構(gòu)建等,這首次對栽培稻和野生稻基因組進行了大規(guī)模的遺傳變異分析,為科學家深入挖掘水稻重要農(nóng)藝性狀基因及促進水稻分子育種改良等研究提供了寶貴的基因資源。 (來源:生物通 萬紋) |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研] 281求調(diào)劑(0805) +11 | 煙汐憶海 2026-03-16 | 21/1050 |
|
|---|---|---|---|---|
|
[考研] 一志愿中國海洋大學,生物學,301分,求調(diào)劑 +5 | 1孫悟空 2026-03-17 | 6/300 |
|
|
[考研] 材料與化工求調(diào)劑 +7 | 為學666 2026-03-16 | 7/350 |
|
|
[考研] 求調(diào)劑,一志愿:南京航空航天大學大學 ,080500材料科學與工程學碩,總分289分 +3 | @taotao 2026-03-19 | 3/150 |
|
|
[考研] 287求調(diào)劑 +3 | 晨昏線與星海 2026-03-19 | 4/200 |
|
|
[考研] 332求調(diào)劑 +3 | ydfyh 2026-03-17 | 3/150 |
|
|
[考研] 本科鄭州大學物理學院,一志愿華科070200學碩,346求調(diào)劑 +4 | 我不是一根蔥 2026-03-18 | 4/200 |
|
|
[考研] 311求調(diào)劑 +4 | 冬十三 2026-03-18 | 4/200 |
|
|
[考研] 328求調(diào)劑,英語六級551,有科研經(jīng)歷 +3 | 生物工程調(diào)劑 2026-03-17 | 7/350 |
|
|
[考研] 295求調(diào)劑 +3 | 一志愿京區(qū)211 2026-03-18 | 5/250 |
|
|
[考研] 298-一志愿中國農(nóng)業(yè)大學-求調(diào)劑 +7 | 手機用戶 2026-03-17 | 7/350 |
|
|
[考研] 297求調(diào)劑 +8 | 戲精丹丹丹 2026-03-17 | 8/400 |
|
|
[考研] 280求調(diào)劑 +6 | 咕嚕曉曉 2026-03-18 | 7/350 |
|
|
[考博] 環(huán)境領(lǐng)域全國重點實驗室招收博士1-2名 +3 | QGZDSYS 2026-03-13 | 5/250 |
|
|
[考研] 0703化學調(diào)劑 +3 | 妮妮ninicgb 2026-03-17 | 3/150 |
|
|
[考研] 一志愿,福州大學材料專碩339分求調(diào)劑 +3 | 木子momo青爭 2026-03-15 | 3/150 |
|
|
[基金申請]
今年的國基金是打分制嗎?
50+3
|
zhanghaozhu 2026-03-14 | 3/150 |
|
|
[考研] 一志愿211 0703方向310分求調(diào)劑 +3 | 努力奮斗112 2026-03-15 | 3/150 |
|
|
[考研] 0703化學調(diào)劑 290分有科研經(jīng)歷,論文在投 +7 | 膩膩gk 2026-03-14 | 7/350 |
|
|
[考研] 085601材料工程315分求調(diào)劑 +3 | yang_0104 2026-03-15 | 3/150 |
|