| 5 | 1/1 | 返回列表 |
| 查看: 1248 | 回復: 9 | |||
| 當前只顯示滿足指定條件的回帖,點擊這里查看本話題的所有回帖 | |||
yuffey新蟲 (著名寫手)
World Tour
|
[交流]
【分享-Science最新力作-數(shù)據(jù)分析】如何在數(shù)據(jù)集中尋找關聯(lián)/關系 已有9人參與
|
||
|
【來源】Havard University 【內(nèi)容】本月16日Science出版的如何在大數(shù)據(jù)集中尋找關系的論文,非常有意思,可以借鑒。我已經(jīng)向作者要了相關的代碼,等待回復。 【題目】Detecting Novel Associations in Large Data Sets 【頁碼】期卷頁: 12/16/2011 第334卷 第6062期 1518~1524頁 【領域】信息科學 » 計算機科學 » 計算機科學的基礎理論 【鏈接】http://www.sciencemag.org/content/334/6062/1518 【DOI】 10.1126/science.1205438 【摘要】Identifying interesting relationships between pairs of variables in large data sets is increasingly important. Here, we presenta measure of dependence for two-variable relationships: the maximal information coefficient (MIC). MIC captures a wide rangeof associations both functional and not, and for functional relationships provides a score that roughly equals the coefficientof determination (R2) of the data relative to the regression function. MIC belongs to a larger class of maximal information-based nonparametricexploration (MINE) statistics for identifying and classifying relationships. We apply MIC and MINE to data sets in globalhealth, gene expression, major-league baseball, and the human gut microbiota and identify known and novel relationships. 作 者:Reshef, David N.; Reshef, Yakir A.; Finucane, Hilary K.; Grossman, Sharon R.; McVean, Gilean; Turnbaugh, Peter J.; Lander, Eric S.; Mitzenmacher, Michael; Sabeti, Pardis C. [ 來自科研家族 快樂家族 ] |
金蟲 (小有名氣)

銀蟲 (著名寫手)

木蟲 (著名寫手)
|
http://www.xinkexue.com/lib.php? ... iew&refid=26251 科學家介紹數(shù)據(jù)處理新工具 來自哈佛大學,Broad研究院的研究人員發(fā)表了題為“Detecting novel associations in large data sets Science”的文章,介紹了一種強大的在龐大數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關系的統(tǒng)計方法,這種方法能快速通過給不同類型關聯(lián)進行評估,從而發(fā)現(xiàn)廣泛范圍的關系類型,這將有助于生物學,及其它學科的研究,相關成果公布在Science雜志上。 文章的第一作者是哈佛大學,麻省理工健康科學與技術組的David N. Reshef,以及Yakir A. Reshef,前者表示,“標準的方法只能通過一種模式觀察一種信號,而把其它作為了背景”,“但是關系數(shù)據(jù)集中存在許多不同類型的關聯(lián),我們的這種方法令人激動之處在于它能尋找任何類型數(shù)據(jù)清楚結構,并嘗試發(fā)現(xiàn)它們! 現(xiàn)代社會充斥著各種各樣的信息,生命科學領域尤其是在測序技術飛速發(fā)展以來,獲得了大量的 DNA基因組信息,比如國內(nèi)的華大基因,據(jù)稱其167臺DNA組序器每天制造著相當于2000人的基因組,如此多的基因組使測序機構常常很難通過互聯(lián)網(wǎng)或其他通訊線路將這些結果傳送給客戶或是合作伙伴,因為這需要幾周時間,因此出現(xiàn)了通過快遞郵寄包含了這些數(shù)據(jù)的電腦磁盤的現(xiàn)象。 而且如果需要從這些龐大的數(shù)據(jù)集里找到其中的關聯(lián),更加是令人感到頭疼,在這篇文章中,研究人員提出了一種在龐大的數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關系的強有力的統(tǒng)計方法。 利用這種方法——被稱為MINE,研究人員無需事前對其尋找的關系類型有所了解,就檢測由多種因素驅動的復雜模式。MINE基于最大信息系數(shù)(MIC),其依據(jù)的理念是,如果2個變量之間存在著一種關系,那么就應該有一種方法在那些變量的散點圖上畫一個網(wǎng)格,使得大多數(shù)的數(shù)據(jù)點集中在該網(wǎng)格的幾個單元格中。 通過搜尋這種“最適合”的網(wǎng)格,計算機可以計算MIC及一族可用來發(fā)現(xiàn)并描繪關系的相關的統(tǒng)計數(shù)據(jù)。 研究人員將MINE方法與其它的方法進行了比較,結果發(fā)現(xiàn)MINE更適合于作快速的數(shù)據(jù)探索。他們利用這一方法,揭示了4例真正的數(shù)據(jù)集中的熟悉的和先前未知的關系:世界衛(wèi)生數(shù)據(jù)、棒球統(tǒng)計數(shù)據(jù)、酵母菌基因表達數(shù)據(jù)及一組人類腸道中細菌豐度的數(shù)據(jù)。 同期Science觀點欄目也對這一研究進行了討論,并回顧了相關系數(shù)的歷史,該歷史以1888年由查爾斯-達爾文的半表親Francis Galton所發(fā)明的相關系數(shù)開始。 近期值得關注的還有,由中國科學家主導的研究完成了50個水稻基因組重測序及遺傳變異數(shù)據(jù)庫構建等,這首次對栽培稻和野生稻基因組進行了大規(guī)模的遺傳變異分析,為科學家深入挖掘水稻重要農(nóng)藝性狀基因及促進水稻分子育種改良等研究提供了寶貴的基因資源。 (來源:生物通 萬紋) |
| 最具人氣熱帖推薦 [查看全部] | 作者 | 回/看 | 最后發(fā)表 | |
|---|---|---|---|---|
|
[考研]
|
簡木ChuFront 2026-03-19 | 6/300 |
|
|---|---|---|---|---|
|
[考研] 317求調(diào)劑 +4 | 申子申申 2026-03-19 | 8/400 |
|
|
[考研] 一志愿南昌大學,327分,材料與化工085600 +5 | Ncdx123456 2026-03-19 | 5/250 |
|
|
[考研] 304求調(diào)劑 +5 | 曼殊2266 2026-03-18 | 5/250 |
|
|
[考研] 085600材料與化工 求調(diào)劑 +17 | enenenhui 2026-03-13 | 18/900 |
|
|
[考研] 26調(diào)劑/材料/英一數(shù)二/總分289/已過A區(qū)線 +8 | 步川酷紫123 2026-03-13 | 8/400 |
|
|
[考研] 307求調(diào)劑 +9 | 冷笙123 2026-03-17 | 9/450 |
|
|
[考研] 288求調(diào)劑,一志愿華南理工大學071005 +5 | ioodiiij 2026-03-17 | 5/250 |
|
|
[考研] 304求調(diào)劑 +6 | 司空. 2026-03-18 | 6/300 |
|
|
[考研] 一志愿華中科技大學,080502,354分求調(diào)劑 +4 | 守候夕陽CF 2026-03-18 | 4/200 |
|
|
[考研] 生物學071000 329分求調(diào)劑 +3 | 我愛生物生物愛?/a> 2026-03-17 | 3/150 |
|
|
[考研] 0703化學336分求調(diào)劑 +6 | zbzihdhd 2026-03-15 | 7/350 |
|
|
[考研] 環(huán)境工程調(diào)劑 +8 | 大可digkids 2026-03-16 | 8/400 |
|
|
[考博] 26博士申請 +3 | 1042136743 2026-03-17 | 3/150 |
|
|
[考研] 材料與化工專碩調(diào)劑 +5 | heming3743 2026-03-16 | 5/250 |
|
|
[考研] 考研調(diào)劑 +3 | 淇ya_~ 2026-03-17 | 5/250 |
|
|
[考研] [導師推薦]西南科技大學國防/材料導師推薦 +3 | 尖角小荷 2026-03-16 | 6/300 |
|
|
[考研] 304求調(diào)劑 +3 | 曼殊2266 2026-03-14 | 3/150 |
|
|
[考研] 26考研一志愿中國石油大學(華東)305分求調(diào)劑 +3 | 嘉年新程 2026-03-15 | 3/150 |
|
|
[考研] 297一志愿上交085600求調(diào)劑 +5 | 指尖八千里 2026-03-14 | 5/250 |
|