|
|
[交流]
【轉(zhuǎn)】裸奔的Barabasi 已有10人參與
轉(zhuǎn)自科學(xué)網(wǎng)
http://blog.sciencenet.cn/blog-404304-770977.html
系列博文之二——曼諾利斯你趕緊撤稿得了
系列博文之三——我揍你是為了你好啊你造嗎?
PS:如果你竟然不知道Barabasi是誰,請無視吧。
憤怒的萊爾帕切特【一】:裸奔的網(wǎng)絡(luò)皇帝 精選
已有 3437 次閱讀 2014-2-25 21:22 |系統(tǒng)分類:觀點(diǎn)評述
2014年2月10, 11, 12日三天,加州大學(xué)伯克利分校數(shù)學(xué)系、分子與細(xì)胞生物學(xué)系和電子工程與計(jì)算機(jī)科學(xué)系的萊爾帕切特(Lior Pachter)教授在他的個(gè)人博客上連續(xù)發(fā)表了三篇博文,強(qiáng)烈抨擊2013年8月同時(shí)發(fā)表在Nature Biotechnology上的兩篇論文:
1. The network nonsense of Albert-László Barabási
2. The network nonsense of Manolis Kellis
3. Why I read the network nonsense papers
被批評的兩篇NBT論文是:
1. Barzel B1, Barabási AL. (2013) Network link prediction by global silencing of indirect correlations. Nat Biotechnol., 31(8):720-5.
2. Feizi S1, Marbach D, Médard M, Kellis M. (2013) Network deconvolution as a general method to distinguish direct dependencies in networks. Nat Biotechnol., 31(8):726-33.

其中,”nonsense”這個(gè)詞怎么精確的翻譯,讓我思考了很久。雖然有點(diǎn)兒不雅,但個(gè)人以為用南京方言里的形容詞“依壁雕鑿”來描述,是比較能夠貼合萊爾寫博客時(shí)憤怒的心境。在這三篇博文里,萊爾首先不屑的指出著名的“網(wǎng)絡(luò)皇帝”(network emperor)、美國東北大學(xué) (Northeastern University) 物理系和計(jì)算機(jī)科學(xué)與生物系的復(fù)雜網(wǎng)絡(luò)研究中心的埃爾伯特-拉斯洛巴拉巴西(Albert-László Barabási)教授的數(shù)學(xué)爛到掉底兒,痛批巴拉巴西那些所謂的“發(fā)現(xiàn)”其實(shí)狗屁不通,因此結(jié)論就是雖然網(wǎng)絡(luò)皇帝經(jīng)常在Nature, Science這些刊物上炫耀自己的新衣,但是全世界都真真切切地看著皇帝正在裸奔;當(dāng)然這不是高潮,萊爾在第二篇里繼續(xù)抨擊另一位生物信息領(lǐng)域的大牛、MIT計(jì)算生物學(xué)研究組負(fù)責(zé)人曼諾利斯凱利斯(Manolis Kellis)副教授(2011年“甜妞”),并且使用了“不誠實(shí)和欺詐的”(dishonest and fraudulent) 的字眼,這種指責(zé)在惜名如命的學(xué)術(shù)界里,幾乎是毀滅性的指控;當(dāng)然你如果認(rèn)為這就是高潮,那你就錯(cuò)了,萊爾在第三篇博文里洋洋得意的指出:兄弟我從2006年開始就痛恨曼諾利斯,一直想辦法抓他把柄,終于給我逮住了吧。這叫什么不怕什么偷,就怕什么惦記?兄弟我就是惦記著這哥們,給我逮住算他倒霉。
完了。三篇博文一出,整個(gè)生信領(lǐng)域像是被丟進(jìn)了顆重量級的核彈,眾皆嘩然:你要打曼諾利斯那就打吧,人家網(wǎng)絡(luò)皇帝招你啥事了?(巴拉巴西小聲嘀咕:我招誰惹誰了?)還有,你打了人,還沾沾自喜說你一貫對人有成見,這都哪跟哪。窟@下好了,美國的同行們一看見標(biāo)題,二話不說,先拿過來慢慢一桶的爆米花;歐洲的同行們也不看球了,叼著巧克力,拎著啤酒瓶;中國的同行們一看,我靠,這么震撼,趕緊點(diǎn)根煙壓壓驚:大家一邊吃零食、喝啤酒、抽煙,一邊搬個(gè)馬叉坐下來慢悠悠的看熱鬧。
有啥熱鬧可看的?當(dāng)然是有。首先,生信這個(gè)圈子現(xiàn)在還不大,無論是國外還是國內(nèi),就那些人,所以有個(gè)風(fēng)吹草動(dòng)的很快就能傳遍整個(gè)圈子;其次,搞生信的人生活一般比較簡單,工作、生活、寫博客或者看博客,領(lǐng)域里面一般沒啥大新聞,就算是整個(gè)大新聞,那也是跑出去忽悠圈兒外的人,自己人之間忽悠起來還是挺困難的;再次,這場架打的水平那真是不一般的高,高科技打架斗毆啊,高科技打仗這是現(xiàn)在的流行趨勢,高科技打架那還真是不多見,能明明白白看懂整場架的每一招一式,非常不容易,理論上來說需要有非常強(qiáng)悍的數(shù)學(xué)背景,物理背景要扎實(shí),計(jì)算機(jī)水平要高,還得有相當(dāng)?shù)纳飳W(xué)功底。不要看我,我反正是沒本事看懂這架是咋打的,當(dāng)然我也很認(rèn)真的找各種資料,仔細(xì)閱讀博文和相應(yīng)的評論,從12號Shirley轉(zhuǎn)給我博文鏈接到今天,前后琢磨了兩周的時(shí)間。當(dāng)然即使這樣,這場架還是沒大看明白,于是到處請教各位同行朋友,結(jié)合大家的觀點(diǎn),湊成這篇博文。當(dāng)然說實(shí)話,兄弟我這數(shù)學(xué)實(shí)在是太渣了,要是還有看走眼或者看錯(cuò)的招式,盡管補(bǔ)充哈。
一、裸奔的“網(wǎng)絡(luò)皇帝”
萊爾寫博客的時(shí)間不長,2013年8月開始,也就半年多的時(shí)間。但絕對絕對是博客界的奇葩。萊爾寫博客的風(fēng)格非常鮮明,那就是無論如何上來先噼里啪啦一頓胖揍,揍的角度自然是他最拿手的數(shù)學(xué)(這不廢話嗎?人家是貨真價(jià)實(shí)的數(shù)學(xué)家),當(dāng)然嘍,個(gè)人以為你一個(gè)數(shù)學(xué)家譏笑人家物理學(xué)數(shù)學(xué)水平不咋地,這個(gè)實(shí)在有點(diǎn)兒不厚道。因?yàn)槿R爾本來的目的就要批曼諾利斯,但郁悶的是巴拉巴西正好與曼諾利斯“背靠背”的同一期發(fā)表對同一個(gè)問題的計(jì)算分析方法,再加上萊爾本來就對巴拉巴西不爽(這個(gè)也正常,網(wǎng)絡(luò)皇帝是個(gè)極其有爭議的人物,捧他的人是鐵桿誓死捍衛(wèi),批他的人真是批到一錢不值),所以二話不說先逮住巴拉巴西,上去就是一頓暴打。
等會(huì)兒,萊爾這么鬧騰了半天,究竟是個(gè)什么事兒?這話說起來有那么點(diǎn)兒復(fù)雜。這得講到網(wǎng)絡(luò)這個(gè)東西,最早的淵源呢,就是匈牙利有個(gè)天才數(shù)學(xué)家Erdos,跟他的小伙伴Renyi,在漫長的灌著水的學(xué)術(shù)生涯里,一不小心研究了一下隨機(jī)網(wǎng)絡(luò)發(fā)了八篇論文,后來覺得沒啥意思,就收手不玩了。后來巴拉巴西,真好也是匈牙利裔,一看這玩意兒不錯(cuò),加了倆限制條件,即網(wǎng)絡(luò)生長模式和“強(qiáng)者恒強(qiáng)”的節(jié)點(diǎn)連接模式,這樣隨機(jī)網(wǎng)絡(luò)一下子就不隨機(jī)了,變成了一種奇怪的,被巴拉巴西稱為“無尺度”(Scale-free) 網(wǎng)絡(luò)。從這個(gè)網(wǎng)絡(luò)里,學(xué)者們發(fā)現(xiàn)了很多很多有意思的現(xiàn)象,并且表明這個(gè)星球上,如果不是所有那也是絕大部分的網(wǎng)絡(luò),都是無尺度網(wǎng)絡(luò)。所以巴拉巴西后來得意洋洋的主要根據(jù)自己的研究結(jié)果,寫了兩本暢銷并且極其忽悠的書:《鏈接》和《爆發(fā)》。問題就來了:巴拉巴西你這要干啥的?吃飽了撐得沒事干,寫兩本書出來娛樂娛樂大眾?你要這么想,那你就錯(cuò)了。巴拉巴西的目標(biāo)很明確:拿諾獎(jiǎng)?墒菃栴}又來了:網(wǎng)絡(luò)這東西,給你發(fā)個(gè)啥獎(jiǎng)?跟化學(xué)不沾邊,那發(fā)個(gè)物理獎(jiǎng)吧。物理獎(jiǎng)?怎么可能啊,物理領(lǐng)域等著拿獎(jiǎng)的多了去了,你看人家希格斯辛辛苦苦的活著為的啥?還不是為了等著拿獎(jiǎng)。所以巴拉巴西要想在物理這個(gè)領(lǐng)域拿獎(jiǎng),難度真的不是一般的高。所以,后面的事情就很容易理解了:生物。如果網(wǎng)絡(luò)的理念能夠解釋生物學(xué)的現(xiàn)象,并且像分子動(dòng)力學(xué)(MD)這樣扎扎實(shí)實(shí)的用到生物學(xué)和醫(yī)學(xué)里去,做出重大的貢獻(xiàn),那既有可能拿生理學(xué)獎(jiǎng),也可以仿照MD殺回去拿他的物理獎(jiǎng)。所以瞄準(zhǔn)生物就等于給網(wǎng)絡(luò)研究上了個(gè)雙保險(xiǎn),反正只要上到應(yīng)用,跟諾獎(jiǎng)那幫評委們就有討價(jià)還價(jià)的余地了。
當(dāng)然上面一段是大背景啦。具體到本例,那就是目前生物學(xué)網(wǎng)絡(luò)存在一個(gè)現(xiàn)象:我用芯片做基因表達(dá)譜的分析,觀測到有些基因表達(dá)與其他基因的表達(dá)是正相關(guān)或者負(fù)相關(guān),但是生物分子存在直接或間接的相互作用關(guān)系,因此,怎么從這些關(guān)聯(lián)的數(shù)據(jù)里發(fā)現(xiàn)直接的調(diào)控關(guān)系?好吧,我知道這個(gè)問題描述的有點(diǎn)兒抽象,舉個(gè)形象點(diǎn)兒的例子:我和小伙伴們一起在操場上踢球,老馬控球,以嫻熟的技術(shù)過了我,我不高興了,二話不說上去一腳直接把老馬踹翻。其他小伙伴諸如老貓、老狗、老羊等一看:哇,這么兇猛!嚇得腿發(fā)軟,紛紛自動(dòng)躺地上不動(dòng)了。好,小兔子正好經(jīng)過,一看,哇?這小子一腳踹翻這么多?第二天科學(xué)網(wǎng)博客頭條:華工某教授神功蓋世一腳踹翻數(shù)十位同事?闯鰡栴}了吧?就直接的關(guān)聯(lián)來說,我的腳只踹到老馬身上,就這一個(gè)是直接的“相互作用”,其他人躺地上不動(dòng)了關(guān)我毛事啊?那都是醬油,不算數(shù)的(本例隆重感謝老馬友情客串,故事純屬虛構(gòu),模仿有礙團(tuán)結(jié))。所以生物學(xué)家們關(guān)心的,是直接的相互作用關(guān)系,因?yàn)橹苯拥年P(guān)系才可能發(fā)現(xiàn)重要的調(diào)控關(guān)系,并有助于進(jìn)一步的功能研究。而間接的關(guān)系一般來說木有任何的說服力,所以這種信息屬于垃圾信息。
因此,這兩篇文章要解決的問題,就是從關(guān)聯(lián)數(shù)據(jù)里尋找直接或間接的分子間互相作用,也就是網(wǎng)絡(luò)里關(guān)鍵“邊”(linkage or edge)的預(yù)測。第一篇論文2012年10月22日投稿,2013年4月23日接收;第二篇論文2012年9月12日投稿,2013年6月11日接收。兩篇論文在線發(fā)表了之后,立即引來各種爭議,其中咱國內(nèi)一位數(shù)學(xué)功底奇好的前輩高人,看見這兩篇論文氣的暴跳如雷:這也能叫數(shù)學(xué)?二話不說把自己正在做的東西也投了Bioinformatics:
3. Yu X1, Li G, Chen L. (2013) Prediction and early diagnosis of complex diseases by edge-network. Bioinformatics. 2013 Nov 29. [Epub ahead of print]
這篇論文怎么樣,我反正不說。當(dāng)然你要是認(rèn)為發(fā)在NBT上的論文怎么說都應(yīng)該比Bioinformatics的好,那我只能呵呵了。陳老師雖然是咱華工電信系的校友,可是他跟數(shù)學(xué)界鼎鼎有名的大家章先生合作多年,數(shù)學(xué)的水準(zhǔn)絕對的專業(yè)級的,發(fā)NBT這兩位的數(shù)學(xué),呵呵,加起來也未必趕得上。所以咱國內(nèi)的生信學(xué)者,牛人照樣有的是。
說正事,說正事。因?yàn)榘屠臀髦皇菍儆凇斑B帶”,所以萊爾其實(shí)批評的很客氣。上來先吹捧一下,說這個(gè)鏈預(yù)測很重要啊,所以巴拉巴西弄個(gè)矩陣變換,變換完了這個(gè)計(jì)算的時(shí)間復(fù)雜度是O(n^6),萊爾看到這二話不說先去了趟茅房,回來之后萊爾一琢磨,舉了個(gè)簡單的例子,即包含三個(gè)節(jié)點(diǎn)的圖,發(fā)現(xiàn)時(shí)間復(fù)雜度其實(shí)只有O(n^4),并且如果并行化的話,可以降到O(n^3)。當(dāng)然這個(gè)沒完,因?yàn)榘屠臀鞯乃惴ㄆ鋵?shí)是根據(jù)某個(gè)矩陣G (全局效應(yīng),也就是基因表達(dá)的關(guān)聯(lián)信息)求另一個(gè)矩陣S (局部效應(yīng),也就是直接相互作用關(guān)系)。這就牽涉到矩陣求逆的問題,問題是巴拉巴西的求逆第一是求近似解,第二是搞的還特麻煩。萊爾發(fā)現(xiàn)其實(shí)有一個(gè)更簡單的方法求精確解,因此評論道:這玩意兒的難度充其量也就是本科生線性代數(shù)的家庭作業(yè)(the entire exercise would be suitable for an undergraduate linear algebra homework problem)。當(dāng)然這不算晚,萊爾還順道指出,巴拉巴西這個(gè)算法沒有辦法直接從實(shí)驗(yàn)里估算參數(shù);陳老師當(dāng)然是繼續(xù)指出:這個(gè)算法還要求樣本的規(guī)模比變量多(注:陳老師近年來以“小樣本、無重復(fù)”的理念名震領(lǐng)域,主要是生物學(xué)實(shí)驗(yàn)一般都比較費(fèi)錢、費(fèi)時(shí)間,巴拉巴西的模型里參數(shù)超多,樣本如果比參數(shù)多,那基本上是不具有任何實(shí)用價(jià)值的!靶颖、無重復(fù)”,或者少重復(fù),這是計(jì)算生物學(xué)者必須面對也必須盡力解決的問題,無限實(shí)驗(yàn)是不可能的)。最后,萊爾指出,這玩意兒吧,其實(shí)準(zhǔn)確性比已有的算法提高的非常有限,也就是巴拉巴西論文里Fig. 3C里說的,AROC從0.67上升到0.68(不解釋了成不?總之就是改進(jìn)了一個(gè)百分點(diǎn),就一個(gè)),所以根本就不能稱為啥新算法。因此,巴拉巴西的網(wǎng)絡(luò)是“依壁雕鑿”的。
在第一篇博文即將結(jié)尾的時(shí)候,萊爾充分的展現(xiàn)了其作為一個(gè)數(shù)學(xué)家的嚴(yán)密推導(dǎo)能力,力圖證明網(wǎng)絡(luò)皇帝這么多年其實(shí)一直是在裸奔:
1. 巴拉巴西以“BA模型”(無尺度網(wǎng)絡(luò)模型,最早用在互聯(lián)網(wǎng)分析上)出名 (Barabási and Albert ‘Emergence of Scaling in Random Networks“, Science, Vol. 286 15 October 1999, pp. 509-512)。Lada Adamic和Bernardo Huberman 立即指出這個(gè)模型其實(shí)與實(shí)際觀測到的網(wǎng)頁鏈接結(jié)構(gòu)是不符合的。Willinger, Alderson和Doyle指出,無尺度網(wǎng)絡(luò)的確具有某些有趣的數(shù)學(xué)特性,但這些數(shù)學(xué)不是巴拉巴西,而是Bollobás和Riordan做的。
2. 巴拉巴西反復(fù)的強(qiáng)調(diào)代謝網(wǎng)絡(luò)是無尺度網(wǎng)絡(luò)里的一個(gè)代表性的例子,但是Reiko Tanaka的論文“Scale Rich Metabolic Networks”指出說代謝網(wǎng)絡(luò)里木有尺度是扯淡,尺度是rich的。
3. Réka Albert, Hawoong Jeong & Albert-László Barabási 2000年發(fā)表在Nature的論文里,指出復(fù)雜網(wǎng)絡(luò)面對錯(cuò)誤的耐受性和面對攻擊的脆弱性(《鏈接》這本書里的最核心的理念)。John Doyle在PNAS上專門發(fā)了篇文章,指出這種“耐受性”其實(shí)也極為脆弱,從頭到尾把巴拉巴西批個(gè)遍。
4. 巴拉巴西在2005年發(fā)表的Nature論文”The origin of bursts and heavy tails in human dynamics”,指出人類的活動(dòng)具有爆發(fā)性的特征(《爆發(fā)》這本書里的核心理念)。Daniel Stouffer, Dean Malmgren and Luis Amaral在隨后的評論里指出這玩意兒就是個(gè)人造的(artifact) 的結(jié)果,并且被分析的電子郵件模式也不具有代表性。
5. Liu, Slotine and Barabási在2011年發(fā)表的Nature論文“Controllability of complex networks”,指出致密的、均一的網(wǎng)絡(luò)可以通過少數(shù)幾個(gè)驅(qū)動(dòng)節(jié)點(diǎn)來調(diào)控。Carl Bergstrom和同事認(rèn)為對于絕大多數(shù)網(wǎng)絡(luò),其實(shí)只需要控制一個(gè)節(jié)點(diǎn),就能調(diào)控整個(gè)網(wǎng)絡(luò)。
寫到這里,兄弟我真想大吼一聲,萊爾你有完沒完?這架你打的累不累啊?就為你這場架,我寫的都寫累死了,你難道真的不累?
本部分結(jié)論:第一,萊爾從算法的角度嚴(yán)謹(jǐn)?shù)淖C明了網(wǎng)絡(luò)皇帝的數(shù)學(xué)也就是本科生的水平(我要哭出來了,兄弟我看不懂啊,好多同行看的也是稀里糊涂的,難道咱這幫都是中學(xué)的水平?我的自尊受到了森森的傷害);第二,巴拉巴西的幾個(gè)主要概念,比如BA模型,代謝網(wǎng)絡(luò)的無尺度性,網(wǎng)絡(luò)容錯(cuò)性、爆發(fā)特征和絡(luò)可控性,都被同行們批的焦頭爛額,所以;第三,陛下你還是穿上衣服吧,別光著屁股受涼了。
不好意思,本來準(zhǔn)備今天一天寫完。寫的實(shí)在太累了。尤其是“光腚五條”,我的的確確是木有精力挨篇看完,就算是萊爾指責(zé)巴拉巴西的算法有問題,看的也是稀里糊涂,所以,看到這兒,我想你能夠明白:萊爾真是超牛!當(dāng)然你還得清楚,萊爾的打擊目標(biāo)是曼諾利斯,所以,接下來的場面,比上述的要?jiǎng)疟亩,震撼的量級大為提升?br />
最后,雖然我數(shù)學(xué)是個(gè)渣,但我圈兒里同行們可基本上都比我的數(shù)學(xué)好,所以寫這篇博文之前我專門請教了各位同行好友,這里特此鳴謝:Shirley,陳老師,師兄,丹丹師弟,和世華兄。都是高手啊,三兩句一點(diǎn)撥,馬上茅塞頓開,佩服佩服啊!
=============================================================================
1. 2.26,昨晚收到好友的信,指出博文里的幾處錯(cuò)誤,趕緊修改了一下。另外,巴拉巴西這個(gè)算法的矩陣求逆,老實(shí)說不怎么困難,線性代數(shù)我現(xiàn)在是忘干凈了,但問題是當(dāng)年上課的時(shí)候,這種求逆并不是什么不得了的難題。所以萊爾說的有道理。
憤怒的萊爾帕切特【二】:曼諾利斯你趕緊撤稿得了 精選
已有 4177 次閱讀 2014-2-26 13:15 |系統(tǒng)分類:觀點(diǎn)評述
郁悶了,萊爾的博客三部曲痛扁NBT的網(wǎng)絡(luò)研究論文,我這湊熱鬧的觀戰(zhàn)評論看來也得寫三篇了。好吧,這是第二篇,終于講到正題上了,前面只是開口羹而已。先嘮叨幾句,八一八萊爾其人。首先,這場架里,無論是挑釁者,還是挨打者,都不是泛泛之輩。網(wǎng)絡(luò)皇帝那就不用說了,有死忠跳出來力挺的,這個(gè)正常,能被大家稱為皇帝的,水平豈能一般?裸奔的皇帝,那也是皇帝。所以喜歡的必然是鐵桿,不喜歡的也是一貫的痛恨,能有這么大的爭議,那也說明他這皇帝沒有白當(dāng)。還有,萊爾批人的風(fēng)格一貫是痛打,批評巴拉巴西這篇其實(shí)已經(jīng)是很客氣了。這是有原因的,因?yàn)榘屠臀魅似泛,能力?qiáng)還能不得罪人,屬于人見人愛型的,又是一副帥鍋形象,所以大家即使嘀咕他的學(xué)術(shù),但對他為人基本上是沒有什么意見的。所以搞學(xué)術(shù)人品好真是太重要了。
萊爾既然敢跳出來硬憾網(wǎng)絡(luò)皇帝,自然也不是一般人。首先,他這個(gè)伯克利的教授肯定不是混出來的,他在生信這個(gè)領(lǐng)域里最有名的兩個(gè)軟件TopHat和Cufflinks,這個(gè)做基因組測序數(shù)據(jù)分析的人應(yīng)該是都必須得知道,這倆都是分析RNA-seq數(shù)據(jù)的利器。萊爾在Google Scholar上的接近2萬5的引用,也很容易說明萊爾起碼是穩(wěn)定的一流上的學(xué)者?此难芯繂挝荒阋材苊靼姿难芯勘尘昂脱芯颗d趣,數(shù)學(xué)好肯定是沒話說。
如果說,對于巴拉巴西,萊爾只是在恭維一番之后輕飄飄不痛不癢的踩了幾腳而已,那對于曼諾利斯來說,萊爾可就沒有那么好的脾氣了。萊爾在博文的第一段就直接指控曼諾利斯等人的論文“也”是“不誠實(shí)和欺詐的”(also dishonest and fraudulent)。奇怪啊,為什么用“也”呢?皇帝得跳出來表示他是無辜的。這個(gè)用詞的分量很重,重到什么程度?可以直接讓人身敗名裂。
怎么指責(zé)呢?首先,萊爾總結(jié)這兩篇論文的方法學(xué),都提到同一個(gè)名詞:“網(wǎng)絡(luò)去卷積”(network deconvolution),陳老師的論文里用的也是這詞。這個(gè)方法不知道是哪位學(xué)者在哪個(gè)領(lǐng)域里最先提出來的,但拿來分析生物學(xué)網(wǎng)絡(luò),這還是首次,所以從新穎性上來說,這種技術(shù)歷來是NBT, Science等雜志最喜歡的話題。就問題描述和背景介紹方面,曼諾利斯寫的比巴拉巴西更清楚,也更簡單:通過實(shí)驗(yàn)數(shù)據(jù)觀測到的關(guān)聯(lián)網(wǎng)絡(luò)里,有直接相互作用和間接相互作用,如何去除間接效應(yīng)的影響獲得直接的相互作用關(guān)系?此外,曼諾利斯的數(shù)學(xué)模型比巴拉巴西做的簡單,更加優(yōu)美。巴拉巴西是將整個(gè)觀測到的數(shù)據(jù)作為一個(gè)矩陣G求直接相互作用的矩陣S。而曼諾利斯做了大膽的假設(shè),即觀測到的矩陣G(obs)=G(dir)+G(dir)^2+G(dir)^3… 這里面G(dir)就是直接相互作用,G(dir)^2是咋回事呢?這是描述一個(gè)節(jié)點(diǎn)通過另一個(gè)節(jié)點(diǎn)與第三個(gè)節(jié)點(diǎn)之間的間接作用;所以舉一反三,G(dir)^3就是第一個(gè)節(jié)點(diǎn)通過中間倆節(jié)點(diǎn)與第四個(gè)節(jié)點(diǎn)之間的間接作用。因此,無論這個(gè)網(wǎng)絡(luò)有多大,G(obs)都可以寫成G(dir)的函數(shù)。這樣利用高中數(shù)學(xué)的知識,G(obs)~=G(dir)/[I-G(dir)],把這個(gè)公式變形,根據(jù)G(obs)可以直接算G(dir),也就是求近似解。這樣矩陣?yán)锏膮?shù)的個(gè)數(shù)就大大減少了,并且過擬合(overfitting)的可能性也大大減小了。
但是這樣問題就來了,萊爾非常敏銳的發(fā)現(xiàn)了G(dir)+G(dir)^2+G(dir)^3…= G(dir)/[I-G(dir)]有一個(gè)很強(qiáng)的限制,那就是數(shù)列必須得是無窮的,對吧?可是學(xué)過網(wǎng)絡(luò)的人應(yīng)該都知道“六度空間”這個(gè)說法:人類社交網(wǎng)絡(luò)節(jié)點(diǎn)的度數(shù)不是無限的,平均是6度;對于萬維網(wǎng)來說,《鏈接》這本書講的是19度。無論這個(gè)度數(shù)是6還是19,這都表明真實(shí)的無尺度網(wǎng)絡(luò)里,數(shù)列無窮的假設(shè)其實(shí)是不成立的。并且,很顯然,從直覺上來說,網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),或者節(jié)點(diǎn)的平均度數(shù),對這個(gè)近似的估算會(huì)造成相當(dāng)?shù)挠绊。問題是怎么消除這種影響呢?這就得說曼諾利斯真是夠大膽的,他悄悄地加了一個(gè)縮放參數(shù),把公式變?yōu)椋篏(obs)=γ* [G(dir)+G(dir)^2+G(dir)^3…],這事兒他在正文里可不說,放到補(bǔ)充材料里去了(這個(gè)是絕對不能說的,給審稿人看見這個(gè),論文估計(jì)就沒可能發(fā)NBT了),輕描淡寫的提了一下,認(rèn)為這種線性放縮是木有影響的(“the effect of linear scaling on the input matrix is that … it does not have an effect”),萊爾立即指出這是不可能的。
所以我們現(xiàn)在知道:第一,根據(jù)無窮數(shù)列可以簡化成簡單的公式求近似解;第二,因?yàn)閿?shù)列不是無窮,所以必須加一個(gè)放縮的系數(shù)。這個(gè)問題就來了:這個(gè)系數(shù)你咋來的?很顯然,兩種方法,要么你瞎掰一個(gè)數(shù)字,要么你從已有的訓(xùn)練數(shù)據(jù)里通過數(shù)據(jù)擬合獲得,對吧?這個(gè)放縮參數(shù)γ,在經(jīng)過一系列公式推導(dǎo)和變形之后,變成另一個(gè)放縮參數(shù)β,還是參數(shù),然后根據(jù)這玩意兒就可以用G(obs)求解G(dir)。好,這回是真正有問題了。這就得講到DREAM (Dialogue for Reverse Engineering Assessments and Methods, 反向設(shè)計(jì)評估與方法的競賽),這個(gè)比賽主要是建立實(shí)驗(yàn)與細(xì)胞網(wǎng)絡(luò)推斷和定量建模理論研究之間的聯(lián)系。DREAM想回答的基本問題就是,從生物學(xué)數(shù)據(jù)里能否推斷真實(shí)的生物分子的相互作用以及網(wǎng)絡(luò)。其中2010年DREAM5里的一個(gè)比賽項(xiàng)目是“Network Inference Challenge”(網(wǎng)絡(luò)推斷挑戰(zhàn)),即根據(jù)基因芯片獲得的基因表達(dá)數(shù)據(jù),推斷分子的相互作用和調(diào)控關(guān)系。估計(jì)是當(dāng)時(shí)參賽的結(jié)果非常糟糕,例如曼諾利斯的論文就指出,“針對酵母的提高是因?yàn)樗械姆椒ù蚍侄己艿汀?the strong S. cerevisiae improvements are due to low scores for all methods),他夸自己的方法的同時(shí)把研究現(xiàn)狀說出來了。這個(gè)打分很低的問題,在生物學(xué)上有更合理的解釋,這個(gè)要放在下一篇博客里介紹。所以網(wǎng)絡(luò)去卷積的方法,主要還是用在大腸桿菌的調(diào)控網(wǎng)絡(luò)推斷上。
那么,萊爾說的這個(gè)“真正問題”,是什么呢?這就得說到生物信息學(xué)預(yù)測,其自身發(fā)展有一定的游戲規(guī)則,很多東西你可以忽悠,比如論文的討論部分,你拿著小喇叭使勁吹沒有關(guān)系,但有些基本性的問題,作為一個(gè)職業(yè)生物信息學(xué)家,你是絕對不可以越過底線的。這個(gè)底線就是,你不能既做裁判,又做運(yùn)動(dòng)員。你利用訓(xùn)練數(shù)據(jù)集估算參數(shù),可以;你利用估算的參數(shù)再來檢驗(yàn)算法對訓(xùn)練數(shù)據(jù)集的預(yù)測性能,這個(gè)也并不是說不可以,只是你必須必須聲明,因?yàn)檫@玩意兒叫“自洽檢驗(yàn)”(self-consistency validation),對搞生信的來說,這種檢驗(yàn)就是笑話,因?yàn)槟阒恍枰唵蔚赝ㄟ^修改參數(shù),必然可以把自洽檢驗(yàn)的性能做到極高。做不到?兄弟你聽說過“線性擬合”嗎?輕松做到靈敏度和特異性都100%,也就是對訓(xùn)練集達(dá)到100%的預(yù)測準(zhǔn)確性,這玩意兒實(shí)在木有任何技術(shù)難度,即使受過三個(gè)月生信訓(xùn)練的本科生,也能明白這東西其實(shí)就是造假。巴拉巴西的算法有好處,就是不需要什么額外的參數(shù),所以可以直接根據(jù)檢驗(yàn)數(shù)據(jù),也就是DREAM5提供的測試數(shù)據(jù)來直接推斷分子間的直接相互作用。當(dāng)然他這方法不可取,太麻煩,參數(shù)太多,并且也就提高一個(gè)百分點(diǎn)。曼諾利斯這套算法是必須要估算β參數(shù)的,那理論上應(yīng)該怎么操作呢?合理的做法是,他自己找一套訓(xùn)練集,先把β參數(shù)估出來,完了之后再用同樣的參數(shù)去預(yù)測檢驗(yàn)數(shù)據(jù),對不對?所以萊爾這就發(fā)現(xiàn)問題了,首先,曼諾利斯找了兩套不同的數(shù)據(jù)集來訓(xùn)練β參數(shù),分別是0.95和0.99,然后,他拿著訓(xùn)練好的模型去預(yù)測測試集。問題是,奇跡出現(xiàn)了,在預(yù)測測試集的時(shí)候,β參數(shù)變成了0.5!這就麻煩了,萊爾揪住這個(gè)0.5不放,說你這個(gè)0.5是咋來的?你是根據(jù)訓(xùn)練集估出來的嗎?那不合理啊,你估出來的是0.95和0.99,你難道是不小心寫錯(cuò)了嗎?這玩笑開大了吧。那你要不是根據(jù)訓(xùn)練集估出來的,莫非你是拿測試集估出來的?那這個(gè)玩笑開得就更大了:你拿著獨(dú)立的測試集來估參數(shù),你又拿著同樣的測試集來評估預(yù)測準(zhǔn)確性,這不成自洽檢驗(yàn)了?并且你文章里還不說,這不忽悠審稿人嗎?萊爾還繼續(xù)舉證,說這篇論文上線的時(shí)候,他就看過,還專門下載了正文和補(bǔ)充材料仔細(xì)閱讀,完了之后重復(fù)他們結(jié)果,愣是重復(fù)不出來,所以他寫信問作者,說你們這個(gè)β參數(shù)是你從訓(xùn)練集里估出來的嗎?估計(jì)曼諾利斯實(shí)驗(yàn)室的人收到這信還搞不清楚萊爾是何方神圣,就回信說,兄弟我悄悄告訴你,這個(gè)參數(shù)是不一樣的,你別跟別人說啊。后來作者們琢磨著這么玩兒不厚道啊,要是被人查出來就麻煩了,于是論文在線發(fā)表,正式出刊之前,他們又聯(lián)系編輯,把補(bǔ)充材料里的Fig. S4的描述文字改了一下,把不同的β參數(shù)都加上了。所以,各位可以看明白了,審稿人事先必然是認(rèn)為你拿著訓(xùn)練集估參數(shù),然后直接拿這玩意兒去預(yù)測新的數(shù)據(jù),獲得了好的性能,值得發(fā)NBT。好,等文章接收了,我再改過來,這樣以后有爭議,我可以高高興興說審稿人認(rèn)可啊,反正NBT正式出刊之后,之前的記錄會(huì)在網(wǎng)上刪掉,這樣誰也沒辦法指責(zé)我。問題是,不怕什么偷就怕什么惦記,13年7月這篇論文上線,8月正式出刊,就這么短短的一個(gè)多月的時(shí)間,這一點(diǎn)點(diǎn)小小的漏洞被萊爾敏銳的抓住了。真是夠狠啊。
我在12日下午第一次收到Shirley轉(zhuǎn)來的鏈接,點(diǎn)開萊爾的博文看到時(shí)候,當(dāng)時(shí)真是牙都笑掉了:人家就補(bǔ)充材料的Fig. S4里加上一句話,反正文章這么長,而且審稿周期這么長,作者不小心忘記給出β參數(shù)而已,至于這么小題大做嗎?我相信不光是我會(huì)這么考慮,就算是編輯,也想著作者加一句話,對這文章能有多大的影響?何況這句話都不在正文里,而是放在補(bǔ)充材料的一個(gè)小角落里,哪有人去看啊。反復(fù)看了兩個(gè)星期,再請教同行好友,終于琢磨明白了,這句話有還是沒有,對這篇文章是質(zhì)的影響:如果沒有這句話,那么同行們按照行業(yè)規(guī)則,重復(fù)你工作的時(shí)候會(huì)老老實(shí)實(shí)拿訓(xùn)練集來估參數(shù),完了之后拿著同樣的參數(shù)來預(yù)測測試集,好嘛,大家都做不出來,實(shí)驗(yàn)不能重復(fù)是必須要撤稿的,計(jì)算結(jié)果不重復(fù),那顯然是必須撤稿,F(xiàn)在加上這句話,大家看了會(huì)覺得奇怪,你拿測試集當(dāng)訓(xùn)練集,這種文章就算是投PLOS ONE,那也基本上是不可能接收的,因?yàn)閚ot technical sound,所以大家第一會(huì)覺得生物學(xué)家真是好騙,NBT這幫評委真是弱智啊,第二會(huì)非常佩服曼諾利斯:真不是一般的牛人啊,灌水都要跑NBT上灌。
所以,如果你認(rèn)可他論文接收時(shí)補(bǔ)充材料的版本,當(dāng)然這個(gè)版本是顯然經(jīng)過同行評議的,那么這篇文章必須撤稿,因?yàn)槿R爾寫的是,他看到文章之后就二話不說下載了作者提供的源代碼和數(shù)據(jù),重新算了一遍,結(jié)果文章里所有的結(jié)果都重復(fù)不出來,這不叫造假,這還能叫啥?但是如果你認(rèn)可他正式發(fā)表的論文,包括被同行評議的原文,以及同行沒有看見的那句至關(guān)重要的話,那這篇文章只能算是灌水,沒有什么學(xué)術(shù)不端,只能說評委們的智商太低。但是從必須撤稿轉(zhuǎn)變到灌水,這個(gè)過程并沒有同行評議,那么這里面是否存在學(xué)術(shù)不端?是否還應(yīng)該撤稿呢?
萊爾很不客氣的指出:如果能夠拿著這個(gè)代碼按他論文講的重復(fù)一遍,能做出文章里的結(jié)果,他就給這人100刀,當(dāng)然嘍,要是重復(fù)不出來,那可以考慮撤稿。在萊爾的博文發(fā)表之后,曼諾利斯迅速的做出回應(yīng),在博文發(fā)表當(dāng)天晚上8:31分,就在萊爾的博客里反駁,并貼出一個(gè)非正式的回應(yīng),措辭強(qiáng)硬的回?fù)暨@些指責(zé)都是“誹謗的、無根據(jù)的、誤導(dǎo)性的和其實(shí)是不對的”(defamatory, baseless, misleading, and factually incorrect),并且洋洋灑灑的寫了5頁,有圖有真相的樣子,證明他的方法對縮放參數(shù)不敏感,證明引入放縮參數(shù)的有效性,證明預(yù)測結(jié)果對于輸入的參數(shù)有穩(wěn)健性,等等。這回同行們徹底不干了,某前輩高人就跟我嘀咕,說曼諾利斯你跟他吵個(gè)啥啊?你就從實(shí)驗(yàn)室里找個(gè)學(xué)生,拿著原版的論文把結(jié)果重復(fù)一遍,你能重復(fù)出結(jié)果,那萊爾馬上就閉嘴了。問題是:誰敢?重復(fù)不出來那就真要撤稿了。所以,曼諾利斯接下來的舉動(dòng)非常符合常理,那就是保持沉默。
故事講到這里,基本上可以做個(gè)總結(jié)了。曼諾利斯以閃電般的速度成功把一個(gè)可以撤稿的故事轉(zhuǎn)變成一篇水文,萊爾以超越閃電般的速度迅速發(fā)現(xiàn)漏洞,并且順手就是一巴掌,打完了之后洋洋得意,四顧周圍叫囂著:還有誰?還有誰?還有王法嗎?還有法律嗎?沒有回應(yīng)。挨打的不吭氣了,看打架的正忙著吃爆米花、喝啤酒、抽香煙呢,哪有時(shí)間管這事兒,哥們繼續(xù)吧。
然后?沒有然后了。
憤怒的萊爾帕切特【三】:我揍你是為了你好啊你造嗎? 精選
已有 1136 次閱讀 2014-2-26 16:15 |系統(tǒng)分類:觀點(diǎn)評述
前兩篇博文一出,領(lǐng)域頓時(shí)沸騰了:生信從有這個(gè)領(lǐng)域開始,打架打成這個(gè)場面,科技含量這么高,不說絕后,最起碼也是空前了。咱搞生信的,跟其他領(lǐng)域做的東西不一樣,但有一個(gè)大家都是一樣的:超級喜歡八卦。其實(shí)大家都知道萊爾寫博客的風(fēng)格,喜歡搞噱頭,喜歡把人家一點(diǎn)點(diǎn)小小的問題無限放大痛批,喜歡夸大其詞。所以有人評價(jià),說萊爾發(fā)博客之后,你先別看,跑到Twitter上看看其他研究者有什么反應(yīng)。一般來說,10個(gè)里面有9個(gè)是反對他的結(jié)論,或者覺得過分夸大。但等你回來仔細(xì)看萊爾的博文,你發(fā)現(xiàn)他講的其實(shí)是對的。當(dāng)然師兄說萊爾也有失手的時(shí)候,那應(yīng)該算是小概率的事件,而且爭執(zhí)的本身也不傷筋動(dòng)骨。
兩篇博文各位人馬的反應(yīng)相當(dāng)?shù)牟灰粯,有些人就站出來,說萊爾是條漢子,好樣的,小喇叭你吹就吹吧,你整天吹那就不厚道了。所以師弟就說是該有人出來管管,再這么吹就是逆天的節(jié)奏了。另外一些人就跳出來反駁,痛斥萊爾的博文對生信這個(gè)領(lǐng)域是毀滅性的。果真如此?
當(dāng)然,在第一次看萊爾博文的時(shí)候,因?yàn)槲冶救耸蔷W(wǎng)絡(luò)皇帝的粉絲,所以覺得你這是雞蛋里硬挑骨頭,有爭議又能怎么地。坑袪幾h說明人家紅啊,你無非就是沒有人家名氣大,嫉妒唄,伯克利怎么有這么個(gè)心胸狹窄的教授啊,大學(xué)趕緊關(guān)門得了?吹降诙鷼饬耍喝思揖透牧艘痪湓,你夠了,行嗎?搞科研哪有不出錯(cuò)的時(shí)候?出了個(gè)錯(cuò)就吵成這樣?你還好意思做教授,跟潑婦似得。所以,在看到第三篇博文的時(shí)候,我已經(jīng)氣得暴跳如雷了。
我發(fā)火有道理,因?yàn)槿R爾太過分。萊爾博文的標(biāo)題是:我為啥要讀這些“依壁雕鑿”的網(wǎng)絡(luò)論文。博文上來就直接談到,2013年7月在柏林召開的ISMB會(huì)議(咱領(lǐng)域里頂級的會(huì),不過我沒參加過,一是審稿極嚴(yán),二是過于注重方法,三是會(huì)議論文很雞肋,國內(nèi)不算數(shù)的,學(xué)生也不能拿來畢業(yè),你要讓我拿看家的GPS來投這個(gè)會(huì)議,那你殺了我我也不干,舍不得啊),他在茶歇時(shí)間閑的無聊坐一邊望呆。突然,曼諾利斯走過來,說要跟他單獨(dú)談?wù)劇U勆读?是這樣的,曼諾利斯解釋說,他12年9月在Science上發(fā)表了一篇ENCODE計(jì)劃里論文,主要是談人類演化出來之后獲得的調(diào)控功能受到了很強(qiáng)的凈化選擇。論文一經(jīng)發(fā)表,萊爾立即寫了篇評論送給Science,說這篇文章的統(tǒng)計(jì)方法有問題,接著指出了一些小問題,結(jié)果Science一看這么技術(shù)性的指責(zé),二話不說就給拒了。所以萊爾只好把這篇評論貼到預(yù)印本文庫(這篇評論已經(jīng)打不開了)里。當(dāng)然,關(guān)于GO統(tǒng)計(jì)的問題,不做過多評論,如果你從數(shù)學(xué)的角度來講,這是有問題的,但如果你從生物學(xué)功能的角度來講,其實(shí)不是問題。而且這樣的批評萊爾寫的太多了,一般都無傷大雅,對曼諾利斯的影響基本接近為零。問題是,曼諾利斯解釋道,這篇批評在Google上排的很靠前,這個(gè)對他很不方便,而且他認(rèn)為萊爾在預(yù)印本這種地方貼他的批評,這種方式是錯(cuò)誤的,因?yàn)樗荒芊瘩g。曼諾利斯建議,你有意見,挺好,別發(fā)網(wǎng)上,影響不好。并且,預(yù)印本文庫不好的地方是,發(fā)表的東西不能刪除,不像期刊,補(bǔ)充材料還可以修改,但是預(yù)印本會(huì)記錄作者所有的操作。
萊爾的反應(yīng)?首先是很困惑,接著就發(fā)火了。他覺得,我的技術(shù)性評論被Science拒稿,只好投到預(yù)印本文庫上,這也是最后一種學(xué)者可以表達(dá)他對領(lǐng)域關(guān)注的方式,難道這么做是錯(cuò)的?難道曼諾利斯就批評不得?(所以第一次看到這里其實(shí)我在偷偷的笑:NS這些雜志從來就不關(guān)注細(xì)節(jié)的技術(shù)性問題,那這東西投Science當(dāng)然上不去)
當(dāng)然,上述這件事情只是壓死駱駝的最后一根稻草,因?yàn)槿R爾接著就敘述,早在2007年,因?yàn)樯诺牧硪粋(gè)會(huì)議RECOMB審稿的問題,他對曼諾利斯已經(jīng)有了成見。當(dāng)時(shí)曼諾利斯等人向這個(gè)會(huì)議投稿了一篇文章,那時(shí)候,其已經(jīng)是領(lǐng)域內(nèi)冉冉升起的新秀,風(fēng)頭強(qiáng)勁。會(huì)議主辦方當(dāng)然是高度重視,于是給送審,其中一個(gè)審稿人就是萊爾。萊爾一看這論文就覺得有問題,當(dāng)然,仍然是方法學(xué)的問題。這里就不討論曼諾利斯這個(gè)方法學(xué)是否真的有問題,但萊爾作為這篇論文的審稿人之一,他給出的評審意見是拒稿。但最終的結(jié)果是,論文發(fā)表了。這幾天同行前輩告訴我一件趣事,說萊爾喜歡拒稿是出名的,國內(nèi)舉辦了一個(gè)國際會(huì)議,請他審稿,他的意見是拒,結(jié)果后來收了,他氣得暴跳如雷,打電話痛罵主辦方,說這么爛的文章你們怎么能收呢?有些人是出了名的喜歡拒稿,不管你做成啥樣,他都能給你挑出一堆毛病然后拒掉。這事兒以前看海良的博文也講過,說搞了個(gè)會(huì),請一位大牛審稿,結(jié)果論文統(tǒng)統(tǒng)拒掉。結(jié)果大家傻眼了,一篇文章不錄取,這會(huì)還咋開啊?所以趕緊換人審稿,怎么說也得收個(gè)幾篇。這種事兒哪個(gè)領(lǐng)域都應(yīng)該是有的:自己的東西永遠(yuǎn)應(yīng)該接收,別人的東西永遠(yuǎn)應(yīng)該拒掉。要是人人都這么干,那誰也別發(fā)文章得了。所以估計(jì)RECOMB會(huì)議組織這一看曼諾利斯的文章被拒掉了,大吃一驚,趕緊換人審稿,這種風(fēng)頭正勁年輕學(xué)者還是少得罪的好,所以文章收了。然后就是萊爾很生氣,后果自然也非常嚴(yán)重,第一,從此以后再也不參加RECOMB的會(huì)議,第二,從此對曼諾利斯有了森森的成見。所以這倆的梁子,就這么結(jié)下來了。這個(gè)就屬于個(gè)人成見影響學(xué)術(shù)評價(jià)了,理論上來說,你對這個(gè)人有先入為主的成見,那你對他批評的可信程度就得大打折扣了,對吧?曼諾利斯一看有機(jī)可乘,二話不說在博客的評論里寫到,萊爾對我們RECOMB論文的批評我是第一次知道(complete news),并且這種批評也是毫無根據(jù)的。并且表示了真誠的震驚,悲哀和麻煩的 (frankly shocked, saddened, and troubled)。他這個(gè)評論剛發(fā)出來,底下馬上就有人跟帖,說兄弟你別在那里裝無辜了成不?萊爾在博文里提到你的論文有問題,并給出拒稿意見之后,你自己又根據(jù)質(zhì)疑修改了論文。所以你知道這事兒了好吧。所以,你按照意見修改了論文,是吧?啥時(shí)候啊,是在人家審稿前還是審稿后?還有,如果你沒按意見改文章,那你反駁個(gè)毛?
講完這些,萊爾繼續(xù)講生信領(lǐng)域里方法學(xué)的問題,那就是方法學(xué)很重要,大家做模型、做數(shù)學(xué)、做算法,不能老是踩著西瓜皮做,滑哪兒做哪兒,生物學(xué)家你要忽悠也成,有個(gè)度就行了,別往死了忽悠還以此為樂,忽悠到同行都看不過去了,那就真是麻煩了。當(dāng)然了,搞生物的數(shù)學(xué)、物理這些東西一般都不怎么好,這是現(xiàn)實(shí),比如,我們做生信,講到算法啦,模型啦之類的,聽眾馬上給打斷,說不好意思,你這數(shù)學(xué)太難了,我看不懂。所以萊爾表示很疑惑,那就是:人家數(shù)學(xué)學(xué)得不好,難道你就可以沒完沒了的忽悠人家?所以,他認(rèn)為,搞計(jì)算生物學(xué)的同行們做研究應(yīng)當(dāng)更加嚴(yán)肅一些。所有人在做期刊的評委,基金委員會(huì)的評委,或者各種組委會(huì)的成員,大家的態(tài)度都一樣,那就是少“樹新蜂”,多談?wù)効茖W(xué)。對吧?這個(gè)恐怕不光是國外,國內(nèi)也一樣啊,大家都是天天講,做科研要扎實(shí),不要玩忽悠。所以,萊爾的結(jié)論是:不要忽悠生物學(xué)家,不要忽悠計(jì)算學(xué)家,統(tǒng)計(jì)學(xué)家和數(shù)學(xué)家 (Don’t fool the biologists. Don’t fool the computer scientists, statisticians, and mathematicians)。
講到這里,我想各位自有判斷。對,有不少學(xué)者也表示,你那是對人家有成見在先,天天惦記著修理人,你這批評咋還好意思發(fā)出來?當(dāng)然有不少學(xué)者認(rèn)為:講學(xué)術(shù),那就扎扎實(shí)實(shí)的講學(xué)術(shù),萊爾是有成見,可是他說的對不對?他講錯(cuò)了大家都鄙視他,他要是講的對,你不能說因?yàn)樗谐梢娔蔷妥兂慑e(cuò)的了。這篇博文發(fā)表之后,評論真是很精彩,不過實(shí)在太長了,我也沒耐心看完。但讀者很多不乏領(lǐng)域里的重量級學(xué)者,例如瑞士洛桑大學(xué) (UNIL)的Marc Robinson-Rechavi教授,第一個(gè)寫評論說感謝你寫了這么多廢話 (Thank you for writing these posts),并且你做了這么多的事情,這些東西也寫不到你的簡歷里去。然后繼續(xù)說,我看見有人譴責(zé)你批評人的方式,如果是我,那我就不會(huì)按這種方式發(fā)帖,但令我震驚的是,某些科學(xué)家們有一種文化趨勢,即認(rèn)為同行之間面子的尊重比對事實(shí)和邏輯上的真實(shí)尊重更為重要。如果你錯(cuò)了,那就應(yīng)該讓人知道,但是暗示說這種揭短的方式是不禮貌的行為,那與我們這些科學(xué)家的職業(yè)操守是背道而馳的。另一位學(xué)者,瑞士巴塞爾大學(xué)的Erik van Nimwegen教授也評論,說兄弟我想告訴你的是,盡管我不能同意你每句話,但是我確實(shí)很好地理解了你為啥這么干,并且我對你正在努力做得事情表示深有共鳴。并且看了你的博客,我就納悶為啥我寫博客就不能寫成這樣呢?是不是因?yàn)槲覜]有足夠的勇氣,或者因?yàn)槠渌蛭也辉富〞r(shí)間做這種事兒呢?最后,Erik總結(jié)說,我認(rèn)為領(lǐng)域內(nèi)太多的頂級學(xué)者不愿意對糟糕的工作發(fā)表評論,我知道許多學(xué)者在私底下會(huì)討論某個(gè)學(xué)者在灌水,即使這樣的水文發(fā)表在高影響力的期刊上,但是絕大多數(shù)都不會(huì)在公開場合說。這件事情很重要,尤其是對剛剛進(jìn)入領(lǐng)域的年輕學(xué)者來說,應(yīng)當(dāng)?shù)靡庾R到很多人其實(shí)就是在灌水,所以應(yīng)該對研究非常的嚴(yán)格。
在總結(jié)之前,對于利用網(wǎng)絡(luò)去卷積的方法,從基因表達(dá)的關(guān)聯(lián)數(shù)據(jù)里預(yù)測真是的分子間直接相互作用,就預(yù)測的準(zhǔn)確性來說,不少同行是不相信的,或者部分不相信。有幾個(gè)原因,第一,無論用什么算法,你使用的訓(xùn)練數(shù)據(jù)的質(zhì)量是決定性的。如果你的數(shù)據(jù)質(zhì)量不是100%的準(zhǔn)確,例如,80%是對的,剩下20%是錯(cuò)的,你如果能用算法做到90%的準(zhǔn)確性,你覺得可能嗎?生物學(xué)的數(shù)據(jù)恰恰充滿了噪音 (noise),實(shí)驗(yàn)上都未必敢斷言必然是正確的,計(jì)算怎敢做此推斷?第二,分子間的相互作用,發(fā)生在什么層面?你用基因表達(dá)芯片檢測基因表達(dá)的水平,那自然是檢測mRNA的存在與表達(dá)水平,對不對?可問題是分子間的相互作用,可以是轉(zhuǎn)錄,轉(zhuǎn)錄后和翻譯后三個(gè)層面的調(diào)控關(guān)系,并且這三層調(diào)控關(guān)系,互相之間不必須有關(guān)聯(lián)。例如,蛋白質(zhì)-蛋白質(zhì)相互作用,和激酶-底物的磷酸化調(diào)控,這倆跟mRNA的共表達(dá)或者不共表達(dá)可能僅存在微弱的關(guān)聯(lián),或者完全無關(guān)。這里,我們再次邀請老馬出場,把“老馬模型”拿出來再講講。球場上,我有幾條腿?兩條。腿的個(gè)數(shù)可以看成是mRNA的個(gè)數(shù),我用一條腿踹倒一個(gè)老馬,那這個(gè)踹人的腿就是一個(gè)蛋白質(zhì),而老馬可以是這個(gè)蛋白質(zhì)的相互作用分子,F(xiàn)在問,我有10條腿,能踹倒幾個(gè)老馬?當(dāng)然你可以建立模型,說這個(gè)簡單,1條腿支持,剩下9條腿踹人,能踹倒9個(gè)老馬。所以這里就等于是10個(gè)mRNA分子翻譯出來的蛋白質(zhì),其中9個(gè)與另外9個(gè)其他分子相互作用。理論上應(yīng)該是這樣的,對吧?問題是現(xiàn)實(shí)情況未必如此,例如,我一條腿小宇宙爆發(fā)了(比如磷酸化),就這一條就踹翻9個(gè)老馬,可以不?這個(gè)在實(shí)驗(yàn)上來說,合理,激酶蛋白質(zhì)表達(dá)量不變,其單純活星的改變,可以影響底物修飾狀態(tài)的水平。換種情況,比如說哥們我不高興了,要兩條腿支撐,剩下8條腿踹倒8個(gè)老馬,可以嗎?這在實(shí)驗(yàn)上同樣可以,因?yàn)榈鞍踪|(zhì)可以被降解,所以蛋白質(zhì)的表達(dá)水平與其mRNA的表達(dá)水平,不需要有必然的聯(lián)系。所以,從基因表達(dá)數(shù)據(jù)里推測不同層次的分子間相互作用,這個(gè)問題本身就強(qiáng)人所難了。這也是為什么我從來不參加領(lǐng)域內(nèi)任何各種競賽的原因:你把大家栓的跟個(gè)粽子一樣,然后要大家比較誰的游泳姿勢更優(yōu)美,這種比賽有啥意思呢?就算我拿了冠軍,一個(gè)大粽子在那里拱啊拱的跟個(gè)蛆一樣,優(yōu)美還能優(yōu)美到哪里去?所以這個(gè)命題本身是有嚴(yán)重的理論缺陷的。當(dāng)然這個(gè)不是我看到的最搞笑的命題,更搞笑的是去年有個(gè)比賽,要求利用基因表達(dá)數(shù)據(jù)預(yù)測蛋白質(zhì)的磷酸化!當(dāng)時(shí)我就震撼了:違背常識了。當(dāng)然你非要跟我爭說這個(gè)可以做,那我也表示理解,反正找個(gè)機(jī)器學(xué)習(xí)算法,啥問題不能算?你要是允許我出千,放個(gè)自洽檢驗(yàn)?zāi)贸鋈ズ鲇,那我給你做到準(zhǔn)確性100%毫無壓力。但這東西做了那不也就是個(gè)笑話?所以各種比賽,我認(rèn)為應(yīng)當(dāng)舉辦,大家認(rèn)認(rèn)真真想辦法解決問題,但也就樂一樂拉倒了,別太當(dāng)真,反正超出我理解范圍之外的比賽我是沒有本事參加。
那么,命題本身有問題,是不是就不值得研究?那倒不是。因?yàn)閺某錆M噪聲的生物學(xué)數(shù)據(jù)里獲取有價(jià)值的信息,就是生信學(xué)者必須面對的問題,納稅人拿錢給你發(fā)工資,那你就別抱怨,盡自己所能做到方法學(xué)能做到的極致。這個(gè)要求并不過分,對吧?一般來說,生信的預(yù)測不可能達(dá)到100%準(zhǔn)確,往往都存在著理論的上限。例如當(dāng)年著名的二級結(jié)構(gòu)預(yù)測問題,有學(xué)者就把已知結(jié)構(gòu)的蛋白質(zhì)挑出來,看看相同或高度相似序列是否可以存在不同的二級結(jié)構(gòu),結(jié)果發(fā)現(xiàn)這個(gè)比例大約是18%(記不大清楚確切數(shù)字了),所以根據(jù)序列預(yù)測蛋白質(zhì)的二級結(jié)構(gòu),你從理論上來說,準(zhǔn)確性就不可以高于82%。很多學(xué)者做二級結(jié)構(gòu)的預(yù)測能做的相當(dāng)高比如78%,那這個(gè)算法其實(shí)去噪音的能力已經(jīng)非常強(qiáng)悍。而且這樣的準(zhǔn)確性對實(shí)驗(yàn)學(xué)家的后續(xù)實(shí)驗(yàn)已經(jīng)有足夠的參考意義。對于萊爾批評的這兩篇論文,就方法學(xué)而言,幾乎已經(jīng)做到登峰造極。曼諾利斯如果自己不搞事兒,他這個(gè)方法也還湊合了。所以,整個(gè)生信領(lǐng)域的學(xué)者,幾乎是盡自己的一切能力,努力的提高各種預(yù)測的準(zhǔn)確性,在沒有新的原理報(bào)道之前,盡力將算法的準(zhǔn)確性逼近理論上限,這樣的努力,不應(yīng)當(dāng)被批評。至于灌水,這個(gè)恐怕不能五十步笑一百步吧?更何況誰是五十步,誰是一百步,這還不一定的事情。
總結(jié):1. 萊爾對曼諾利斯的確有個(gè)人成見。尤其是曼諾利斯認(rèn)為公開揭他的短是錯(cuò)誤的這件事情,讓萊爾認(rèn)為自己受到了傷害,并且迅速的抓住曼諾利斯一個(gè)稍縱即逝的小把戲,重重地還了一擊。2. 萊爾的博文引發(fā)了大家諸多的思考,例如,對人有成見,是否其相應(yīng)的批評就可以不相信?如果就事論事,這件事情有人做錯(cuò)了,那是否就應(yīng)該是錯(cuò)的?3. 學(xué)術(shù)批評是否不應(yīng)該公開?我想這個(gè)問題不光是國內(nèi),你瞧國外也是一樣。那如果學(xué)術(shù)批評不公開,學(xué)術(shù)不端又怎么能被發(fā)現(xiàn)?這恐怕無論在國內(nèi)還是國外,都值得思考。4. 適度的、無傷大雅的、并且能引發(fā)大家思考的忽悠,這個(gè)蠻好而且值得鼓勵(lì)。網(wǎng)絡(luò)皇帝如果一點(diǎn)忽悠都不帶的,哪有人會(huì)關(guān)注網(wǎng)絡(luò)研究?萊爾寫博客如果不夸大其詞,他的博文還有誰看?不是原則性上的忽悠,沒有關(guān)系?墒呛鲇七^頭了,并且的的確確有學(xué)術(shù)不端的行為存在,那恐怕就不能無限的包容了。5. 生信是個(gè)高度交叉的學(xué)科,需要數(shù)學(xué)、物理、化學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)和生物學(xué),還有等等等等的學(xué)科的各種知識和背景,沒有哪位學(xué)者,能夠同時(shí)精通這么門學(xué)科的知識,因此,密切的合作和交流是必須的,至少在閱讀和思考萊爾博文的同時(shí),我請教了多位領(lǐng)域內(nèi)的學(xué)者和朋友,這是必須的。6. 萊爾批評人的模式,是非常符合網(wǎng)絡(luò)控制的理念:通過少數(shù)幾個(gè)或者一個(gè)關(guān)鍵性的節(jié)點(diǎn),就能調(diào)控整個(gè)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。所以,萊爾只批頂尖的大牛,不打小蝦米。這一點(diǎn)還是蠻厚道的。所以,Shirley開玩笑說萊爾現(xiàn)在的綽號叫“美版方舟子”,打假模式挺相似,都是誰紅敲打誰,這樣做從網(wǎng)絡(luò)調(diào)控的角度來說,是合理的。而且無論怎么說,萊爾對領(lǐng)域內(nèi)的不嚴(yán)謹(jǐn)現(xiàn)象多多少少有震懾的作用,對領(lǐng)域的健康發(fā)展有百利而無一害。無非就是大家做研究認(rèn)真點(diǎn)兒就完了,你不搞事,他批你又有何懼?7. 萊爾寫博客,首先萊爾本人是真的火了,博文走毒舌、勁爆的路子,而且搞數(shù)學(xué)的邏輯特嚴(yán)謹(jǐn),批人批的過癮。其次,對巴拉巴西和曼諾利斯來說,這兩位的知名度那也是更高了,對前者來說還好,Google搜索,批他的博文也就排在第9個(gè),畢竟人家學(xué)術(shù)影響力在那里,而且只是方法用的麻煩了一點(diǎn)兒,研究結(jié)果有點(diǎn)兒爭議,不懼;對后者來說,Google網(wǎng)頁排在第4個(gè),那可就真是個(gè)大麻煩了。至于其他上過萊爾博客的那些大牌學(xué)者,估計(jì)要偷著樂了:順帶著自己的影響力也增加啊,賺大了。8. 無數(shù)的問題,無數(shù)的挑戰(zhàn),這就是生信領(lǐng)域的研究現(xiàn)狀,是不是很有樂趣和做學(xué)術(shù)的動(dòng)力?對吧,所以還是生信有前途。
[ Last edited by dameng on 2014-2-26 at 19:15 ] |
» 收錄本帖的淘帖專輯推薦
» 猜你喜歡
» 本主題相關(guān)價(jià)值貼推薦,對您同樣有幫助:
|