4月18日,國(guó)際學(xué)術(shù)期刊PNAS 在線發(fā)表了中國(guó)科學(xué)院上海生命科學(xué)研究院生物化學(xué)與細(xì)胞生物學(xué)研究所系統(tǒng)生物學(xué)重點(diǎn)實(shí)驗(yàn)室陳洛南研究組題為Part mutual information for quantifying direct associations in networks 的最新研究成果。該成果首次提出“部分互信息”的新概念和理論,通過(guò)“部分互信息”量化網(wǎng)絡(luò)中節(jié)點(diǎn)之間的直接相關(guān)性,可實(shí)現(xiàn)由觀測(cè)數(shù)據(jù)直接構(gòu)建網(wǎng)絡(luò)。
在數(shù)據(jù)分析中,定量的標(biāo)識(shí)變量的直接依賴(lài)性是一件非常重要的事情,特別是對(duì)于科學(xué)和工程中各種類(lèi)型的網(wǎng)絡(luò)重構(gòu)和因果推斷問(wèn)題,都需要高精度的理論和方法。應(yīng)用的最廣泛的方法之一是偏相關(guān)性系數(shù)(partial correlation),但是偏相關(guān)性系數(shù)只能量化線性之間相關(guān)性和關(guān)聯(lián)性,從而忽略非線性的關(guān)聯(lián)性。然而,基于“條件獨(dú)立性”(conditional independency)的“條件互信息”(CMI: conditional mutual information)可以從觀察數(shù)據(jù)中量化變量之間非線性的直接關(guān)聯(lián)性,優(yōu)于線性的方法。但是,條件互信息存在著過(guò)低估計(jì)的問(wèn)題,因而嚴(yán)重限制它的應(yīng)用,特別是在網(wǎng)絡(luò)節(jié)點(diǎn)有強(qiáng)相關(guān)的網(wǎng)絡(luò)中,這個(gè)問(wèn)題就更加嚴(yán)重。
基于這個(gè)問(wèn)題,陳洛南研究組提出了全新的概念,即“偏獨(dú)立性”(partial independency)以及新的度量方法,又稱(chēng)作“部分互信息”(PMI: part mutual information),不僅能夠克服條件互信息的缺點(diǎn),同時(shí)還能保持互信息和條件互信息的性質(zhì)。特別是,陳洛南研究組首先定義了部分互信息用于量化變量之間的直接關(guān)聯(lián)性,然后從理論上給出部分互信息和互信息以及條件互信息之間的內(nèi)在聯(lián)系。通過(guò)數(shù)值實(shí)驗(yàn),陳洛南研究組證明了部分互信息的性質(zhì)和優(yōu)點(diǎn),接著通過(guò)用Escherichia coli和Yeast的基因表達(dá)數(shù)據(jù)重構(gòu)其基因調(diào)控網(wǎng)絡(luò),進(jìn)一步驗(yàn)證了部分互信息在量化網(wǎng)絡(luò)中非線性的直接關(guān)聯(lián)性的優(yōu)越性。該工作對(duì)大數(shù)據(jù)網(wǎng)絡(luò)研究提供了全新的概念和理論,不僅可用于生物分子網(wǎng)絡(luò)的高精度構(gòu)建,而且可以應(yīng)用于其他網(wǎng)絡(luò)(領(lǐng)域)中各種復(fù)雜因素的因果關(guān)系推斷。
該研究得到了中國(guó)科學(xué)院和國(guó)家自然科學(xué)基金委的經(jīng)費(fèi)支持。
比較PMI(X;Y|Z)和CMI(X;Y|Z)的統(tǒng)計(jì)功效。研究了十種不同類(lèi)型的關(guān)系,在變量X和Z關(guān)系由弱變強(qiáng)的過(guò)程中,PMI(X;Y|Z)和CMI(X;Y|Z)的統(tǒng)計(jì)功效的變化情況。根據(jù)上圖可以看出PMI(X;Y|Z)的統(tǒng)計(jì)功效變化并不明顯,而CMI(X;Y|Z)的統(tǒng)計(jì)功效則隨著X和Z關(guān)系的變強(qiáng)而逐漸減小至接近零。
標(biāo)簽:
相關(guān)資訊