基因本體(Gene Ontology,GO)是一個在生物信息學(xué)領(lǐng)域中廣泛使用的本體,它涵蓋生物學(xué)的三個方面:細(xì)胞組分、分子功能、生物過程。

中文名

基因本體

外文名

Gene Ontology

介紹

一個在生物信息學(xué)領(lǐng)域中廣泛使用的本體,它涵蓋生物學(xué)的三個方面:細(xì)胞組分、分子功能、生物過程

縮寫

GO

領(lǐng)域

生物信息學(xué)

簡介

1998年由研究三種模式(果蠅、小鼠和酵母)基因組的研究者共同發(fā)起組織了一個稱為基因本體聯(lián)盟的專業(yè)團(tuán)隊(duì)。創(chuàng)建基因本體的初衷是希望提供一個可具代表性的規(guī)范化的基因和基因產(chǎn)物特性的術(shù)語描繪或詞義解釋的工作平臺,使生物信息學(xué)研究者對基因和基因產(chǎn)物的數(shù)據(jù)能夠進(jìn)行統(tǒng)一的歸納、處理、解釋和共享。基因本體的建立促使生物信息學(xué)的研究進(jìn)入了“書同文”的統(tǒng)一時(shí)代,這是一座生命信息學(xué)的“巴比倫塔”。

基因本體涉及的基因和基因產(chǎn)物詞匯分為三大類,涵蓋生物學(xué)的三個方面:

細(xì)胞組分(cellular component):細(xì)胞的每個部分和細(xì)胞外環(huán)境。

分子功能(molecular function):可以描述為分子水平的活性(activity),如催化(catalytic)或結(jié)合(binding)活性。

生物過程(biological process):生物學(xué)過程系指由一個或多個分子功能有序組合而產(chǎn)生的系列事件。其定義有廣義和狹義之分,在詞義上可以區(qū)分為泛指和特指。一般規(guī)律是,一個過程是由多個不同的步驟組成。需要指出的是,生物學(xué)過程與途徑或通路(pathway)不是同一回事。

內(nèi)容詳解

基因本體是一個有向無環(huán)圖(DAG)型的本體。目前,GO中使用了is_a和part_of和regulates三種關(guān)系。

Ontology: 哲學(xué)中稱為本體論/存在論,這里本質(zhì)是指一系列特定的文字可用來形容一些特定的模式、元件或角色,因此在國外的華人生物信息學(xué)家中試譯為語義(學(xué))。

GO(gene ontology)對大家而言也許會是一個相對陌生的名詞,但是它已經(jīng)成為生物信息領(lǐng)域中一個極為重要的方法和工具,并正在逐步改變著我們對生物學(xué)數(shù)據(jù)的組織和理解方式,它的存在已經(jīng)大大加快了我們對所擁有的生物數(shù)據(jù)的整合和利用,我們應(yīng)該逐步學(xué)會理解和掌握這種思想和工具。

眾所周知,sequence based biology中的核心內(nèi)容即是對序列的注釋(annotation),其中主要包含結(jié)構(gòu)注釋(structural annotation)和功能注釋(functional annotation),前者涉及分析序列在基因組中的具體位置以及外顯子、內(nèi)含子、啟動子等位置,而后者則是推斷序列編碼產(chǎn)物的功能,也正是我們在六月論題中所著重探討的。應(yīng)該說,這二者是相互關(guān)聯(lián)的。

隨著多種生物基因組的相繼解碼,同時(shí)大量表達(dá)序列標(biāo)簽(ESTs)以及基因表達(dá)譜相關(guān)數(shù)據(jù)的積累,使得注釋描述的工作量和復(fù)雜度大大增加。然而另一方面,大多數(shù)基因在不同真核生物中擁有共同的主要生物功能,通過在某些物種中獲得的基因或者蛋白質(zhì)(shared protein)的生物學(xué)信息,可以用以解釋其他物種中對應(yīng)的基因或蛋白(especially in comparative genomics)。由于這些繁復(fù)的功能信息主要是包含在積累的文獻(xiàn)之中,如何有效的提取和綜合這些信息就是我們面臨的核心困難,這也是GO所要著力解決的問題。通過建立一套具有動態(tài)形式的控制字集(controlled vocabulary),來解釋真核基因及蛋白在細(xì)胞內(nèi)所扮演的角色,并隨著生命科學(xué)研究的進(jìn)步,不斷積累和更新。一個ontology會被一個控制字集來描述并給予一定的名稱,通過制定“本體”ontologies并運(yùn)用統(tǒng)計(jì)學(xué)方法及自然語言處理技術(shù),可以實(shí)現(xiàn)知識管理的專家系統(tǒng)控制。

到目前為止,Gene Ontology Consortium(GO的發(fā)起組織)的數(shù)據(jù)庫中有3大獨(dú)立的ontology被建立起來:biological process生物過程, molecular function分子功能及cellular component細(xì)胞組分。而這三個ontology下面又可以獨(dú)立出不同的亞層次,層層向下構(gòu)成一個ontologies的樹型分支結(jié)構(gòu)??梢哉f, GO是生物學(xué)的統(tǒng)一化工具。

聯(lián)合會所建立的數(shù)據(jù)庫,旨在建立一個適用于各種物種的,對基因和蛋白質(zhì)的功能進(jìn)行限定和描述的,并能隨著研究不斷深入而更新的語義詞匯標(biāo)準(zhǔn)。采用階層系統(tǒng)對基因進(jìn)行分類,將功能一致的基因放在同一層。