上週五,最新一期 Science 雜誌同時發表了六篇文章,並以封面形式介紹了人類基因組計畫的最新成果。這也是時隔二十多年後,人類基因組計畫的全新里程碑:一份更完整的人類基因組。
二十多年前完成的人類基因組計畫,其實遺漏了大約 8%的 DNA 序列。這些遺漏的部分,主要是 DNA 序列高度重複的染色體中間部分的著絲粒、末端的端粒(在很大程度上之前被視為垃圾)。二十多年來,研究人員認為,這些區域可能在進化和疾病中發揮關鍵作用。
在這次發表的最新成果中,由大約 100 名科學家組成的團隊首次完成了對整個人類基因組的完整定序,並將完整結果發表在 Science 雜誌上。
研究人員表示,完成完整的人類基因組定序是一項重要科學成就,為瞭解人類 DNA 提供了首個全面視角。這些最基本的資訊將增進對人類基因組所有細微功能差別的瞭解,促進對人類疾病的基因研究。
生命科學的「登月計畫」
人類基因組計畫(Human Genome Project, HGP)是一項規模宏大,跨國跨學科的科學探索工程。其宗旨在於測定組成人類染色體(指單倍體)中所包含的 30 億個堿基對組成的核苷酸序列,進而繪製人類基因組圖譜,並且辨識其載有的基因及其序列,達到破譯人類遺傳訊息的最終目的。
人類基因組計畫由美國科學家於 1985 年率先提出,於 1990 年正式啟動的。美國、英國、法國、德國、日本和中國科學家共同參與了這一預算達 30 億美元的人類基因組計畫。截止到 2003 年 4 月 14 日,人類基因組計畫的定序工作已經完成。其中,2001 年人類基因組工作草圖的發表被認為是人類基因組計畫成功的里程碑。
人類基因組計畫與曼哈頓原子彈計畫和阿波羅計畫並稱為三大科學計畫,是人類科學史上的又一個偉大工程,被譽為生命科學的「登月計畫」。
人類基因組分布在 23 對染色體中,由超過 60 億個單獨的 DNA 堿基組成,與黑猩猩等其他靈長類動物的數量大致相同。為了讀取基因組,科學家首先將所有 DNA 切成數百到數千個字母長的片段,然後定序機器讀取每個片段中的單個字母,然後再試圖以正確的順序組裝這些字母,就像拼一個複雜的拼圖一樣。
但是,這裡面的一個挑戰是基因組的某些區域一遍又一遍地重複相同的字母。重複區域包括著絲粒,這是將兩條染色體連接在一起並在細胞分裂中起關鍵作用的部分,以及為細胞蛋白質工廠提供指令的核糖體 DNA。還有其他重複部分包括可能説明物種適應環境的新基因。
正是由於這些DNA的重複,使得在人類基因組定序時無法以正確的順序組裝一些 DNA 片段。另一個障礙是,大多數細胞包含兩個基因組——一個來自父親,一個來自母親。當研究人員試圖組裝所有片段時,來自每個親本的序列可能混合在一起,進而掩蓋了每個單獨基因組中的實際變異。
雖然人類基因組計畫在 2003 年取得了巨大成功,但實際上,離最終的勝利還差一點點。由於超過 8% 的基因組並沒有被解讀,這些缺失的部分包含高度重複的序列,並在很大程度上被視為「垃圾」。
但實際上並非如此,華盛頓大學霍華德休斯醫學研究所(HHMI)研究員 Eichler 說,「事實證明,我感興趣的許多地區都在缺口中。」
首個完整的人類基因組
隨著基因定序技術的快速發展,科學家們意識到,最新的定序儀擁有一次準確讀取上百萬堿基 DNA 片段的能力,這為最終解決基因組難題打開了大門。
於是,由美國國家人類基因組研究所、加利福尼亞大學聖克魯斯分校、華盛頓大學等機構研究人員領銜的國際科研團隊組成「端粒到端粒聯盟(T2T)」,對人類基因組進行完整的、無間隙定序。
研究人員表示,人類基因組含有約 30 億個 DNA(去氧核糖核酸)堿基對,完成這些堿基對的完整、無間隙定序對於瞭解人類基因組變異全譜、掌握基因對某些疾病的影響至關重要。
在《科學》雜誌發表的六篇論文中,研究人員還深入尋找了生命基因天數的生物學意義。例如,研究團隊在著絲粒和其它預期發現了出乎意料的高水準遺傳變異。
共同領導 T2T 工作的 Miga 表示,這些資料為研究著絲粒提供了新時代的基礎,科學家們現在將能夠探索這些新發現的變異,如何導致疾病,以及著絲粒 DNA 如何隨著時間變化。
研究結果還揭示了基因變異的更複雜模式,這有助於解釋人類的快速進化,也有助於創造人類物種。研究人員解釋,完整的基因組序列表明,一些與更大的大腦相關的基因是高度可變的。一個人可能有十個特定基因的拷貝,而其他人可能只有一兩個。
研究人員表示,單個基因組的成功完成並不是硬道理。聯盟成員已經在努力對一個基因組進行定序,該基因組具有從每個父母那裡繼承的不同染色體。他們還開始了一項泛基因組工作,以讀取來自世界各地的數百人的整個 DNA 序列。「目標是創建盡可能完整的人類基因組,代表更多的人類多樣性。」該專案聯合負責人 Jarvis 解釋道。
資料來源:
- Epigenetic patterns in a complete human genome
- Segmental duplications and their variation in a complete human genome
- The complete sequence of a human genome
- From telomere to telomere: The transcriptional and epigenetic state of human repeat elements
- Complete genomic and epigenetic maps of human centromeres
- A complete reference genome improves analysis of human genetic variation
- 本文授權轉載自大數據文摘