李修命專欄：美國將正式啟動百萬人基因組計畫開創高新科技支撐點

作者:李修命 2015-03-05 00:00 桌面版 简体打賞 0

大中小字

英國於2012年12月已經宣布了十萬人的測序計畫，要在3∼5年內，對十萬名患有癌症和罕見病的英國病人進行全基因組測序。英國首相戴維·卡梅倫談道：「這項協議將讓英國在未來幾年內在遺傳研究領域引領世界。我決心盡我所能來支持醫療和科學界來開啟DNA之門，將重要的科學突破轉化為為患者帶來更好的檢測方式、更好的藥物，及更好治療方式。」「隨著我們的計畫成為現實，我相信我們將能夠改變NHS以及世界各地的嚴重疾病的診斷和治療方式，同時支持我們最優秀的科學家和生命科學企業，發現下一個靈藥或突破性技術。」

美國不甘落後於英國的「十萬基因組計畫」，用「百萬基因組計畫」來保障自己國家的領先地位。2015年1月下旬，美國總統歐巴馬在國情咨文演講中宣布了精準醫療計畫(Precision Medicine Initiative)」。歐巴馬說，「精確醫學」所要做的是，把按基因匹配癌症療法變得像輸血匹配血型那樣標準化，把找出正確的用藥劑量變得像測量體溫那樣簡單，總之，「每次都給恰當的人在恰當的時間使用恰當的療法」。

據betway体育手机网一期《科學》雜誌報導，美國總統歐巴馬將在任期內正式啟動百萬人基因組的測序計畫。路透社報導，這項計畫的核心在於創建一個囊括各個年齡階層、各種身體狀況的男女志願者庫，研究遺傳性變異對人體健康和疾病形成產生的影響。美國國家衛生研究院院長弗朗西斯·科林斯1月29日在新聞發布會上告訴媒體記者，「精準醫學」項目的短期目標是為癌症找到更多更好的治療手段，長期目標則是為實現多種疾病的個性化治療提供有價值的信息。

近日這項舉措就已經提上議程，歐巴馬正在向國會提議斥資2.15億進行美國100萬人的基因組測序作為全面加速生物醫學研發計畫的一部分，用以助力開發新一代的藥物。歐巴馬政府邀請部分大藥廠的高管們在白宮內討論下一個財年的財政預算，與會者中的高管們來自默克公司（股票代碼：MRK）、再生醫學公司（股票代碼：REGN）、剛剛被羅氏收購的Foundation Medicine（股票代碼：FMI)、Vertex Pharmaceuticals （股票代碼：VRTX）等。

以下是這項資金的分配情況：
1、1億3000萬美金分配給NIH（美國國立衛生研究院），用於首批志願者的招募和測序；
2、7000萬美金分配給NIH的癌症研究所，用於解碼腫瘤基因及助力開發新的療法；
3、1000萬美金分配給FDA，在需要協調「精準醫療」項目時，允許其引進的相關的技術和專家；
4、500萬美金分配給國家協調委員會衛生信息技術部（the Office of the National Coordinator for Health Information Technology）用來那些建立相關標準，致力於保障精準醫療的先行者（患者）的健康隱私和數據信息安全。

這項計畫會對社會起到很大的作用。首先，人們會對精準醫療領域投入更多關注和資金，而這對生命的活力和長度而言具有極大的利處。經驗豐富的臨床醫生將解讀基因分析結果，從而使人們能從細胞和基因層面瞭解自己的獨一無二。其次，擴展精準醫療的可用性將對家庭醫生、醫學系統、醫保公司等醫療衛生系統組成部分造成影響。一旦精準醫療得到了大眾認可，醫療衛生服務消費者（尤其是嬰兒潮出生的一代人）會希望能在更大程度上掌握自己的健康狀況。

百萬基因組計畫主要針對成年人。同時，美國國家衛生研究院宣布，將在未來5年總共投入2500萬美元，用於資助研究為新生兒進行基因組測序的前景與倫理挑戰，使基因組測序技術向大規模應用邁出重要一步。美國國家衛生研究院下屬國家兒童健康與人類發育研究所所長艾倫·古特馬赫當天在一份聲明中說：「基因組測序能在嬰兒生命之初就發現疾病風險，但這種破譯個人遺傳密碼的能力也伴隨許多臨床與倫理問題，因此探討與新生兒階段有關的基因組研究技術、臨床與倫理這三重問題至關重要。」

基因組學到精準醫學

基因組學應屬於分子生物學範疇，其學科的起點是1953年沃森（James Watson）和克里克（Francis Crick）在《自然》（Nature）上發表的發現DNA雙螺旋結構的科學論文。隨著DNA雙螺旋結構的解析，自七十年代起，生物化學家們發明瞭一系列的重要分子生物學技術，包括DNA測序、寡聚核苷酸合成、DNA雜交、分子克隆、聚合酶鏈式反應（PCR）等。尤其是80年代初熒光標記法DNA測序儀的研發和接近問世。

1983年和1984年美國NIH（國立衛生研究院）和DOE（能源部）分別組織了相關領域的科學家進行了啟動大規模測序計畫可能性的研討，1987年人類基因組計畫（The Human Genome Project，HGP）的智庫發表了《測定和繪製人類基因組圖譜》的報告。1988年美國國會通過了DOE和NIH關於啟動HGP的申請，兩家主要資助者也協議共同支持HGP。五年後，人類基因組遺傳圖譜製作完成，第一代熒光自動測序儀順利問世，HGP則進入真正的規模化數據獲取階段。國際「人類基因組計畫」聯合體最終由美、英、法、德、日、中六國逾千名科學家的實際參與，用時十五年，耗資十數億美元共同完成。

人類基因組計畫是一個預計斥資30億美元的大科學項目，在三十年後的今天來看也是個不小的數字。不僅可以與1939年美國斥資20億美元製造原子彈的曼哈頓計畫媲美，也可以與斥資254億美元的阿波羅登月計畫爭艷。據betway体育手机网估計，人類基因組計畫所創造的經濟效益已經達到一萬億美元。更重要的是，它的未來價值體現還在不斷繼續。2011年美國基因組學與生物醫學界的智庫又發表了《邁向精準醫學：建立生物醫學與疾病新分類學的知識網路》，宣示運用生物醫學和臨床醫學研究的交匯，來編織新的知識網路。《報告》直接建議「百萬美國人基因組計畫」、「糖尿病代謝組計畫」等。

高通量測序及技術

2004年人類基因組計畫完成以後，科學家發現單單完成一個人的基因組序列還遠遠不足以理解人類自身及疾病的機理。由於有了已經完成的人類基因組當做參考基因組，採用廉價、快速的方法對多個樣本、群體、病種基因組的比對測序就能提供大量有價值的科研和臨床信息。這就要求測序價格足夠低、速度足夠快，然而對測序結果是否易於拼接、組裝基因組則沒有明確需求。於是，美國國家基因組研究院（NHGRI）提出了把全基因組測序降至1000美金的研究規劃，從而引領科學界、企業界大力發展測序技術。

高通量測序技術（High-throughput sequencing）是基因組學研究領域一個具有里程碑意義的事件，該技術使得核酸測序的單鹼基成本與第一代測序技術相比急劇下降，其以能一次並行對幾十萬到幾百萬條DNA分子進行序列測定等為標誌，也被稱為深度測序(deepsequencing)技術。根據發展歷史、影響力、測序原理和技術不同等，主要有以下幾種：大規模平行簽名測序（Massively Parallel Signature Sequencing, MPSS)、聚合酶克隆（Polony Sequencing）、454焦磷酸測序（454 pyrosequencing）、Illumina (Solexa) sequencing、ABI SOLiD sequencing、離子半導體測序（Ion semiconductor sequencing）、DNA 納米球測序（DNA nanoball sequencing）等。

2005年，454公司首先推出了二代測序儀；2006年，Solexa推出了Genome Analyzer，2007年年初Illumina收購了Solexa公司，在隨後的幾年陸續推出了Hiseq2000、MiSeq、Hiseq2500、MiseqDx、NextSeq 500測序儀，佔據了高通量測序的大部分市場。ABI也在2007年推出的是SOLiD測序平臺，隨後收購了454測序儀發明者創立的Ion Torrent，轉而大力推廣PGM和Ion Proton平臺。2014年，也就是高通量測序技術發展的第十年，illumina公司的Hiseq X平臺已經實現了1000美金一個人類基因組測序的目標。2013年9月，illumina公司的MiseqDx平臺，首次通過了美國FDA的技術認證，作為開放平臺和囊纖維化的試劑產品准許進入臨床，標誌著經過10年的發展，高通量測序技術已從純科學研究的平臺進入臨床診斷領域。

大數據科學誕生

DNA測序技術迅速發展，使得人類已知的DNA核酸序列不斷增長。高通量測序技術則不斷產出海量數據，直接導致了大數據科學(Big Data)的誕生。今天，人類DNA序列已經存儲在資料庫中，任何人都可以通過網際網路下載。國際上權威的核酸序列資料庫有三個，分別是美國生物技術信息中心（NCBI）的GenBank (http://www.ncbi.nlm.nih.gov/Web/Genbank/index.html)，歐洲分子生物學實驗室的EMBL-Bank（簡稱EMBL，http://www.ebi.ac.uk/embl/index.html)，日本遺傳研究所的DDBJ (http://www.ddbj.nig.ac.jp/）。三個組織相互合作，各資料庫中的數據基本一致，僅在數據格式上有所差別，對於特定的查詢，三個資料庫的響應結果一樣。這三個資料庫是綜合性的DNA和RNA序列資料庫，其數據來源於眾多的研究機構和核酸測序小組，來源於科學文獻。NCBI基因組資料庫Entrez Gonomes （http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome）收集的基因組數據量非常大，至 2004年，該資料庫包括1000多個病毒基因組、100多個微生物基因組以及部分真核生物基因組。Ensembl (http://www.ensembl.org/）是由EMBL-EBI和Sanger研究所共同開發的一個系統。Ensembl試圖跟蹤基因組的序列片段，並將序列片段組裝成單個長序列，進而分析這些經過組裝的DNA序列，搜索其中的基因，發現生物學家或醫學工作者感興趣的特徵。Ensembl所用的基因預測程序為GenScan。

高通量測序技術又稱Next-Gen sequencing(NGS)，和現在正在發展的3rd-gen sequencing將會在生物學研究中被越來越廣泛應用。按照library preparation來分，NGS主要有DNA-seq和RNA-seq。從bioinformatics的角度來說，DNA-seq相對比較容易處理，簡單的說，第一步先做alignment，就是把millions of short reads from the sequencer map back to the genome。很多genome已經有相對完整的reference，這些genome的whole sequence可以從UCSC genome browser(http://genome.ucsc.edu/)下載。先前已經有朋友貼過現有的alignment tools（ http://en.wikipedia.org/wiki/List_of_sequence_alignment_software#Short-Read_Sequence_Alignment），目前比較常用的有bowtie，bwa，maq，soap，從他們各自的網站，應該都可以下載到executable binary或者source code。比較常用的是bowtie（ http://bowtie-bio.sourceforge.net/index.shtml ）和bwa（ http://bio-bwa.sourceforge.net/），簡單方便速度快（paralyzed）；output files例如SAM，BAM format比較standardized，方便後續處理；他們的網站有非常詳細的manual。

如果是做ChIP-seq，通常第二步是call peaks。TF的peak一般比較peaky，MACS(http://liulab.dfci.harvard.edu/MACS/00README.html)是個不錯的peak caller, 或用GREAT(http://great.stanford.edu/) to assign genes。 meme（http://meme.sdsc.edu/meme/intro.html）是個不錯的motif caller。整體來說，對於ChIP-seq,可以利用open source tool自己整workflow；可以利用galaxy(http://main.g2.bx.psu.edu/)已有的workflow 和file tools（上面也有詳細的tutorial）；也可以用Partek Genomic Suite （not free,licence required）。後兩個適合bench worker使用，非常容易上手。Exon-seq and whole-DNA-seq第一步alignment幾乎沒有什麼區別，找genetic variation, SeqGene(http://sourceforge.net/apps/mediawiki/seqgene/index.php?title=SeqGene)是一個比較簡單且實用的tool。

RNA-seq通常又被稱為transcriptome sequencing。從bioiformatics的角度講，與DNA-seq相比，RNA-seq要稍微複雜一些，當然也更有意思。主要需要處理的就是alternative splicing。Tophat（ http://tophat.cbcb.umd.edu/）是目前比較流行的RNA-seq aligner。其部分也是基於bowtie，只對bowtie unalignable reads處理的時候，才去考慮splicing。後續對transciptome的prediction，scripture(http://www.broadinstitute.org/software/scripture/)和cufflinks(http://cufflinks.cbcb.umd.edu/manual.html)都是比較常用的reference based transcriptome assembler. 他們的主要作用就是把tophat align好的reads（當然也包括tophat predicted splicing junctions）組裝成transcriptome。對於microarry的分析，DESeq（R package）和next-gen SAM algorithm是比較好的tool，好像他們都是用了quantile normalization(就是除去兩頭，用中間的50%做normalization)。信號的visulazation對很多ongoing project有非常重要的意義，有的甚至可以改變問題的問法，一般都用UCSC genome browser。

高新科技支撐點

基因組研究產生了大量的信息，海量信息的分析、加工和利用，促進了生物信息學的誕生和發展。生物信息學不但集中了許多國家政府的投入，而且吸引了全世界不同學科的精英，包括數學、物理、化學、計算機、材料等，同時也推動了生物晶元技術的研究和開發。基因是新興生物製藥業的源頭生長點，以基因組為對象的新技術新方法的拓展、基因結構及其功能的闡明，將是21世紀生物高技術企業開發新產品的基礎，發現和鑑定具有重要功能蛋白的基因，可為新藥的開髮帶來決定性的影響。因此，世界上各大製藥公司都在積極地進行組合、或與新興的生物技術公司建立新的聯盟，投入巨資開展人類基因組功能研究及其開發，搶佔新藥的篩選和研製陣地。

許多專家將21世紀稱為生命科學的世紀，現代應用生物技術產業也必將成為21世紀的朝陽產業。生物工程之所以成為高端技術，不僅因為其涉及農業、醫藥、衛生、食品等多方面的產業群，將產生巨大產值帶動整個國民經濟的發展，更重要的是因為當今人類面臨的許多難題的解決途徑非現代生物技術莫屬，生物工程將引領人類生活一次革命變革。據估計，再過20-30年，生物經濟可能進入成熟階段，並將取代目前的信息經濟。到那時，生物技術產業將會是領頭的產業，生物技術會影響到經濟結構、生活方式和社會的各個主要方面。未來科技和產業革命的方向不會僅僅依賴於一兩類學科或某類單一技術，而應該是多學科、多技術領域的高度交叉和深度融合。專家學者的一個共識是，新能源、生物技術、信息技術、新材料技術等的交叉和融合將引發新一輪的科技革命和產業革命。

綜合全球各國經濟格局與產業特點分析，全球基本分裂為三大類國家，第一類是技術型國家，美、德、日、英都曾在前三次產業革命中崛起過，掌握著相關行業的領先技術專利，處在產業鏈的最上端屬於控制者；第二類是資源型國家，典型的是石油資源，全球石油大部分集中（東半球）中東如伊朗、沙特、伊拉克、科威特等國家，它們處在產業鏈的中上游，屬於資源霸主；第三類是製造銷售型國家，尤其是中國、印度等發展中國家，是處在產業鏈的中下游，屬於兩頭受壓的地位，受到經濟波動的衝擊也是最大的。在新一輪生物信息產業革命中，由於中共對社會各方面特別是思想意識形態的嚴厲控制，中國的科技領域缺乏原生創造力，會被遠遠拋在一類國家的後面。

歡迎給您喜歡的作者捐助。您的愛心鼓勵就是對我們媒體的耕耘。

本文短網址：

【誠徵榮譽會員】溪流能夠匯成大海，小善可以成就大愛。我們向全球華人誠意徵集萬名榮譽會員：每位榮譽會員每年只需支付一份訂閱費用，成為《看中國》網站的榮譽會員，就可以助力我們突破審查與封鎖，向至少10000位中國大陸同胞奉上獨立真實的關鍵資訊，在危難時刻向他們發出預警，救他們於大瘟疫與其它社會危難之中。