北大创造“高雅”新方法,改写DNA测序精度 | 深度报导

►ACTG四种碱基,笼统成图中4个不同色彩不同结构的镂空立方体,可以经过三种正交的办法解构为两两组合:右侧投影,阴文M(aMino,氨式)= A和C,阴文K(Keto,酮式)= G和T;左边投影,阴文R(puRine,嘌呤)=A和G,阴文Y(pYrimidine,嘧啶)=C和T;底面投影,阴文W(Weak,双键)=A和T,阴文S(Strong,三键)=C和G。在ECC测序中,每个碱基均经过三次“投影”进行了丈量,再经过三个投影重构出本来的序列。artwork by Zitian

在世界顶尖期刊上沉寂多年的测序办法研讨范畴,11月6日迎来了一篇重磅论文——依据信息理论来批改过错的高准确度荧光发作DNA测序办法。

这篇宣布在Nature Biotechnology的最新作业介绍了一种纠错编码(ECC)测序法。7位作者均来自北京大学北京未来基因确诊高精尖立异中心,职责作者是中心成员、北京大学教授黄岩谊。

 “我了解岩谊的作业,这是一项高度立异、含义严重、十分有冲击力的研讨,它将在实践范畴发作严重影响。”榜首时刻得悉这一重要打破的哈佛大学体系生物学教授、Wyss研讨所核心成员尹鹏通知《常识分子》,“他们的作业将以史无前例的精度解码基因组信息,然后为研讨和确诊因基因变异发作的不同疾病带来全新的知道。”

据《常识分子》了解,这一作业从启动到宣布,历时7年,其间种种应战与检测,也是论文的作者们未曾预料到的。“我觉得把它做成,我个人评估仍是蛮高雅的。”黄岩谊说,“初步也没想到会有这么困难,可是干了也就干了,渐渐你就发现它风趣的当地在哪儿了。”

影响深远的技术:DNA测序40周年

DNA的实质是脱氧核糖核酸苷链。20世纪30年代,科学家发现DNA是由四种碱基A、T、C、G构成的长分子。1953年,沃森和克里克提醒了DNA双螺旋结构,其间A与T配对,C与G配对。这四种碱基的摆放序列决议了遗传信息,生命之所以可以代代相承、生生不息的奥妙就藏在其间。

可是,人的基因组就含有多达30亿个碱基对,理论上有无量的摆放组合的可能。人与人的基因组不同尽管只要千分之一,但因为DNA上碱基序列的不同,终归千人千面。

当科学家企图解读这奥秘难明的遗传暗码时,测序技术就是强有力的解码东西。从上世纪70年代起,许多科学家初步集中力气霸占这一范畴。我们了解的闻名华人生物学家吴瑞教授,就是这一范畴的前驱。

1977年,弗雷德里克·桑格创造晰榜首代测序技术中终究占有独占位置的“双脱氧停止法”(后也被称为“桑格法”)。他测定的榜首个基因组序列,是噬菌体X174,全长5375个碱基,而在此前人们最多能测80个碱基。

桑格法测序的创造,使得人类获得了窥视生命遗传差异实质的才干。其特点是测序读长(reads)可达1000bp(碱基对,base pair),准确性高,但本钱高、通量低严重影响了其大规模使用。可是正因为其精度很高,它依然是基因检测的金规范,是关于下一代测序成果进行评估和验证的首要手法。

以1977年为初步,人类步入了基因组学年代。以改善的桑格测序法为根底,2001年,美、英、法、德、日、中六国协作历时十余年、累计投入约30亿美元,完结了人类基因组计划。这是历史上榜首个人类全基因组序列的测序作业,不过其时测得的基因组是几个人的归纳,而不是一个人的。 

转瞬又曩昔了几年,人类解读基因暗码的进程日新月异,“下一代测序办法”(next generation sequencing)应运而生,其明显特征是高通量,不只本钱大幅下降,周期也敏捷缩短。本来需求数年之间做出一个人类个别全基因组序列的测序作业,逐步削减到只需1个月时刻、花费十几万美元,到2011年前后又猛然下降到花费1万美元、一周时刻即可完结。这种技术上的快速前进使得大规模测序年代真实到来。

“下一代测序办法”诞生了几个明星级产品。首要的技术道路以罗氏公司的454技术,Illumina公司的Solexa技术,以及Life Technologies公司的SOLiD技术、IonTorrent技术等几个为代表。尽管详细指标上各有千秋,但都可以做到一次对几十万到几百万条乃至更多DNA分子进行序列测定。这种高通量测序可以对一个物种的转录组和基因组进行详尽全貌的剖析。 

从科研范畴到日常日子,下一代测序技术现已获得广泛使用,可是其有必要给予PCR (聚合酶链式反响,一种可以快速仿制许多发作相同DNA片段的技术)扩增,因为其指数扩增进程中不行准确,一旦复制件犯错,过错就会被传下去,成果就不准确了,本钱、准确性等要害问题依然存在。各国科学家都在致力于新的测序处理计划。现在,以单分子测序为首要特征的“第三代”测序技术现已初露端倪,可是在本钱、准确性和通量方面还不能与依据许多分子的DNA测序仪相比赛。

“就像我国需求自己的飞机一样,我国也需求自己的测序仪”

2009年前后,价格动辄近百万美元的“下一代测序仪”在商场比赛中拼杀正酣。其间Illumina公司的仪器初步占有越来越多的商场。

这一年,哈佛大学教授谢晓亮课题组在试验室里创造晰一种新式的测序技术,并做出过一个测序仪原理样机,但因起步较晚,没有构成产品,仅仅在2011年在Nature Methods初次报导了这种荧光发作测序技术。它的原理奇妙之处在于在DNA互补链组成时可以开释同所延伸核苷酸数目持平的荧光分子,使用这一反响可以完成低过错率的边组成边测序(SBS,sequencing by synthesis)。

可是谢晓亮并未抛弃做我国自己的测序仪的主意。他现已看到新一代的测序仪将会对医学发作革命性奉献,经过对人的基因组测序,将为防止、检测和医治疾病供给个别化的处理计划。

而我国稀有千家测序服务公司,开端只能斥巨资引入国外测序仪,可是并不具有在技术源头的处理计划,更没有自己的测序仪。

►在一次揭露讲演中,谢晓亮表明,“就像我国需求自己的飞机一样,我国也需求自己的测序仪”。

2010年,谢晓亮回到母校北京大学,牵头创立北京大学生物动态光学成像中心,榜首批PI里就有黄岩谊。当年因化学比赛成果优异保送北大化学系,黄岩谊一口气读完化学博士,又先后在加州理工学院使用物理系研讨光学,在斯坦福大学生物工程系研讨微流芯片与分子生物学,做了4年的博士后,具有极好的跨学科研讨布景。正是谢晓亮心中抱负的研制测序仪的人选。

测序技术的开发正是这样一个跨学科、高度归纳的技术活,触及生物医学、核算机、微电子学、光学、材料科学和精细加工等多学科技术。

►论文通讯作者黄岩谊具有化学、光学、分子生物等跨学科的研讨布景

2010年秋,黄岩谊“刚刚申请了一点钱,可以养活自己的组”,架不住谢晓亮“忽悠”,启动了测序仪课题。

 未曾想,一干就是7年。

 他先去了一趟哈佛大学谢晓亮课题组看了他们做的原理样机。

拿回来为开发荧光发作测序技术而制备的少数化合物,黄岩谊初步重复他们的试验。 

这个时分,黄岩谊的组里来了一位北大化学系大三的学生,陈子天。他其时参加黄组的原因是,“不是纯做化学的,也做生物,也做微流控芯片,好玩”。

入组不久,陈子天就和他的师兄一同,为黄岩谊在北大生科院的协作者搭建了一个拍植物麦苗生长情况的高通量设备,并且开发了算法程序。“和化学一点联系都没有,每五分钟拍一次,看麦苗长了几微米,算生长曲线;生科院的教师和同学研讨它的生物学含义。”看到陈子天玩得称心如意,黄岩谊像捡到了宝物一样,初步给他各种项目练手。

2011年,黄岩谊得到了北京市科委的经费支撑,课题组可以收购一点必要的零件,买一些必要的设备和试剂,真实初步了新的测序办法研制。

“那时分,我们乃至还没有通风柜,最简略的有机组成都无法做。”黄岩谊回想道。2011年,段海峰从谢晓亮在哈佛的组里博后出站,回国参加了黄岩谊组,从头建设了一个可以做有机组成试验的试验室,初步了对荧光发作测序底物的研讨。 

段海峰首要处理了团队测序底物化学组成的问题。究竟没有反响功用超卓的底物,测序办法的功用也就大打折扣。从此,测序的研制作业就再也没有断过粮了。

“没有他,团队的科研就无法正常进行。”黄岩谊说,其时这些质料背面有许多化学的根底原理,不做的时分很难领会,当需求把它做成一个真实有用的办法时才发现,每一个细节都需求做到极致,组成怎样做,测序反响怎样做,芯片怎样做,外表怎样做,办法怎样做,环环相扣,每一个环节都做到极致才会有后边的成果。

 ►段海峰首要处理了团队测序底物化学组成的问题

没有ECC,它仅仅一个一般的测序仪

2010年前后,干流的Illumina测序仪读长不过几十个碱基,454和SOLiD测序仪还活泼在商场上。天天在试验室捣鼓的陈子天其时觉得或许还有追上的时机,但很快,商业的力气促进测序技术飞速前进,他感到试验室被摆开的间隔越来越大。

干流的高分辩测序一般选用边组成边测序战略,经过聚合酶(polymerase),以一条DNA模版为根底,组成它的互补序列,如果知道加进去的碱基是什么,依据A/T、C/G配对准则,就能反推其对面是什么,所以经过测定参加延伸反响的碱基类型和数目,就可以推测出DNA模版的序列信息。

可是这种测序战略的短板也很明显,因为对化学反响自身的过错没有有用的查看和改正机制,导致了其时高通量测序技术的准确性往往被约束在聚合酶的保真度、信号与序列的线性度、信号检测的灵敏度这几个要素上。

新的测序办法的时机在哪里呢?“其时谢教师试验现已能重复,但这样必定发不了文章,我其时是本科生,倒也不在乎发文章,但总想着要做点科学出来。”陈子天憋着一股劲。

段海峰就像组里的定海神针,依然一点一点的揣摩,一点一点的改善荧光碱基的分子结构。他需求四次有机组成才干得到一组四个碱基,有一次陈子天等不了,拿到一个刚出炉的碱基就想试,他加进来三种没有符号荧光的天然碱基反响物,心里想,横竖这三个是没信号的,干脆就混在一同反响好了,越过这个区域。那一刻,脑门俄然闪现灵光。

“1+3混着测可以延伸读长,但需求多测几轮,才干用算法解开,得出准确的测序成果”,他一口气跑到黄岩谊办公室。“那2+2呢?”黄岩谊进一步问道。

“至少有几天时刻,我们还没有脱离出思维的捆绑——就是以为测序一定要直接可以测出碱基的办法才行”,陈子天说,不过终究仍是想通了,在2+2计划中(即两种碱基与两种碱基反响),即便每一个反响都无法断定碱基品种,也可以经过多轮测序成果,经由算法进行纠错和校对,然后推导得到一个准确的序列。

►论文的榜首作者、研讨的首要推动者陈子天。初步做这个课题的时分,仍是一名大三学生,现在现已博士结业,现在做博士后研讨。

这种战略在通讯等范畴中被称作ECC,是一种可以完成“过错查看和纠正”的技术,现已存在并使用了半个世纪的时刻。其实质是经过对信息存储和传递进程进行有用编码,可极大消除信息存储和传输过错呈现的可能性。例如光盘有细微划伤,也可以充分使用信息冗余来确保在部分信息呈现丢失的前提下仍可恢复悉数信息内容。

置换到测序的语境中,ECC测序办法经过创立三个正交简并序列,经过替换的双基反响生成序列,将信息冗余和测序进程结合,可以发现和纠正测序中发作的过错。而荧光发作测序办法刚好具有共同的优势使得这种结合变得可行。

与现在新一代测序仪商场上根本处于独占位置的Illumina测序化学原理不同,荧光发作测序技术不对作为反响质料的核苷酸3’端羟基进行封闭性化学润饰,因此可自在接连延伸,然后供给了ECC测序的可能

改写测序新精度

2014年秋,历经改善化学,测验动力学,优化算法,重复屡次之后,黄岩谊组在试验中拼出来三个序列,然后初步不断重复,折磨了几个月,总算验证了ECC测序法。

试验证明,新的测序办法可以在前200bp中把差错悉数消除,做到彻底精准无错。与干流测序化学办法比较而言,ECC不只检测快速,并且准确度很高,兼具长处。

“我们当然很开心。新的测序办法真的在我们手中完成了。”黄岩谊回想道:整个进程彻底打破了学科边界,从化学组成初步想,从分子初步想,从酶、从生物的问题初步想,一向做到工程完成仪器的功用,全流程打通,然后做优化,仪器要平衡,功用又要好,时刻也要契合需求,等等,十分检测人,但当这一切都做到了,那种感觉是十分好的。

“那个瞬间特别爽!”陈子天似乎打怪通关一样开心:“作为一个做化学本科的人,从物理化学试验,一向做到分子生物,光学,做仪器,做流体,终究做到核算机算法。自始至终回想一下,觉得什么都玩遍了。”

2015年新年往后,整个课题组堕入到其他一种折磨之中——怎样把这种新的测序办法给他人讲清楚。“我们很尽力,重复修正我们的表述,数学的展现办法,花了很长时刻画图,数学描绘也花了将近一年时刻,才把文章投出去。”黄岩谊说。 

►论文作者之一、博士研讨生乔朔。在这一作业中担任反响动力学数据的获取和解读、芯片外表润饰及表征以及模版的扩增反响

终究在11月6日上线的这篇革命性测序办法的文章只要8页,可是作为它的附件文档,却长达109页。其间事无巨细地告知了化学原理、试验计划、数学描绘、核算模仿、工程完成等等细节。

“整个试验一环扣一环是怎样处理的,我们是怎样考虑的,今后还有什么其他使用,我们可以揭露给我们讲,许多东西都放进去了。”黄岩谊说,“这篇文章没有隐秘,我们悉数揭露,期望他人了解里边美丽的当地,很难的当地,可以知道我们是怎样做的。” 

“这是十分重要、也是十分原创的文章,不同于那些quick-and-dirty paper(快速出产的论文),这是岩谊回国后最重要的作业”。哈佛大学教授、北京未来基因确诊高精尖立异中心主任谢晓亮通知《常识分子》,ECC测序办法将把下一代测序仪的精准度进一步大幅进步。谢晓亮也是这篇论文的作者之一。 

文章写道:高精度测序办法将有助于各种使用,包含婴儿基因骤变检测,循环肿瘤DNA或高度异质性肿瘤安排中的母体血和稀有骤变判定。而ECC技术可以从根本上进步数据质量,满意精准医学的精度要求。 

尹鹏就此向《常识分子》评论道:“这是十分令人兴奋的作业,是在我国发作的原创研讨、切实有用的研讨。我对它之于学术研讨以及临床实践的影响很达观。”

专访黄岩谊|“做到比想到更重要”

《常识分子》:开发一种新的测序办法,这件事到底有多难?

黄岩谊:这是一个典型的多学科穿插的问题;既是一个科学问题,也是一个工程问题。ECC测序法从科学上讲,并不奥秘,它不是一个“发现”型的科学问题,可是依然需求处理一些十分要害的并且挺有应战性的细节问题,不是简略地使用已有常识。例如,开发测序用的微流控芯片,研讨测序酶反响的物理化学进程,新式荧光核苷酸底物的有机组成,信息论编码解码的理论开发等等。这些问题每一个即便独登时看,也都是很风趣的科学问题。可是,光处理这些科学问题,还仅仅长途旅行的初步,并不能确保能走到完毕。更重要的是,研讨中需求从工程科学的视点考虑问题,确保这一办法不只仅仅仅坐而论道,写出可能性;而是可以在试验室做出原理样机,验证可行性。 

在研讨进程中,仍是很艰苦的;许多时分不能直接感觉到要害打破口在哪里,需求花许多时刻探索,才逐步了解处理要害问题的途径。然后,仍是艰苦的“学习-测验-犯错-改正”循环。许多已有的常识,不能直接使用,需求融会贯通后,才干了解是否可以使用于处理我们的问题,期间犯过许多过错,也走过弯路。所以,关于工程问题的处理,不是简略地使用一些已有的技术或常识,而是需求从根本原理动身,从根底科学动身,了解并处理了一个个的科学问题,才干处理工程问题。

►论文作者之一、博士研讨生周文雄,承当了要害的数学推导、算法优化以及编程完成

《常识分子》:这么难的作业干成了,是不是特别有成就感?

黄岩谊:讲原理很简略,这个我不觉得有什么自豪的。可是我觉得把它做成,我个人评估仍是蛮高雅的。初步也没想到会有这么困难,可是干了也就干了,渐渐你就发现它风趣的当地在哪儿了。当然,也有许多没干出来的时分,一般外人不知道,人们大都看到的都是干出来了的,只看见贼吃肉,没看见贼挨揍。

《常识分子》:用7年的时刻发一篇文章,课题组是怎样挺过来的?

黄岩谊:论文中所展现的数据和发展,实际上是2014年年末之前的成果。2015年之后的发展,愈加有意思,只不过现在还没有总结。2014年的下半年,当我们获得预期的试验成果时,是最令人激动的时刻。然后,从2015年的新年初步,我们花了一年时刻,时断时续地画图,企图将这一作业愈加明晰、愈加有条理地展现;然后又花了大约一年时刻时断时续把论文写了,论文的写作作业量也不小;终究投稿到宣布大约又是一年。论文的榜首作者陈子天,是这个作业最首要的推动者,他初步做这个课题的时分,仍是我试验室的一个本科生,做着做着博士都结业了,现在是博士后。

尽管文章发在一个高分杂志上,但这并不是我们最垂青的,能把这个主意在工程上完成才更有应战性,也更有价值。

最难熬的不是做试验,而是没钱干活了。2013年,我们阅历了一段时刻的困难,那时经费紧张,无法保持应有的研制速度,那时分差点儿就抛弃了,作业堕入中止,人员也不容易安稳,可是我们团队几个核心成员仍是挺了下来,熬过了最艰苦的一年。后来得到了国家自然科学基金的支撑,特别是自然科学基金初步支撑具有原创性的科研仪器设备的研讨,这个特别契合我们这个课题的理念。有了这些经费的支撑,才有了2014年的那些数据,才写成了这篇论文。2015年和2016年,我别离参加了北大-清华生命科学联合中心和北京未来基因确诊高精尖立异中心,得到一些安稳经费的支撑,使得这个作业的一些后续作业可以继续展开下去。

《常识分子》:整个研讨获得打破的要害是不是选用ECC战略的idea?

黄岩谊:将ECC编码改错办法与荧光发作SBS测序化学的结合,是重要的一个主意,挺好的;可是怎样做出来,却不是有了主意就可以轻松完成的,也不是添加人手或许查查文献就能处理的。

我们学习了一个在信息传达跟通讯范畴现已用了很长时刻的一个思维,这个不难想,我历来觉得idea不重要,或许说是idea重要,但idea不值钱,最重要的是怎样把它做出来。做到比想到更重要。

我一点不觉得扔出一个ECC概念是什么奇特的作业,你看任何一本讲通讯的书里边,都会有这样的常识,教课书20世纪50年代写的跟现在一样清楚。我觉得能把它做出来,里边每一步的细节都是要花时刻的,所以它是一个很风趣的课题。我们里边除了化学,还需求想许大都学、工程、编程、生物学的不同问题,它是一个整合到一同的多学科的课题。对学生来说,应战很大,学生需求可以自主的很快从一个学科跳到另一个学科,把它融合到一同。然后还需求一个小团队,把每个学生比较拿手的当地,可以融到一同。 

►论文作者之一、博士研讨生康力,绝大大都终究获取的用于计算的测序试验,原始成果都出自他手

《常识分子》:你怎样评估课题组的几位成员?

黄岩谊: 我特别感谢这个优异的团队,在曩昔几年中,可以有时机和这样一个团队一同作业,患难与共,我觉得十分走运。论文的作者名单中,每个人都十分重要,都不行代替。拿篮球队做个比方,陈子天、周文雄、乔朔、康力、段海峰,他们五个是场上队员,是真实的主角;我和谢晓亮教授,就算教练和领队吧。

尤其要提到榜首作者陈子天博士,他就是场上队长了。他参加了悉数的研讨内容,从底物的测定、样机的研制到数据的处理,从总体上把握并协调了详细的试验作业和数据处理流程,是这个课题得以顺畅发展的核心人物。他本科结业于北京大学化学学院,博士结业于北京大学工学院。在七年进程中,他从课题的榜首天初步,就一向在团队中,并跟着课题的进行,从一个本科生生长成为一个优异的科学家,不只具有谨慎的科学态度,并且一起把握了工程科学的办理技术,具有巨大的潜力。最近几年,他一向带领团队的其他成员继续推动ECC测序法的进一步发展。

一个球队,不是只要场上队员。我们这个课题也是这样,许多人在这些年的探索中供给了重要的协助和支撑,尽管没能成为论文的作者,可是他们功不行没。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.terrorinorlando.com/jingyan/2.html