
第三代测序技术
-
2023年3月18日发(作者:变频供水)..
专业DOC资料.
三代基因组测序技术原理简介
摘要:从1977年第一代DNA测序技术(Sanger法)1,发展至今三十多年时间,测序技术已
取得了相当大的发展,从第一代到第三代乃至第四代,测序读长从长到短,再从短到长。虽
然就当前形势看来第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但
第三和第四代测序技术也已在这一两年的时间中快速发展着。测序技术的每一次变革,也都
对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。在这里我主要
对当前的测序技术以及它们的测序原理做一个简单的小结。
图1:测序技术的发展历程
生命体遗传信息的快速获得对于生命科学的研究有着十分重要的意义。以上(图1)所描述
的是自沃森和克里克在1953年建立DNA双螺旋结构以来,整个测序技术的发展历程。
第一代测序技术
第一代DNA测序技术用的是1975年由桑格(Sanger)和考尔森(Coulson)开创的链终止法
或者是1976-1977年由马克西姆(Maxam)和吉尔伯特(Gilbert)发明的化学法(链降解).
并在1977年,桑格测定了第一个基因组序列,是噬菌体X174的,全长5375个碱基1。自此,
人类获得了窥探生命遗传差异本质的能力,并以此为开端步入基因组学时代。研究人员在
Sanger法的多年实践之中不断对其进行改进。在2001年,完成的首个人类基因组图谱就是
以改进了的Sanger法为其测序基础,Sanger法核心原理是:由于ddNTP的2’和3’都不
含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA合成反应,在
4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分为:
..
专业DOC资料.
ddATP,ddCTP,ddGTP和ddTTP),通过凝胶电泳和放射自显影后可以根据电泳带的位置确定
待测分子的DNA序列(图2)。这个网址为sanger测序法制作了一个小短片,形象而生动。
值得注意的是,就在测序技术起步发展的这一时期中,除了Sanger法之外还出现了一些其
他的测序技术,如焦磷酸测序法、酶法等。其中,焦磷酸测序法是后来Roche公司454技术
所使用的测序方法2–4,而连接酶测序法是后来ABI公司SOLID技术使用的测序方法2,4,但
他们的共同核心手段都是利用了Sanger1中的可中断DNA合成反应的dNTP。
图2:Sanger法测序原理
第二代测序技术
总的说来,第一代测序技术的主要特点是测序读长可达1000bp,准确性高达99.999%,但其
测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。因而第一代测序技术
并不是最理想的测序方法。经过不断的技术开发和改进,以Roche公司的454技术、illumina
公司的Solexa,Hiseq技术和ABI公司的Solid技术为标记的第二代测序技术诞生了。第二
代测序技术大大降低了测序成本的同时,还大幅提高了测序速度,并且保持了高准确性,以
前完成一个人类基因组的测序需要3年时间,而使用二代测序技术则仅仅需要1周,但在序
..
专业DOC资料.
列读长方面比起第一代测序技术则要短很多。表1和图3对第一代和第二代测序技术各自的
特点以及测序成本作了一个简单的比较5,以下我将对这三种主要的第二代测序技术的主要
原理和特点作一个简单的介绍。
图3.测序成本的变化
ne
Illumina公司的Solexa和Hiseq应该说是目前全球使用量最大的第二代测序机
器,这两个系列的技术核心原理是相同的2,4。这两个系列的机器采用的都是边合
成边测序的方法,它的测序过程主要分为以下4步,如图4.
(1)DNA待测文库构建
利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特
殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添
加上不同的接头,构建出单链DNA文库。
(2)Flowcell
..
专业DOC资料.
Flowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在
通过flowcell的时候会随机附着在flowcell表面的channel上。每个Flowcell
有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中
加在DNA片段两端的接头相互配对(这就是为什么flowcell能吸附建库后的DNA
的原因),并能支持DNA在其表面进行桥式PCR的扩增。
(3)桥式PCR扩增与变性
桥式PCR以Flowcell表面所固定的接头为模板,进行桥形扩增,如图4.a所示。
经过不断的扩增和变性循环,最终每个DNA片段都将在各自的位置上集中成束,
每一个束都含有单个DNA模板的很多分拷贝,进行这一过程的目的在于实现将碱
基的信号强度放大,以达到测序所需的信号要求。
(4)测序
测序方法采用边合成边测序的方法。向反应体系中同时添加DNA聚合酶、接头引
物和带有碱基特异荧光标记的4中dNTP(如同Sanger测序法)。这些dNTP的3’-OH
被化学方法所保护,因而每次只能添加一个dNTP。在dNTP被添加到合成链上后,
所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的
缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计
算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后,再加入化学试
剂淬灭荧光信号并去除dNTP3’-OH保护基团,以便能进行下一轮的测序反应。
Illumina的这种测序技术每次只添加一个dNTP的特点能够很好的地解决同聚物
长度的准确测量问题,它的主要测序错误来源是碱基的替换,目前它的测序错误
率在1%-1.5%之间,测序周期以人类基因组重测序为例,30x测序深度大约为1周。
..
专业DOC资料.
..
专业DOC资料.
图na测序流程
454
Roche454测序系统是第一个商业化运营二代测序技术的平台。它的主要测序原理
是(图5abc)2:
(1)DNA文库制备
454测序系统的文件构建方式和illumina的不同,它是利用喷雾法将待测DNA打断成
300-800bp长的小片段,并在片段两端加上不同的接头,或将待测DNA变性后用杂交引
物进行PCR扩增,连接载体,构建单链DNA文库(图5a)。
..
专业DOC资料.
(2)EmulsionPCR(乳液PCR,其实是一个注水到油的独特过程)
454当然DNA扩增过程也和illumina的截然不同,它将这些单链DNA结合在水油
包被的直径约28um的磁珠上,并在其上面孵育、退火。
乳液PCR最大的特点是可以形成数目庞大的独立反应空间以进行DNA扩增。其关键技
术是“注水到油”(水包油),基本过程是在PCR反应前,将包含PCR所有反应成分
的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水
滴。这些小水滴就构成了独立的PCR反应空间。理想状态下,每个小水滴只含一个DNA
模板和一个磁珠。
这些被小水滴包被的磁珠表面含有与接头互补的DNA序列,因此这些单链DNA序列能
够特异地结合在磁珠上。同时孵育体系中含有PCR反应试剂,所以保证了每个与磁珠
结合的小片段都能独立进行PCR扩增,并且扩增产物仍可以结合到磁珠上。当反应完
成后,可以破坏孵育体系并将带有DNA的磁珠富集下来。进过扩增,每个小片段都将
被扩增约100万倍,从而达到下一步测序所要求的DNA量。
(3)焦磷酸测序
测序前需要先用一种聚合酶和单链结合蛋白处理带有DNA的磁珠,接着将磁珠放在一
种PTP平板上。这种平板上特制有许多直径约为44um的小孔,每个小孔仅能容纳一个
磁珠,通过这种方法来固定每个磁珠的位置,以便检测接下来的测序反应过程。
测序方法采用焦磷酸测序法,将一种比PTP板上小孔直径更小的磁珠放入小孔中,启
动测序反应。测序反应以磁珠上大量扩增出的单链DNA为模板,每次反应加入一种dNTP
进行合成反应。如果dNTP能与待测序列配对,则会在合成后释放焦磷酸基团。释放的
焦磷酸基团会与反应体系中的ATP硫酸化学酶反应生成ATP。生成的ATP和荧光素酶共
同氧化使测序反应中的荧光素分子并发出荧光,同时由PTP板另一侧的CCD照相机记
录,最后通过计算机进行光信号处理而获得最终的测序结果。由于每一种dNTP在反应
中产生的荧光颜色不同,因此可以根据荧光的颜色来判断被测分子的序列。反应结束
后,游离的dNTP会在双磷酸酶的作用下降解ATP,从而导致荧光淬灭,以便使测序反
应进入下一个循环。由于454测序技术中,每个测序反应都在PTP板上独立的小孔中
进行,因而能大大降低相互间的干扰和测序偏差。454技术最大的优势在于其能获得较
长的测序读长,当前454技术的平均读长可达400bp,并且454技术和illumina的
Solexa和Hiseq技术不同,它最主要的一个缺点是无法准确测量同聚物的长度,如当
序列中存在类似于PolyA的情况时,测序反应会一次加入多个T,而所加入的T的个数
只能通过荧光强度推测获得,这就有可能导致结果不准确。也正是由于这一原因,454
技术会在测序过程中引入插入和缺失的测序错误。
..
专业DOC资料.
..
专业DOC资料.
图454测序流程
技术
Solid测序技术是ABI公司于2007年开始投入用于商业测序应用的仪器。它基于
连接酶法,即利用DNA连接酶在连接过程之中测序(图6)2,4。它的原理是:
..
专业DOC资料.
..
专业DOC资料.
图测序技术
(1)DNA文库构建
片段打断并在片段两端加上测序接头,连接载体,构建单链DNA文库。
(2)EmulsionPCR
Solid的PCR过程也和454的方法类似,同样采用小水滴emulsionPCR,但这些
微珠比起454系统来说则要小得多,只有1um。在扩增的同时对扩增产物的3’端
进行修饰,这是为下一步的测序过程作的准备。3’修饰的微珠会被沉积在一块玻
片上。在微珠上样的过程中,沉积小室将每玻片分成1个、4个或8个测序区域(图
6-a)。Solid系统最大的优点就是每玻片能容纳比454更高密度的微珠,在同一
系统中轻松实现更高的通量。
(3)连接酶测序
这一步是Solid测序的独特之处。它并没有采用以前测序时所常用的DNA聚合酶,
而是采用了连接酶。Solid连接反应的底物是8碱基单链荧光探针混合物,这里将
其简单表示为:3’-XXnnnzzz-5’。连接反应中,这些探针按照碱基互补规则与
单链DNA模板链配对。探针的5’末端分别标记了CY5、TexasRed、CY3、6-FAM
这4种颜色的荧光染料(图6-a)。这个8碱基单链荧光探针中,第1和第2位碱
基(XX)上的碱基是确定的,并根据种类的不同在6-8位(zzz)上加上了不同的
荧光标记。这是Solid的独特测序法,两个碱基确定一个荧光信号,相当于一次
能决定两个碱基。这种测序方法也称之为两碱基测序法。当荧光探针能够与DNA
模板链配对而连接上时,就会发出代表第1,2位碱基的荧光信号,图6-a和图6-b
中的比色版所表示的是第1,2位碱基的不同组合与荧光颜色的关系。在记录下荧
光信号后,通过化学方法在第5和第6位碱基之间进行切割,这样就能移除荧光
信号,以便进行下一个位置的测序。不过值得注意的是,通过这种测序方法,每
次测序的位置都相差5位。即第一次是第1、2位,第二次是第6、7位……在测
到末尾后,要将新合成的链变性,洗脱。接着用引物n-1进行第二轮测序。引物
n-1与引物n的区别是,二者在与接头配对的位置上相差一个碱基(图6-a.8)。
也即是,通过引物n-1在引物n的基础上将测序位置往3’端移动一个碱基位置,
因而就能测定第0、1位和第5、6位……第二轮测序完成,依此类推,直至第五
轮测序,最终可以完成所有位置的碱基测序,并且每个位置的碱基均被检测了两
次。该技术的读长在2×50bp,后续序列拼接同样比较复杂。由于双次检测,这一
技术的原始测序准确性高达99.94%,而15x覆盖率时的准确性更是达到了
99.999%,应该说是目前第二代测序技术中准确性最高的了。但在荧光解码阶段,
鉴于其是双碱基确定一个荧光信号,因而一旦发生错误就容易产生连锁的解码错
误。
..
专业DOC资料.
图测序技术
第三代测序技术
..
专业DOC资料.
测序技术在近两三年中又有新的里程碑。以PacBio公司的SMRT和OxfordNanopore
Technologies纳米孔单分子测序技术,被称之为第三代测序技术。与前两代相比,他们最
大的特点就是单分子测序,测序过程无需进行PCR扩增。
其中PacBioSMRT技术其实也应用了边合成边测序的思想5,并以SMRT芯片为测序载体。基
本原理是:DNA聚合酶和模板结合,4色荧光标记4种碱基(即是dNTP),在碱基配对阶段,
不同碱基的加入,会发出不同光,根据光的波长与峰值可判断进入的碱基类型。同时这个DNA
聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成
的损伤所影响。PacBioSMRT技术的一个关键是怎样将反应信号与周围游离碱基的强大荧光
背景区别出来。他们利用的是ZMW(零模波导孔)原理:如同微波炉壁上可看到的很多密集
小孔。小孔直径有考究,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板而泄
露出来,从而与周围小孔相互干扰。如果孔径小于波长,能量不会辐射到周围,而是保持直
线状态(光衍射的原理),从而可起保护作用。同理,在一个反应管(SMRTCell:单分子实时反
应孔)中有许多这样的圆形纳米小孔,即ZMW(零模波导孔),外径100多纳米,比检测激光
波长小(数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个
小围(体积20X10-21L)里,正好足够覆盖需要检测的部分,使得信号仅来自这个小反应区域,
孔外过多游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。另外,可以通过检测
相邻两个碱基之间的测序时间,来检测一些碱基修饰情况,既如果碱基存在修饰,则通过聚
合酶时的速度会减慢,相邻两峰之间的距离增大,可以通过这个来之间检测甲基化等信息(图
7)。SMRT技术的测序速度很快,每秒约10个dNTP。但是,同时其测序错误率比较高(这
几乎是目前单分子测序技术的通病),达到15%,但好在它的出错是随机的,并不会像第二
代测序技术那样存在测序错误的偏向,因而可以通过多次测序来进行有效的纠错。
图SMRT测序原理
OxfordNanoporeTechnologies公司所开发的纳米单分子测序技术与以往的测序技术皆不
同,它是基于电信号而不是光信号的测序技术5。该技术的关键之一是,他们设计了一种特
殊的纳米孔,孔共价结合有分子接头。当DNA碱基通过纳米孔时,它们使电荷发生变化,从
而短暂地影响流过纳米孔的电流强度(每种碱基所影响的电流变化幅度是不同的),灵敏的
电子设备检测到这些变化从而鉴定所通过的碱基(图8)。
..
专业DOC资料.
该公司在去年基因组生物学技术进展年会(AGBT)上推出第一款商业化的纳米孔测序仪,引起
了科学界的极大关注。纳米孔测序(和其他第三代测序技术)有望解决目前测序平台的不足,
纳米孔测序的主要特点是:读长很长,大约在几十kb,甚至100kb;错误率目前介于1%至
4%,且是随机错误,而不是聚集在读取的两端;数据可实时读取;通量很高(30x人类基因组
有望在一天完成);起始DNA在测序过程中不被破坏;以及样品制备简单又便宜。理论上,它
也能直接测序RNA。
纳米孔单分子测序计算还有另一大特点,它能够直接读取出甲基化的胞嘧啶,而不必像传统
方法那样对基因组进行bisulfite处理。这对于在基因组水平直接研究表观遗传相关现象有
极大的帮助。并且改方法的测序准确性可达99.8%,而且一旦发现测序错误也能较容易地进
行纠正。但目前似乎还没有应用该技术的相关报道。
图8.纳米孔测序
其他测序技术
..
专业DOC资料.
目前还有一种基于半导体芯片的新一代革命性测序技术——IonTorrent6。该技术使用了一
种布满小孔的高密度半导体芯片,一个小孔就是一个测序反应池。当DNA聚合酶把核苷酸
聚合到延伸中的DNA链上时,会释放出一个氢离子,反应池中的PH发生改变,位于池下的
离子感受器感受到H+离子信号,H+离子信号再直接转化为数字信号,从而读出DNA序列(图
9)。这一技术的发明人同时也是454测序技术的发明人之一——JonathanRothberg,它的
文库和样本制备跟454技术很像,甚至可以说就是454的翻版,只是测序过程中不是通过检
测焦磷酸荧光显色,而是通过检测H+信号的变化来获得序列碱基信息。IonTorrent相比于
其他测序技术来说,不需要昂贵的物理成像等设备,因此,成本相对来说会低,体积也会比
较小,同时操作也要更为简单,速度也相当快速,除了2天文库制作时间,整个上机测序可
在2-3.5小时完成,不过整个芯片的通量并不高,目前是10G左右,但非常适合小基因组和
外显子验证的测序。
..
专业DOC资料.
图rent
小结
以上,对各代测序技术的原理做了简要的阐述,这三代测序技术的特点比较汇总在以下表1
和表2中。其中测序成本,读长和通量是评估该测序技术先进与否的三个重要指标。第一代
和第二代测序技术除了通量和成本上的差异之外,其测序核心原理(除Solid是边连接边测
序之外)都是基于边合成边测序的思想。第二代测序技术的优点是成本较之一代大大下降,
通量大大提升,但缺点是所引入PCR过程会在一定程度上增加测序的错误率,并且具有系统
偏向性,同时读长也比较短。第三代测序技术是为了解决第二代所存在的缺点而开发的,它
..
专业DOC资料.
的根本特点是单分子测序,不需要任何PCR的过程,这是为了能有效避免因PCR偏向性而导
致的系统错误,同时提高读长,并要保持二代技术的高通量,低成本的优点。
表1:测序技术的比较
第X代公司平台名称
测序方
法
检测方
法
大约读长
(碱基数)
优点相对局限性
第一
代
ABI/生命
技术公司
3130xL-3730xL
桑格-毛
细管电
泳测序
法
荧光/
光学
600-1000
高读长,准确
度一次性达
标率高,能很
好处理重复
序列和多聚
序列
通量低;样品制
备成本高,使之
难以做大量的平
行测序
第一
代
贝克曼GeXP遗传分析系统
桑格-毛
细管电
泳测序
法
荧光/
光学
600-1000
高读长,准确
度一次性达
标率高,能很
好处理重复
序列和多聚
序列;易小型
化
通量低;单个样
品的制备成本相
对较高
第二
代
Roche/454基因组测序仪FLX系统
焦磷酸
测序法
光学230-400
在第二代中
最高读长;比
第一代的测
序通量大
样品制备较难;
难于处理重复和
同种碱基多聚区
域;试剂冲洗带
..
专业DOC资料.
来错误累积;仪
器昂贵
第二
代
IlluminaHiSeq2000,HiSeq2500/MiSeq
可逆链
终止物
和合成
测序法
荧光/
光学
2x150
很高测序通
量
仪器昂贵;用于
数据删节和分析
的费用很高
第二
代
ABI/Solid5500xlSolid系统
连接测
序法
荧光/
光学
25-35
很高测序通
量;在广为接
受的几种第
二代平台中,
所要拼接出
人类基因组
的试剂成本
最低
测序运行时间
长;读长短,造
成成本高,数据
分析困难和基因
组拼接困难;仪
器昂贵
第二
代
赫利克斯Heliscope
单分子
合成测
序法
荧光/
光学
25-30
高通量;在第
二代中属于
单分子性质
的测序技术
读长短,推高了
测序成本,降低
了基因组拼接的
质量;仪器非常
昂贵
第三
代
太平洋生
物科学公
司
PacBioRS
实时单
分子DNA
测序
荧光/
光学
~1000
高平均读长,
比第一代的
测序时间降
并不能高效地将
DNA聚合酶加到
测序阵列中;准
..
专业DOC资料.
低;不需要扩
增;最长单个
读长接近
3000碱基
确性一次性达标
的机会低
(81-83%);DNA
聚合酶在阵列中
降解;总体上每
个碱基测序成本
高(仪器昂贵);
第三
代
全基因组
学公司
GeXP遗传分析系统
复合探
针锚杂
交和连
接技术
荧光/
光学
10
在第三代量
最高;在所有
测序技术中,
用于拼接一
个人基因组
的试剂成本
最低;每个测
序步骤独立,
使错误的累
积变得最低
低读长;模板制
备妨碍长重复序
列区域测序;样
品制备费事;尚
无商业化供应的
仪器
第三
代
Ion
Torrent/
生命技术
公司
个人基因组测序仪(PGM)
合成测
序法
以离子
敏感场
效应晶
体管检
测pH值
100-200
对核酸碱基
的掺入可直
接测定;在自
然条件下进
行DNA合成
一步步的洗脱过
程可导致错误累
积;阅读高重复
和同种多聚序列
时有潜在困难;
..
专业DOC资料.
变化(不需要使
用修饰过的
碱基)
第三
代
牛津纳米
孔公司
gridION
纳米孔
外切酶
测序
电流尚未定量
有潜力达到
高读长;可以
成本生产纳
米孔;无需荧
光标记或光
学手段
切断的核苷酸可
能被读错方向;
难于生产出带多
重平行孔的装置
表2:主流测序机器的成本测序比较
以下图10展示了当前全球测序仪的分布情况。图中的几个热点区主要分布在中国的(主要
是华大),南欧,西欧和美国。
..
专业DOC资料.
图10.测序仪全球分布omicsmaps./
#参考文献
,F.&Nicklen,uencingwithchain-terminating.74,
5463–5467(1977).
,reviewof
genomicsandhumangenetics9,387–402(2008).
re,J.&Ji,biotechnology26,
1135–45(2008).
r,reviews.
Genetics11,31–46(2010).
nghaus,T.P.,Milanova,D.,Kerby,M.B.,Snyder,M.P.&Barron,A.
apeofNext-GenerationSequencingTechnologies.4327–4341(2011).
rg,gratedsemiconductordeviceenabling
475,348–52(2011).