第1个回答 2016-07-12
微生物全基因组测序中完成Gap closure的意义与方法
微生物是地球上种类最多、数量最大、分布最广的生物群,与人类、动植物和环境有着密切的相互作用,同时也是工业生物技术的核心及重要的国际竞争战略资源。随着测序技术的不断进步以及测序成本的不断降低,越来越多的微生物基因组序列得到测定,其中包括一些重要的病原微生物、工业微生物、极端微生物以及生物学研究中有重要意义的一些模式微生物。
随着新一代测序技术的商业化应用,使得测序成本不断降低,测序通量不断提高,越来越多的微生物基因组得到测定,极大地促进了微生物基因组学的发展。然而,由于测序读长短、数据量大、基因组结构复杂以及测序过程中的偏向性等原因,使得已完成测序的一些物种的基因组中含有数目不等的空缺区域。据统计,自2008年以来GenBank释放的5276个微生物基因组序列中仅有32% (1692)是完整序列。基因组空缺区域中可能存在重要的生物学信息,如果不能补齐所有的Gap,不仅无法获得完整的基因组图谱,还会给后续的基因组信息解读(操纵子结构、基因调控、SNP分析以及比较基因组等)造成困难。因此,完整微生物基因组序列的获得需要在完成测序之后对空缺区域进行填充,即将测序拼装后生成的叠联群(Contig)之间的Gap进行填充,然后按照一定的次序和方向拼装生成一条完整的基因组序列(完成图),这个过程称之为基因组的Gap closure(或补洞)。
Gap closure的关键在于准确定位不同Contig之间的相对位置关系(Linkage关系),一旦位置关系确定,即可通过PCR扩增Gap区域序列或是文库克隆步移测序的方式补齐Gap区域。然而,由于一些微生物基因组GC含量高、重复序列数目多且长度大(插入序列、rDNA操纵子、大片段重复等)以及NGS测序读长较短等原因造成测序偏向性高、拼接后生成过多的Contig,从而增加了Gap closure的难度。此外,缺少基因组参考序列或是与参考序列比对同源性低等因素,使得生成的Contig无法有效定位,也会导致Gap closure难度增加,因此Contig定位被认为是微生物基因组Gap closure过程中最困难和最耗时的阶段。一些生物信息学软件被开发用于微生物基因组的Gap closure,并取得了一定的效果;但对于基因组中的高度重复区域和低覆盖率区域的干扰仍无法有效解决,必需借助实验手段获得额外的序列信息才能最终完成基因组的Gap closure,因而应用的范围和准确性受到一定限制。
提高测序覆盖率在一定程度上可以有效减少基因组中的Gap,但成本相对较高,并且对于一些复杂的微生物基因组效果有限,如454二代测序覆盖率为10×时,喜温硫杆菌SM-1测序后生成的Gap数目为400个;测序覆盖率提高至25×时,Gap数目减少至280个;但当测序覆盖率继续提高至38×时,Gap数目进入平台期(276个),相比25×测序覆盖率时仅减少了4个,已经不能再单纯通过提高覆盖率来减少Gap数目。因此,对于复杂的微生物基因组,需要将基因组的Gap closure分为几个阶段,针对不同阶段采用相应的策略进行:如果Gap数目大于200个,可以通过构建基因组文库、Paired-End测序或者采用基因组光学图谱技术的策略确定Contig之间的相对位置和顺序,然后再依次关闭Contig之间的Gap区域;当Ga数目小于100个时,可以采用多引物PCR的策略寻找Linkage信息,关闭所有能够关闭的Gap;如果最后还剩余几个Gap无法关闭,则可以采用基因组步移或文库筛选的策略,如在对喜温硫杆菌SM-1基因组Gap closure时,通过结合构建基因组文库、Paired-End测序、多引物PCR以及Fosimid文库筛选等多种策略最终完成了SM-1基因组的Gap closure。