NGS008 测序常用名词

如题所述

第1个回答  2022-06-14
高通量测序技术(High-throughput sequencing)又称“下一代”测序技术("Next-generation" sequencing technology),以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。

全基因组测序是对未知基因组序列的物种进行个体的基因组测序

全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析,通过序列比对,可以找到大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel,Insertion/Deletion)、结构变异位点(SV,Structure Variation)位点和拷贝数变异位点(CNV,copy number variation)。

基因组从头测序,是指在不依赖参考基因组的情况下对某物种进行基因组测序,然后应用生物信息学手段对测序序列进行拼接和组装,从而绘制该物种的全基因组序列图谱。

外显子测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。

转录组(transcriptome)广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。蛋白质是行使细胞功能的主要承担者,蛋白质组是细胞功能和状态的最直接描述,转录组成为研究基因表达的主要手段,转录组是连接基因组遗传信息与生物功能的蛋白质组的必然纽带,转录水平的调控是目前研究最多的,也是生物体最重要的调控方式。

也称微生物环境基因组Microbial Environmental Genome, 或元基因组,是由 Handelsman 等 1998 年提出的新名词, 其定义为“the genomes of the total microbiota found in nature” , 即环境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因,目前主要指环境样品中的细菌和真菌的基因组总和。宏基因组学(或元基因组学,metagenomics)是一种以环境样品中的微生物群体基因组为研究对象,以功能基因筛选和/或测序分析为研究手段,以微生物多样性、种群结构、进化关系、功能活性、相互协作关系及与环境之间的关系为研究目的的新的微生物研究方法。一般包括从环境样品中提取基因组DNA, 进行高通量测序分析,或克隆DNA到合适的载体,导入宿主菌体,筛选目的转化子等工作

过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建;然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等相互作用的DNA区段信息。

非编码RNA的发现使得RNA领域再次成为了生命科学研究关注的焦点。因为RNA是一种不稳定的生物大分子, 绝大多数的RNA都需要与特定的RNA结合蛋白质结合形成RNA/蛋白复合物才能稳定存在于细胞中; 不仅如此, RNA 与 RNA 结合蛋白之间的动态关联贯穿和伴随了 RNA 的转录合成、加工和修饰、胞内运输和定位、功能发挥及降解的整个生命循环。鉴于此, 利用 RNA 结合蛋白分离或发现鉴定功能性 RNA分子是RNA研究领域中一个不可或缺的研究方法。简单地说,就是利用RNA结合蛋白的抗体免疫沉淀RNA/蛋白复合物, 再从沉淀的RNA/蛋白复合物中分离得到特定RNA结合蛋白的RNA; 分离得到的RNA可以通过末端标记和变性胶电泳对 RNA 分子的大小进行鉴定, 也可以利用高通量RNA 测序方法对 RNA序列进行分析。

将DNA样本进行片段化处理,末端修复,连接单端/双端接头构建文库上机测序。

基因PANEL是一个基因组合,在基因检测中使用基因PANEL所检测的基因比单一的位点要多,比PCR技术检测的序问列要长,相对来说,获得的基因信息量要多一些。

单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每300个碱基对中就有1个,估计其总数可达300万个甚至更多。
在基因组DNA中,任何碱基均有可能发生变异,因此SNP既有可能在基因序列内,也有可能在基因以外的非编码序列上。从对生物的遗传性状的影响上来看,cSNP又可分为2种:一种是同义cSNP(synonymous cSNP),即SNP所致的编码序列的改变并不影响其所翻译的蛋白质的氨基酸序列,突变碱基与未突变碱基的含义相同;另一种是非同义cSNP(non-synonymous cSNP),指碱基序列的改变可使以其为蓝本翻译的蛋白质序列发生改变,从而影响了蛋白质的功能。这种改变常是导致生物性状改变的直接原因。cSNP中约有一半为非同义cSNP。

SNP及SNV都是单核苷酸的改变,但是SNP一般是二态的,SNV则不受此限制
SNP是群体概念,如果在一个物种中,单碱基的变异频率达到一定的水平(如Germline mutation>1%)就是SNP,而频率未知(比如在单个个体中)就叫SNV。
SNP一般是各个物种都有的,通过同源基因比对得到的,一般不发生变化,而SNV只针对单一基因,单个个体而言。

Soft Clip,是指虽然比对不到基因组,但是还是存在于SEQ (segment SEQuence)中的序列,直白点说,就是虽然比对不上参考基因组,但是在BAM/SAM文件中的reads上还是存在的序列(并没有被截断扔掉的序列)。

Hard Clip就表示比对不上并且不会存在于SAM/BAM文件中的序列

Duplicate ,字面意思是重复,在二代测序中,特指测序得到的reads 是“重复”的,这个重复的定义主要基于两方面,一个是reads比对到基因组的位置与碱基是否完全一致,二是比对到参考基因组的方向(二代双端测序,是FR reads,即read one 是 forward,read two 经桥式扩增后测序是reverse)是否完全一致,满足这两点一致的时候,就被认为是duplicate。
关于Duplicate的产生:1)PCR 扩增产生相同的片段(PCR duplicate)2)仪器原理的原因,首先根据reads 比对位置,碱基相似度,方向等原因找出一样比对的duplicate reads,这其中就包括了PCR duplicate与Optical duplicate

基因组组装一般分为三个层次(contig,scaffold和chromosomes.),
拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)
通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold
Reads拼接后会获得一些不同长度的Contigs.将所有的Contig长度相加,能获得一个Contig总长度.然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,contig 3...………Contig 25.将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50.举例:Contig 1+Contig 2+ Contig 3 +Contig 4=Contig总长度1/2时,Contig 4的长度即为Contig N50.ContigN50可以作为基因组拼接的结果好坏的一个判断标准.
Scaffold N50:Scaffold N50与Contig N50的定义类似.Contigs拼接组装获得一些不同长度的Scaffolds.将所有的Scaffold长度相加,能获得一个Scaffold总长度.然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25.将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50.举例:Scaffold 1+Scaffold 2+ Scaffold3 +Scaffold 4 +Scaffold 5=Scaffold总长度1/2时,Scaffold 5的长度即为Scaffold N50.Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准.

测序深度(Sequencing depth)是指测序得到的碱基总量(bp)与基因组大小的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。测序的个体,如果采用的是双末端或Mate-Pair方案,当测序深度在50X~100X以上时,基因组覆盖度和测序错误率控制均得以保证,后续序列组装成染色体才能变得更容易与精准。

基因组被测序得到的碱基覆盖的比例;测序覆盖度是反映测序随机性的指标之一;测序序深度与覆盖度之间的关系可以过Lander-Waterman Model(1988)来确定。当深度达到5X时,则可覆盖基因组的约99.4%以上

液相杂交捕获(In-Solution Capture)一定程度上允许“容错型”富集,即目标区域与捕获探针(Capture Probe 或 Bait)有较大区域互补结合就可以被有效富集。靶向捕获的灵敏度与特异性则经由捕获探针的特异性、杂交反应体系、洗脱体系的严谨性等要素把控。NGS常使用碱基或者读长(Reads)来计算中靶率,常以百分比表示。中靶率代表了靶向区域范围内的碱基数或Reads数占有效测序下机数据中碱基总数/Reads总数的比例。在以Read为基础的计算方法中,当Read中有一个碱基能比对到靶序列,则认为该Read中靶。

RPKM是Reads Per Kilobase per Million mapped reads的缩写,代表每百万reads中来自于某基因每千碱基长度的reads数。RPKM是将map到基因的read数除以map到基因组上的所有read数(以million为单位)与RNA的长度(以KB为单位)。
RNA-seq是二代测序技术中用来表示基因表达量或丰度的方法。在衡量基因表达量时,若是单纯以map到的read数来计算基因的表达量,在统计上是不合理的。因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表达量较高,而错估基因真正的表现量,所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量。

Fragments per Kilobase Million,FPKM意义与RPKM极为相近。二者区别仅在于,Fragment 与 Read。

基因的二代测序中,每测一个碱基会给出一个相应的质量值,这个质量值是衡量测序准确度的。碱基的质量值13,错误率为5%,20的错误率为1%,30的错误率为0.1%。行业中Q20与Q30则表示质量值≧20或30的碱基所占百分比。

细胞程序性死亡-配体1(Programmed cell death 1 ligand 1,PD-L1)也称为表面抗原分化簇274(cluster of differentiation 274,CD274)或 B7同源体(B7 homolog 1,B7-H1),是人类体内的一种蛋白质,由CD274基因编码。
PD-L1 是大小为 40kDa 的第一型跨膜蛋白,据信其在某些特殊情形(例如怀孕、组织移植、自体免疫疾病,以及诸如肝炎等某些疾病)下,免疫系统的抑制有关。正常情形下免疫系统会对聚集在淋巴结或脾脏的外来抗原产生反应,促发具抗原特异性的细胞毒杀性T细胞(CD8+ Tcell增生)。而细胞程序性死亡受体-1(PD-1)与细胞程序性死亡-配体1(PD-L1)结合,可以传导抑制性的信号,减低淋巴结CD8+T细胞的增生, 而且PD-1还可以借由调节Bcl-2基因,控制淋巴结中抗原特异性T细胞的聚积。