RNA-seq转录组名词解释基础

如题所述

第1个回答  2022-06-06
2019年7月24日,Nature Reviews Genetics上发表了一篇了RNA-seq的综述,文献信息如下所示:

Stark, R., et al. (2019). "RNA sequencing: the teenage years." Nature Reviews Genetics.

摘要:在过去的十年中,RNA测序(RNA-seq)已经成为在全转录组范围内分析差异基因表达和mRNAs差异剪接的重要工具。然而,随着下一代测序技术的发展,RNA-seq技术也在不断发展。现在,RNA-seq用于研究RNA生物学的许多方面,其中包括单细胞基因表达、翻译(翻译组,translatome)和RNA结构(结构体,structurome)。其它的应用也在开发中,例如 空间转录学(Spatialomics)。加上新的长片段 (long-read)和直接RNA-seq技术以及用于数据分析的更好的计算工具的整合,RNA-seq技术的创新有助于人们更全面地理解RNA生物学,例如从何时何地转录发生到控制RNA功能的折叠和分子间相互作用等问题。

这篇综述信息密度很高,先把文献旁边的名词解释给译了一下,如下所示:

1. 差异基因表达: Differential gene expression, 即DGE,一种分析方法,目标是使研究者们找出不同实验组之间的变化的基因。

2. 读长深度:Read depth, 一个样本测序后所获得的 所有测序读长( reads), 注意与测试深度进行区分。

3. 短读长:short-read: 一种测序技术,产生的读长(read)的长度为500bp,但更常见的是100-300bp,它测的是打断后的mRNA。

4. 长读长:long-read, 一种测序技术,能够没到1000bp,它代表的全长或接近全长的mRNA。

5. 直接RNA测序: Direct RNA sequencing,dRNA-seq,一种测序技术, 在不用打断RNA以及反转录的情况下,对RNA进行直接测序 ,其目标通常是为了检测全长或接近全长的RNAs。

6. 多重回贴读长 :multi-mapped reads:来源于转录组的同源区(homologous region)的测序读长,这些读长无法明确地回贴到基因组上或转录组上。

7. 合成长读长: synthetic long reads:一种方法,能够通过组装来对多个短读长进行合成,生长长读长。

8. 唯一分子标签: Unique molecular identifiers, UMIs ,一种短的序列或编码标签(barcodes),这些短序列通常会 在RNA-seq文库制备过程中进行添加(在进行PCR之前) ,这种序列能够对一个特定的起始分子进行标记。此方法通用用于 校正RNA-seq数据的定量偏差, 在少量RNA进行测序或单细胞测序中使用尤为广泛。

9 。读长长度:read length:每个 测序读长的长度,在短读长RNA测序过程中,这个长度通常是50-150bp。

10. 灵敏度: Sensitivity,一种指标,它表示在每个样本中,能够 检测到转录本的比例 。样本处理,文库制备,测序以及数据分析都会影响这个指标。

11. 特异性:specificity:  一种检测指标,它表示的是 差异表达的转录本在检测到的转录本中的比例 。样本处理,文库制备,测序和数据分析都会影响这个指标。

12. 标签读长:Tag read,  对于一个转录本来说,一个标签读长是唯一,它通常来源于mRNA的3‘末端,这种读长用于分析差异表达转录本,或者是来源于5'端,这种通常用于分析转录起始位点和启动子。

13. 重复率:duplication rates,  在一个RNA测序样本中, 回贴到转录本上同一位置的测序读长的比例。 在RNA-seq文库中,对于一些转录本来说, 重复率是比较高的,这是因为它们在样本中的的表达水平比较高,同时低表达的转录本,重复率很低。

在RNA-seq中,重复率是一个重要问题,因为多数情况下,重复的读长或许代了真正高表达的转录本,而一些重复读长则是有可能来源于测序偏倚。所以,要加以判断!!

14:单端测序: single-end squencing,只测cDNA片段的一端的短读长测序手段,它通常用于基因表达分析实验,优势就是便宜。

15. 双端测序: paired-end sequencing,同时测cDNA片段的两端短读长测序手段,通常用于基因表达分析实验,如果是要研究剪接,则需要最大的灵敏度,因为每个cDNA的更多碱基会被检测到。

16. 生物学重复: Biological replicates:同时检测生物学意义上的不同样本,例如来源于 不同的3个研究对象的组织 ,生物学重复可以发现生物学偏差,这要么代表了自身的一种研究駨,要么代表了噪音。相比之下,

技术重复 则是: 对同一个样本进行重复的要检测 ,例如同一个组织检测3次,检查是否是因为实验技术导致的偏差。

17. 表达矩阵:Expression matrix, RNA-seq中差异表达基因的数值矩阵。行代表RNA特征,例如基因名或转录本名,列表示测序样本。这些值通常用与每个RNA特征相关在的读长数目表示,表达矩阵可以用于估计异构体特征,在进行下游分析之前, 通常要经过归一化处理(normalization)。

18. 外参控制(spike-in control) ,处理样本之前,spink-in ,将已知浓度的外源核酸混合物添加到一个样本中。它们通常是各种浓度的人工合成的RNA序列,会被提前混合,用于 监测反应效率 ,并确定方法学的偏倚处理以及用于监测假阴性。

19. 空间转录组学, Spatialomics, 一种转录组分析方法,它能保留一个样本中每个转录本的 空间信息,例如一个组织的不同区域。

20. 初始RNA ,Nascent RNA,刚开始被转录的RNA,这些RNA与那些已经被处理后,输送到细胞质的RNA不同。

21. 4-硫尿核苷, 4-Thiouridine, 4 sU,含有一个硫原子的核苷,通常不并存在于真核生物的mRNA中,它很容易整合进核酸中,用于初始RNA分析。

22. 翻译组:Translatome ,一个细胞,组织或机体中,所有 从mRNA翻译到蛋白质 的总和。

23. 结构组:Structurome, 一个细胞,组织或机体中,所有 二级和三级结构的RNA 总和。

24. 相互作用组: Interactome,一个细胞,组织或机体中,所有 分子之间相互作用 的总和,包括RNA-RNA,RNA-蛋白质之间的相互作用。
相似回答