转录组入门(3)：了解fastq测序数据

如题所述

第1个回答 2022-07-29

来源还是生信技能树。

高通量测序产生的海量数据都是经过压缩再上传的，目前比sra更好的压缩方式也正在研究中。首先把sra文件转换成人可读的fastq格式：

--gzip 输出gz压缩格式 --split-3 对PE reads使用

首先看下fastq数据前几行了解数据大概内容。因为是PE测序，所以两个文件都分别看下 zcat SRR3589959_1.fastq.gz |head -n 8 和 zcat SRR3589959_2.fastq.gz |head -n 8 。

可以看出fastq数据每条read的记录由4行组成：

其中

HWUSI-EAS100R 设备名

6 flowcell lane（流动槽泳道号）

73 tile number within the flowcell lane（泳道区块号）

941 ‘x’-coordinate of the cluster within the tile（区块上x坐标）

1973 ‘y’-coordinate of the cluster within the tile（区块上y坐标）

#0 index number for a multiplexed sample (0 for no indexing)

/1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only)

ls *.fastq.gz |xargs fastqc -t 6

结果如下：

其中绿色表示检测通过，黄色为警告，红色为未通过。如图Per base sequence content因为前15个碱基分布异常而未通过检测，可能存在序列污染或者接头没去干净。一般mRNA测序数据的碱基分布都是比较均一平行的，而 ChIP-seq、RIP-seq则可能出现比较大的碱基分布偏好 。
根据最后三项检测可以进一步分析是否有污染或者没去干净的接头序列存在。

相似回答

3、RNAseq(3)--对RNAseq测序数据的质量控制(fastqc)答：一般是测序机器前几个碱基测序时候因为状态调整导致测序略有偏差，如果前几个碱基偏差较大，可以在后期将前几个碱基切掉。造成这个偏差较大的原因重要是由于测序数据中的adapter没有clean干净。所以在接下来的数据处理中需要对测序数据进行clean data的处理，下一个章节会详细介绍clean data的步骤。统计read的...

转录组学分析流程答：1. 数据来源假设有两个不同组织（PR和SR），每个组织各区三个样本，一共六个样本，利用illumina平台进行转录组测序，得到双端测序数据。数据原始格式为 .fq ,共有12条测序数据文件（每个样本产生两条）2. 测序数据质量评估利用fastQC软件对获得的fastq序列文件进行质量分析，生成html格式的结果报告，...

RNA-seq分析入门流程答：后续用fastp进行数据处理：`fastp -i SRR6502085.fastq -o SRR6502085.clean.fastq`。三、参考基因组准备下载和准备参考基因组，安装gffread后，进行gff3到gtf的转换：`gffread IRGSP-1.0_genome.gff -T -o IRGSP-1.0_genome.gtf`。四、转录组比对与表达估计使用hisat2构建索引，进行比对和文件转换...

转录组原始数据包括什么答：转录组原始数据包括递交原始序列。转录组有两部分数据要递交，首先是拼接的转录组序列，一般递交到tsa上，另一个是fastq的原始测序数据，一般递交到sra上。前两年还有论文只提交tsa不递交原始数据，目前发表的论文基本都要提交。这也是便于其他人可以完全重复你的实验和数据分析的必要要求。简介 GSA(Genome ...

转录组数据分析RNA-seq答：RNA-seq（RNA测序）是一种先进的转录组研究技术，它利用高通量测序平台来直接测量细胞中的RNA分子数量。这种技术能够提供关于基因表达的定量信息，包括未知基因的发现、已知基因的表达水平变化、以及可变剪接事件等。RNA-seq数据分析是一个复杂的过程，主要分为以下步骤：1.数据质量控制：检查原始测序数据的...

生物信息学100个基础问题——第1~ 5题答案公布答：FASTA用于存储单一序列，如蛋白（如HBA_HUMAN）或核酸序列（如Homo sapiens mRNA）。 3. 数据格式选择单纯序列用FASTA，测序数据则用包含仪器信息和质量的FASTQ。4. 第1代与第2代测序 Sanger测序基于DNA复制，通过双脱氧终止法，但通量低，凝胶电泳时间长。 Illumina测序（第2代）特点是高通量、...

RNA-Seq数据分析——原始数据质量控制(QC)答：一、常用工具：常用的质量控制工具有FastQC、MultiQC等，这些工具能提供测序数据的基本统计信息和质量报告。二、QC主要步骤：1.基本统计：统计读段数量、平均长度等。2.质量评分：评估测序读段的质量分布，通常使用Phred质量分数。3.接头和污染序列检测：查找和去除可能的接头序列和其他非目标序列。4.GC含量...

测序数据量?reads数目?cluster?答：数据量=reads长度 X reads个数 (reads长度很容易得知，reads个数等于测序所得到的fastq文件的总reads数)数据量=单端reads长度 X 单端reads个数 X 2 通常测序数据量的单位都是用“G"表示，例如1G。需要强调的是，这里所说的G不是说测序文件在硬盘上的大小为1G，而是表示10亿个碱基。这是如何计算的...

全长转录组测序技术算不算生物信息学答：这个文章里面的每个样品的测序数据量并不多，就是常规的mRNA的转录组测序的数据量，它并没有专门的去针对每个样品进行检测普通mRNA，加上 lncRNA，miRNA，CircRNA这样的3种常规非编码基因得到独立的fastq文件。所以我们把目光转到另外两个《Molecular Cancer》杂志的文章；《 circPARD3 drives malignant ...

大家正在搜

转录组测序数据的分析与解读转录组测序和基因组测序转录组测序数据量转录组测序数据分析转录组测序数据上传转录组测序数据库转录组测序可以解决的问题转录组测序fpkm的意思为什么要做转录组测序