转录组入门(3):了解fastq测序数据

如题所述

第1个回答  2022-07-29

来源还是 生信技能树 。

高通量测序产生的海量数据都是经过压缩再上传的,目前比sra更好的压缩方式也正在研究中。首先把sra文件转换成人可读的fastq格式:

--gzip 输出gz压缩格式 --split-3 对PE reads使用

首先看下fastq数据前几行了解数据大概内容。因为是PE测序,所以两个文件都分别看下 zcat SRR3589959_1.fastq.gz |head -n 8 和 zcat SRR3589959_2.fastq.gz |head -n 8 。

可以看出fastq数据每条read的记录由4行组成:

其中

HWUSI-EAS100R 设备名

6 flowcell lane(流动槽泳道号)

73 tile number within the flowcell lane(泳道区块号)

941 ‘x’-coordinate of the cluster within the tile(区块上x坐标)

1973 ‘y’-coordinate of the cluster within the tile(区块上y坐标)

#0 index number for a multiplexed sample (0 for no indexing)

/1 the member of a pair, /1 or /2 (paired-end or mate-pair reads only)

ls *.fastq.gz |xargs fastqc -t 6

结果如下:

其中绿色表示检测通过,黄色为警告,红色为未通过。如图Per base sequence content因为前15个碱基分布异常而未通过检测,可能存在序列污染或者接头没去干净。一般mRNA测序数据的碱基分布都是比较均一平行的,而 ChIP-seq、RIP-seq则可能出现比较大的碱基分布偏好
根据最后三项检测可以进一步分析是否有污染或者没去干净的接头序列存在。

相似回答