r语言中使用Bioconductor 分析芯片数据

如题所述

安装 R 和 Bioconductor 包

打开命令终端,先安装 R 和 Bioconductor 的依赖包,然后安装 R。

$ sudo apt-get install r-base-core libxml2-dev libcurl4-openssl-dev curl

之后在 R 环境中安装 Bioconductor 包。

如果你没有管理员权限,你需要将这些包安装到你个人库目录中。安装 Bioconductor 需要一段时间,GEOquery 包也需要安装,GEOquery 是 NCBI 存储标准化的转录组数据的基因表达综合数据库 GEO 的接口程序。

下载芯片数据

本教程中使用 Dr Andrew Browning 发表的数据集 GSE20986。本实验设计中,从捐献者的眼组织中提取的虹膜、视网膜、脉络膜微血管内皮细胞用来和 HUVEC 细胞进行比对,以便考查 HUVEC 细胞能否替代其他细胞作为研究眼科疾病的样本。对于每组样本有三次测量,样品分成四组 iris, retina, HUVEC, choroidal。

实验平台是 GPL570,即 GEO 数据库对人类转录组芯片 Affymetrix Human Genome U133 Plus 2.0 Array 的缩写。通过 GSM 链接 GSM524662,我们可以得到各个芯片的更多实验条件信息。对于每一个芯片,数据表中存储着探针组和对应探针组标准化之后的基因表达量值。

载入数据并对其进行标准化

需要先安装 simpleaffy 包,simpleaffy 包提供了处理 CEL 数据的程序,可以对 CEL 数据进行标准化同时导入实验信息(即前一步中整理好的实验信息文本文件内容),导入数据到 R 变量 celfiles 中。

现在我们需要对数据进行标准化,使用 GC-RMA 算法对 GEO 数据库中的数据进行标准化,第一次运行的时候需要下载一些其他的必要文件。

如果你想看标准化之后的数据,输入 celfiles.gcrma,你会发现提示已经不是 AffyBatch object 了,而是 ExpressionSet object,是已经标准化了的数据。

数据质量控制

再进行下一步的数据分析之前,我们有必要对数据质量进行检查,确保没有其他的问题。首先,可以通过对标准化之前和之后的数据画箱线图来检查 GC-RMA 标准化的效果。

数据标准化之前的箱线图

数据标准化之后的箱线图

数据标准化之前的密度曲线图

数据标准化之后的密度曲线图

通过这些图我们可以看出这12张芯片数据之间差异不大,标准化处理将所有芯片信号强度标准化到具有类似分布特征的区间内。通过 affyPLM 对单个芯片 CEL 数据进行可视化,可以更详细地了解芯片探针信号强度。

数据过滤

现在我们可以对数据进行分析了,分析的第一步就是要过滤掉数据中的无用数据,例如作为内参的探针数据,基因表达无明显变化的数据(在差异表达统计时也会被过滤掉),信号值与背景信号差不多的探针数据。下面的 nsFilter 参数是为了不删除没有 Entrez Gene ID 的位点,保留有重复 Entrez Gene ID 的位点。

我们可以看出有 27307 个探针位点因为无明显表达差异(LowVar)被过滤掉,有 62 个探针位点因为是内参而被过滤掉。

层次聚类图

通过层次聚类可以查看样本之间的关系。图形显示,与其他眼组织相比 HUVEC 样品是单独的一组,表现出组织类型聚集的一些特征,另外 GSM524665.CEL 数据在此图中并不显示为异常值。
温馨提示:答案为网友推荐,仅供参考
相似回答
大家正在搜