NHANES数据库介绍及R语言数据提取详细步骤(图文详解)

如题所述

NHANES数据库介绍及数据提取

1. NHANES项目介绍

国家健康与营养调查(National Health And Nutrition Examination Survey,NHANES)是美国疾病控制和预防中心(CDC)执行的一项基于人群的横断面调查研究计划。该项目始于1960年代,自1999年起持续进行,旨在评估美国成人和儿童的健康和营养状况。NHANES每年调查约5000人的全国代表性样本,由医生、医疗技术人员和健康调查员组成研究小组。参与者自愿参与,接受标准化的访谈和检查。访谈包括人口统计学、社会经济学、饮食和健康问题,检查包括医学、牙科和生理测量,以及实验室检验。调查结果用于确定主要疾病的患病率和风险因素,并为营养和健康政策的制定提供数据支持。

NHANES收集了人群中慢性病患病率的数据,通过调查估算未确诊情况、已知情况。同时调查风险因素,包括生活方式、体质、遗传和环境因素,如吸烟、饮酒、性行为、吸毒、健康状况、运动、体重、饮食摄入和生殖健康。研究的疾病和健康指标包括贫血、心血管疾病、糖尿病、眼疾、听力损失、传染性疾病、肾脏疾病、营养、肥胖、口腔健康、骨质疏松、生育史、呼吸系统疾病、性病和视力等。研究结果有助于确定慢性疾病的患病率和危险因素,便于流行病学研究,并为公共卫生政策和卫生服务计划提供依据。

2. NHANES官网介绍(http://cdc.gov/nchs/nhanes/ind...

点击左侧导航栏中的数据集,可浏览可供选择的年份,每两年为1个周期。点击相应周期后,可见到数据库的主要数据(人口数据、饮食数据、检查数据、化验数据、问卷数据、限制访问数据)。人口统计文件包含测量设计变量、人口统计变量。饮食文件包含饮食摄入数据。检查文件包含体检和牙科检查信息。实验室文件包含血液、尿液、头发、空气、肺结核皮肤试验和家庭灰尘、水样本分析结果。问卷文件包含家庭和流动考试中心访谈数据。其他重要信息包括调查内容总纲、问卷工具、实验室检验方法等。

以NHANES2017-2018人口数据为例,点击后可见数据下载链接。

3. 数据下载、合并

NHANES数据库的数据是碎片化存储的,进行大数据分析时,需要下载相关数据并进行拼接整合。NHANES数据为XPT格式,可以使用SAS Universal Viewer、SUDAAN、SPSS、Stata和R软件包查看或转换文件。本文介绍R语言下载数据、合并数据的流程。

3.1 安装R语言(https://cran.r-project.org/

3.2 安装R Studio (https://rstudio.com/products/rs...

3.3 导入数据

启动R Studio,创建新的R脚本并输入代码

library(foreign)

demo_data <- read.xport('D:/nhanes/DEMO_J.xpt')

可以看到顺利导入数据

(友情提示,如果遇到报错提示 could not find function "read.xport",可以在右下界面package中搜索foreign软件包,点击read.xport函数后Run examples,再次运行上述代码即可)

demo_data 共有9254个样本,46个变量,点开后可见表格形式展示如下,SEQN是样本编号,SDDSRVTR、RIDSTATR、RIAGENDR、RIDAGEYR等变量名对应的具体信息可在变量列表中找到,SDDSRVTR代表数据发布周期,RIDSTATR代表面试和检查的状态,RIAGENDR代表性别,RIDAGEYR代表年龄。

3.4 合并数据

然后下载我们感兴趣的其他数据,如血压数据

然后导入R Studio,发现有8704样本,21变量。

将两个数据集合并成为一个,取名为merge_data,具体代码如下

library(foreign)

demo_data <- read.xport('D:/nhanes/DEMO_J.XPT')

blood_data <- read.xport('D:/nhanes/BPX_J.XPT')

merge_data <- merge(demo_data, blood_data, by.x = 'SEQN', by.y = 'SEQN', all = TRUE)

输入代码

write.csv(merge_data, file = "./merge_data.csv")

可以得到一个CSV格式的数据集,直接用EXCEL进一步编辑处理。
温馨提示:答案为网友推荐,仅供参考
相似回答
大家正在搜