第1个回答 2024-08-25
数据科学是综合统计学、计算机科学和领域知识的交叉学科,用数据研究科学,科学研究数据,与人工智能、数据挖掘、机器学习、深度学习、大数据密切相关。Hadley Wickham定义数据科学工作流程包括数据导入、清洗、变换、可视化、建模与沟通。
R语言由Ross Ihaka和Robert Gentleman于1992年设计,旨在简化统计课程教授。R语言在数据科学中广泛应用,尤其在统计计算、数据分析和可视化领域。重要事件包括2000年R 1.0.0发布,2005年ggplot2包的出现,2016年tidyverse包推出,2022年R 4.1.2发布。CRAN上的R包数量达到18985,近两年增速加快。TIOBE编程语言排行榜显示,R语言近年排名稳定在10~20名之间。IEEE Spectrum 2021年度编程语言排行榜综合多个信息源,考虑社交网站、开源代码网站和求职网站数据,提供编程语言流行度排名。在数据科学领域,R语言受到青睐,因其统计功能强大、图形表示和报告能力突出,且免费开源、兼容多种操作系统。
R语言被统计学家Hadley Wickham改变,他对统计应用领域贡献显著。2019年,Wickham获得国际统计学领域最高奖项COPSS奖。他开发/出版了大量知名R包及R相关书籍,如《R数据科学》、《ggplot2:数据分析与图形艺术》、《高级R语言编程指南》和《R包开发》,在数据科学、统计计算、数据操作、数据清洗、数据可视化、数据导入和R开发工具方面提供深入指导。