微信公众号:尤而小屋 作者:Peter 编辑:Peter
深入了解DataFrame数据结构
在系列文章的前期,我们已经探讨了pandas中的关键数据结构,包括Series和DataFrame。DataFrame是pandas的核心,几乎所有的后续内容都将围绕其操作展开。掌握DataFrame的创建至关重要。
以下是创建DataFrame的十种方法,主要借助函数 pd.DataFrame():
直接创建一个空的DataFrame,虽然输出为空,但类型显示为DataFrame。
通过设置值为NaN,可以创建包含缺失数据的DataFrame。
逐列构建DataFrame,将数据以列表的形式组织。
包括CSV、Excel、JSON和TXT文件,如成都美食CSV数据和JSON数据的导入。
借助pymysql,连接数据库后提取数据,如Student表的读取。
使用字典构建,包括单层和嵌套字典,以及包含列表的字典。
列表形式创建,可自定义索引,包括嵌套列表。
元组与列表类似,支持单层和嵌套。
利用Series合并列创建DataFrame。
利用NumPy函数生成、数组或随机数据。
以字典结构输入数据,支持自定义行索引和列名。
处理结构化数据,如嵌套元组列表。
总结来说,DataFrame是pandas中以表格形式存储数据的关键工具,通过以上方法,你可以灵活地构造和导入数据进行分析。下一篇文章将聚焦于DataFrame数据的查询和筛选技巧。