DataFrame是Pandas库中用于存储和操作结构化数据的主要数据结构,其创建方式多样,且具备丰富的属性和遍历方法。以下是关于DataFrame创建的几种主要方式及其相关属性的简要介绍:
DataFrame的创建方式:
根据列表创建:
默认index和columns:可以直接传入一个包含多个子列表的列表,每个子列表代表一行,Pandas会自动为每列分配默认的索引和列名。指定索引与列名:在创建时,可以通过index和columns参数指定自定义的索引和列名。
根据字典创建:
字典的键作为列名,值作为对应列的数据。要求所有值的长度一致,以匹配DataFrame的行数。复合式字典:如果字典的值本身也是字典或列表的字典,Pandas可以按单位进一步分列。
根据二维数组创建:
可以直接传入一个二维数组,Pandas会根据数组的形状创建DataFrame,并自动分配默认的列名。
从外部文件读取:
使用pd.read_csv、pd.read_excel等函数读取CSV、Excel等格式的外部文件,创建DataFrame。需要指定文件路径,并可选择性地指定分隔符、列名、索引等参数。
DataFrame的常用属性:
行、列、元素的访问与修改:使用.iloc和.loc属性访问或修改DataFrame中的行、列或元素。注意.iloc基于整数位置索引,而.loc基于标签索引。可以通过赋值操作修改DataFrame中的数据。
DataFrame的遍历方法:
iterrows:按行迭代DataFrame,每次返回一个包含行索引和该行数据的Series对象。itertuples:按行迭代DataFrame,但返回的是一个命名元组,包含行索引和列值,效率更高。iteritems:按列迭代DataFrame,每次返回一个包含列名和该列数据的Series对象。
这些创建方式和属性方法使得DataFrame成为处理和分析结构化数据的强大工具。