数据分析:数据载入、存储及文件格式

如题所述

将表格型数据读取为DataFrame对象是pandas的重要特性。这些函数的可选参数主要有以下几种类型:从多个列中形成一个分层索引,下例中,由于列名的数量比数据的列数少一个,因此read_table推断第一列应当作为DataFrame的索引。缺失值处理,默认情况下,pandas使用一些常见的标识,例如NA和NULL。定义替换规则,下例中,将message列所有值为foo或NA的替换为Null,将something列所有值为two的替换为Null。分块读入文本文件,可以遍历ex6.csv,并对key列聚合获得计数值。将数据写入文本格式,使用DataFrame的to_csv方法,将数据导出为逗号分隔的文件,使用DataFrame的to_csv方法,将数据导出为其他的分隔符的文件,Series也有to_csv方法。使用分隔格式,绝大多数的表型数据都可以使用函数pandas.read_table从硬盘中读取。然而,在某些情况下,接收一个带有一行或多行错误的文件并不少见,read_table也无法解决这种情况。ex7.csv 文件内容,如果需根据不同的分隔符、字符串引用约定或行终止符定义一种新的格式时,可以使用csv.Dialect定义一个简单的子类,直接将CSV方言参数(dialect)传入csv.reader的关键字参数。对于具有更复杂或固定的多字符分隔符的文件,将无法使用csv模块。在此类情况下,将使用字符串的split方法或正则表达式方法re.split进行行拆分和其他清理工作。需要手动写入被分隔的文件时,你可以使用csv.writer。这个函数接收一个已经打开的可写入文件对象以及和csv.reader相同的CSV方言、格式选项。JSON数据,将JSON字符串转换为Python形式时,使用json.loads方法。另一方面,json.dumps可以将Python对象转换回JSON。将JSON对象或对象列表转换为DataFrame或其他数据结构。比较方便的方式是将字典构成的列表(之前是JSON对象)传入DataFrame构造函数,并选出数据字段的子集。pandas.read_json可以自动将JSON数据集按照指定次序转换为Series或DataFrame。例如读取 data = pd.read_json('../examples/example_new.json')
温馨提示:答案为网友推荐,仅供参考
相似回答