pandas.read_csv参数详解

如题所述

第1个回答  2024-09-07
读取CSV文件到DataFrame,支持文件的部分导入和选择迭代。

参数包括:header、date_parser、dayfirst、index_col、usecols、skiprows、filepath_or_buffer、sep、delimiter、delim_whitespace、names、as_recarray、squeeze、prefix、mangle_dupe_cols、dtype、engine、converters、true_values、false_values、skipinitialspace、skipfooter、nrows、na_values、keep_default_na、na_filter、verbose、skip_blank_lines、parse_dates、infer_datetime_format、keep_date_col、iterator、chunksize、compression、thousands、decimal、float_precision、lineterminator、quotechar、quoting、doublequote、escapechar、comment、encoding、dialect、tupleize_cols、error_bad_lines、warn_bad_lines、low_memory、buffer_lines、compact_ints、use_unsigned、memory_map。

header参数指定行数用于列标题,header=None时没有列标题;date_parser参数用于解析日期,使用默认方式或自定义函数;dayfirst参数指定日期格式为DD/MM。

index_col参数用于指定行索引,index_col=False时使用默认索引;usecols参数用于选择列,加速加载并节省内存;skiprows参数用于跳过指定行。

filepath_or_buffer参数指定文件路径,支持URL和本地文件;sep参数指定分隔符,默认为逗号,支持正则表达式。

其他参数如names、as_recarray、squeeze、prefix等用于处理列名和数据类型;mangle_dupe_cols参数处理重复列名。

na_values参数用于处理NA/NaN值,keep_default_na参数控制默认NA值;na_filter参数控制缺失值检查,提高大文件读取速度。

verbose参数控制输出解析信息;skip_blank_lines参数控制空行处理。

parse_dates参数用于解析日期,infer_datetime_format参数自动尝试转换;keep_date_col参数控制参与连接的日期列保持。

iterator参数用于逐块处理大文件,chunksize参数指定块大小;compression参数支持压缩文件读取。

其他参数如thousands、decimal、float_precision、lineterminator、quotechar、quoting、doublequote、escapechar、comment、encoding、dialect等用于CSV文件特定格式处理;tupleize_cols参数控制列表列处理。

error_bad_lines和warn_bad_lines参数控制异常处理;low_memory参数控制内存使用,buffer_lines和compact_ints参数已弃用;memory_map参数用于内存映射文件。

use_unsigned参数已弃用,用于控制压缩整数列的符号。
相似回答