pandas.read_csv参数详解:
header:指定行数用于列标题。header=None表示没有列标题。date_parser:用于解析日期,可以使用默认方式或自定义函数。dayfirst:指定日期格式为DD/MM。index_col:用于指定行索引。index_col=False表示使用默认索引。usecols:用于选择列,可以加速加载并节省内存。skiprows:用于跳过指定行。filepath_or_buffer:指定文件路径,支持URL和本地文件。sep/delimiter:指定分隔符,默认为逗号,支持正则表达式。sep和delimiter参数功能相同,使用其中一个即可。delim_whitespace:如果为True,则假定字段由空白字符分隔。names:用于处理列名。as_recarray:如果为True,则返回NumPy recarray而不是DataFrame。squeeze:如果解析的数据只包含一列,则返回一个Series。prefix:添加到缺少列名时的默认列名前缀。mangle_dupe_cols:如果为True,则重复列名将添加后缀“.1”,“.2”,依此类推以使其唯一。dtype:指定列的数据类型。engine:用于解析的引擎。可选值包括’c’和’python’。converters:用于指定列的转换函数。true_values 和 false_values:用于将特定值识别为True或False。skipinitialspace:如果为True,则跳过字段值前面的空白字符。skipfooter:需要忽略的行数。nrows:需要读取的行数。na_values:用于处理NA/NaN值的额外字符串。keep_default_na:如果为True,则保留pandas的默认NaN值。na_filter:如果为False,则不会检查缺失值标记。对于大文件,可以提高读取速度。verbose:如果为True,则输出解析信息。skip_blank_lines:如果为True,则跳过空行。parse_dates:尝试将数据解析为日期。可以是布尔值、列表或字典。infer_datetime_format:如果为True,并且parse_dates启用了日期解析,则尝试推断日期格式以加速解析。keep_date_col:如果为True并且列被解析为日期,则保留原始列。iterator:如果为True,则返回一个TextFileReader对象,该对象可以迭代处理文件块。chunksize:指定块大小。compression:用于读取压缩文件的字符串,如’gzip’,’bz2’,’zip’或’xz’。thousands:千位分隔符。decimal:小数点字符。float_precision:用于浮点数解析的字符串长度。lineterminator:指定行终止符。quotechar:指定引用字符。quoting:控制引用行为。可以是0,1,2,3。doublequote:当引用级别为引用所有字段时,如果字段内的引用字符被加倍,则将其解释为单个引用字符。escapechar:用于转义引用字符的字符。comment:用于标识注释行的字符。从该行及其后的所有内容都将被忽略。encoding:文件编码格式,例如,’utf8’。dialect:用于指定CSV格式的字符串或csv.Dialect对象。tupleize_cols:如果为True,则尝试将任何多值列作为元组。error_bad_lines:如果为False,则当遇到错误行时不会引发异常,而是会跳过该行。warn_bad_lines:如果error_bad_lines为False,并且warn_bad_lines为True,则对于每个跳过的错误行,都会打印一条警告消息。low_memory:在处理大文件时,可以将其设置为True以减少内存使用。但是,这可能导致类型推断问题。buffer_lines 和 compact_ints:这两个参数已弃用。memory_map:如果为True,则使用内存映射文件访问。这可以提高大文件的读取速度,但可能会增加内存使用。use_unsigned:此参数已弃用,用于控制压缩整数列的符号。
这些参数提供了广泛的定制选项,允许用户根据具体需求高效地读取和处理CSV文件。