Pyhton - 数据分析之pandas模块一览总表( 八 )


(int, str, list-like, orNone)
用于指定读取的列【默认为None,解析所有列 。str表示Excel列字母和列范围的逗号分隔列表(例如“ A:E”或“ A,C,E:F”),范围全闭 。int表示解析到第几列 。int列表表示解析哪几列 。】# =[1,3]和[3,1]效果一样,按照表格中的顺序输出 。[“职业”,“姓名”]列标签来读取 。"C:F"从C列读取至F列 。=3,表示解析第0,1,2,3列,共4列 。
(str,None)
“xlrd”支持.xls,“”支持.xlsx,用于使用第三方的库去解析excel文件 。
dtype(Type name or dict of-> type,None)
【Pyhton - 数据分析之pandas模块一览总表】指定数据列的数据类型 。【列的类型名称或字典,默认为None,也就是不改变数据类型 。】# dtype={‘年龄’:, ‘b’: str }以浮点数的方式读入 。每一列的数据类型应该是保持一致的,这样才能和相应的标签呼应 。
(dict,None)
对指定列的数据进行指定函数的处理,传入参数为列名与函数组成的字典 。key 可以是列名或者列的序号,是函数,可以def函数或者直接都行 。转换指定列的函数字典{“A”: x: x/100,“B”: x: x/100}
(list like)
省略指定行数的数据,从第一行开始 。# =1跳过第1行 。[1,3,5]跳过第1,3,5行 。= x: x % 2 == 0 跳过偶数行
省略指定行数的数据,是从尾部数的行开始
(list,None)
将指定的文本转换为True,默认为None 。# =[‘男’]将性别中的男转换为False
(list,None)
将指定的文本转换为False,默认为None 。
nrows(int,None)
默认为None,指定需要读取前多少行,通常用于较大的数据文件中 。# nrows=3 读取前三行
(, str, list-like, or dict,None)
指定某些列的某些值为NaN 。="NaN"一般建议把缺失的值统一设置为"NaN",这样在后面如果需要手动过滤掉缺失值的时候可以索引到位置,如果不设置这个参数,缺失值不是False、0、"NaN"中的任何一个 。# =[“n/a”, “na”, “–”],指定[“n/a”, “na”, “–”]为NaN 。
(bool,True)
表示导入数据时是否导入空值 。默认为True,即自动识别空值并导入 。
2. 处理csv表格 函数说明
pd.(‘nba.csv’)
读取csv文件 。#添加=False解决警告sys:1: : (在读取不同块的时候,如果某字段下的数据类型不尽一致,则会出现该警告。)
df.()
用于返回类型的数据,如果不使用该函数,则df输出结果为数据的前面 5 行和末尾 5 行,中间部分以 … 代替 。
df.head( n )
方法用于读取前面的 n 行,如果不填参数 n,默认返回 5 行 。
df.tail( n )
用于读取尾部的 n 行,如果不填参数 n,默认返回 5 行,空行各个字段的值返回 NaN 。
()
返回表格的一些基本信息 。non-null 为非空数据 。
df.()
保存,将存储为 csv 文件,index=False表示不保存行索引, =False表示不保存列索引