Pyhton - 数据分析之pandas模块一览总表( 二 )


df.iloc()
按位置序号的行列交叉选取 。基于整数的索引,利用元素在各个轴上的索引序号进行选择,序号超过范围产生,切片时允许序号超过范围 。【整数,与.loc相同,如果只使用一个维度则对行选择,小标从 0 开始,df.iloc[5]选择第 6 行 。整数列表或者数组,df.iloc[[5, 1, 7]]选择第 6 行,第 2 行,第 8 行 。元素为整数的切片操作,与.loc不同,这里下标为 stop 的数据不被选择,df.iloc[0:3]只包含 0,1,2行,不包含第 3 行 。布尔数组进行筛选,可以使用 list 或者 array,使用 会出错( 和,前者是的 index 与待切片 的index 不同时报错,后置 index 相同时报错),df.iloc[np.array(df.A>0.5)],df.iloc[list(df.A>0.5)] 。】# df.iloc[ df:[0,1]] 选择前两行
df.ix()
基于标签和整数,进行选择和子集化对象的混合方法 。在0.20.0中已经不建议使用了 。
df[]
快捷的整行整列选取 。【df[标签列表],选取多个整列 。df[切片],选取整行(切片操作,选择的是列,并且必须使用列名 。只能输入一个维度,不能用逗号隔开输入两个维度 。)】# df[‘A’]
运算符.
属性访问,可以使用属性运算符.来选择列 。# df.A
import pandas as pdd = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}df = pd.DataFrame(d) df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])# 读取print (df['one']) # 从数据帧(DataFrame)中读取一列 。print (df.loc['b']) # 读取行,通过将行索引传递给loc()函数来选择行print (df.iloc[1])# 读取行,通过将整数位置传递给iloc()函数来选择行print (df[2:4])# 按行切片选择,使用:运算符选择多行# 添加df['three']=pd.Series([10,20,30],index=['a','b','c']) # 向一个 DataFrame 中添加一个新列df['four']=df['one']+df['three'] # 向一个 DataFrame 中添加一个新列df = df.append(df2) # 将新行添加到 DataFrameprint(df)# 删除del df['three']# 删除列df.pop('four')# 弹出一列(删除列)df = df.drop('a') # 删除行 。如果标签重复,则会删除多行 。print(df)
4. 选项和自定义操作
,和Panel都有()函数
函数说明
.(param)
获取解释器的默认参数值 。【param参数:.获取显示上限的行,默认配置参数值是60 。.获取显示上限的列,默认配置参数值是20 。】# pd.(“.”)
.(param, value)
设置解释器的默认参数值 。【.设置要显示的默认行数(避免只显示部分行数据) 。.设置要显示的默认列数(避免列显示不全) 。.显示最大列宽(避免属性值或列名显示不全) 。.width 每一行的宽度(避免换行) 。.显示十进制数的精度 。.显示数据帧以拉伸页面 。设置显示数值的精度 。】# 自定义列宽pd.(“.”,80),#只会影响浮点列,而不影响整数列,设置字段小数位精度一致pd.(“.”, “{:.2f}”.)
.(=100, =True)
打印numpy时设置显示宽度,并且不用科学计数法显示 。
.(param)
解释器的参数重置为默认值 。# pd.(“.”)
.(param)
打印参数的描述 。
.()
临时设置解释器的参数,退出使用块时,恢复为默认值 。# with pd.(“.”,10):
5. 对象的字符串和文本数据s.str
提供了一组字符串函数,可以方便地对字符串数据进行操作 。最重要的是,这些函数忽略了NaN值 。几乎这些方法都使用 字符串函数 。因此,将对象转换为对象,然后执行该操作 。
函数描述
s.str.lower()
将/Index中的字符串转换为小写 。