Pyhton - 数据分析之pandas模块一览总表( 六 )


df[‘A’].()
判断各个单元格是否为空 。
df.()
替换一些空字段 。# df.(12345,= True)使用 12345 替换空字段,df[‘PID’].(12345,= True)使用 12345 替换 PID 为空数据
ser.()
作为选取元素的条件,实现直接过滤 。#ser[ser.()]
df.()
用以替换NaN的元素作为参数,所有NaN可以替换为同一个元素 。若要将不同列的NaN替换为不同的元素,依次指定列名称及要替换成的元素即可 。#df.(0),df.({‘ball’:1,‘mug’:0,‘pen’:99})
8. 函数应用
使用适当的方法取决于函数是否期望在整个行或列或元素上进行操作 。
函数说明
df.pipe()
函数应用,表式函数应用 。可以通过将函数和适当数量的参数作为管道参数来执行自定义操作,从而对整个执行操作 。
df.apply()
行列函数应用 。沿或Panel的轴应用任意函数,它与描述性统计方法一样,apply()方法使用一个可选的axis参数 。
df.()
元素函数应用 。和上的map()类似,接受任何函数,该函数要求能够接受单个值并返回单个值 。
df2.(df1,,limit)
重新索引()会更改的行标签和列标签,意味着符合数据以匹配特定轴上的一组给定的标签 。【df2数据帧()被更改并重新编号成df1,列名称应该匹配,否则将为整个列标签添加NAN 。填充方法,pad/ffill向前填充值;bfill/ 向后填充值; 从最近的索引值填充 。limit填充限制,限制参数在重建索引时提供对填充的额外控制,限制指定连续匹配的最大计数 。】可以通过索引来实现多个操作:重新排序现有数据以匹配一组新的标签 。在没有标签数据的标签位置插入缺失值(NA)标记 。
df1.()
允许基于一些映射(字典或者)或任意函数来重新标记一个轴 。提供了一个命名参数,默认为False并复制底层数据,指定传递 = True则表示将数据重命名 。
迭代
迭代 提供值 。提供列名/列标签 。提供项目标签 。
df.()
迭代(key,value)对,将每个列作为键,将值与值作为键和列值迭代为对象 。
df.()
将行迭代为(索引,系列)对,产生每个索引值以及包含每行数据的序列 。由于()遍历行,因此不会跨该行保留数据类型 。
df.()
以的形式迭代行,将为中的每一行返回一个产生一个命名元组的迭代器 。元组的第一个元素将是行的相应索引值,而剩余的值是行值 。不要尝试在迭代时修改任何对象 。迭代是用于读取,迭代器返回原始对象(视图)的副本,因此更改将不会反映在原始对象上 。
df.()
排序,通过传递axis参数和排序顺序,可以对进行排序,默认情况下,按照升序对行标签进行排序 。【axis按标签排序(行排序和列排序),默认情况下0逐行排列,1对列标签进行排序 。升序参数,布尔值可以控制排序顺序 。】
df.(by,kind)
按值排序的方法 。【by指定需要列值,将使用要与其排序值的的列名称 。kind选择算法的一个配置,提供了,和 。是唯一稳定的算法 。】#df =df.(by=‘col1’),col1值被排序,相应的col2值和行索引将随col1一起改变,因此看起来没有排序 。
9. 窗口函数
为了处理数字数据,提供了几种窗口函数,如移动窗口函数(()),扩展窗口函数(()),指数加权滑动(ewm()),并可以在其上调用适合的统计函数,如总和,均值,中位数,方差,协方差,相关性等 。
函数说明
df.(, =None, =False, =None, on=None, axis=0, =None)
移动窗口函数,此函数可以应用于一系列数据,指定参数=n,并在其上调用适合的统计函数 。【时间窗的大小,可选参数,有两种形式(int 数值表示计算统计量的观测值的数量即向前几个数据或 表示时间窗的大小) 。每个窗口最少包含的观测值数量,小于这个值的窗口结果为NaN,值可以是int,默认None,情况下,默认为1 。把窗口的标签设置为居中,布尔型,默认False居右 。窗口的类型,截取窗的各种函数,字符串类型,默认为None 。on可选参数,对于而言,指定要计算滚动窗口的列,值为列名 。axis对列进行计算(int、字符串,默认为0) 。定义区间的开闭,支持int类型的,对于类型默认是左开右闭,默认为right,可以根据情况指定为left、both等 。】# df.(=3).mean()设置的窗口=3,也就是3个数取一个均值 。,为NaN,是因为它们前面都不够3个数,等到 的时候,它的值计算方式为(++)/3,的值就是(++)/3,第n个元素的值将是n,n-1和n-2元素的平均值 。