对 列 中每种不同的值 进行计数 。【返回的结果以 (系列) 的形式表示,其中包括数值和它的计数值 。这个对象拥有叫做 index 的属性,包含了每个不同数值,可以用 index.() 获取所有数值 。而每个数值出现的计数值则是对象中的数值部分,可以通过 () 函数将其转换为一个列表对象 。】#= data[‘’].(),= pd.({‘value’: .index.(), ‘count’: .()})
df.isin()
判断某个值是否在数据中出现过 。#data.isin([2, 4]判断了数据中是否包含了2和4两个值
df.(axis)
,和Panel都有,计算百分数变化,将每个元素与其前一个元素进行比较,并计算变化百分比 。【axis默认情况下0对列进行操作,1对行进行操作 。】
df.cov()
协方差 。对象时计算序列对象之间的协方差,NA将被自动排除 。当应用于时计算所有列之间的协方差(cov)值 。# frame[‘a’].cov(frame[‘b’]),frame.cov()第一个语句中a和b列之间的cov结果值,与由上的cov返回的值相同 。
df.corr()
相关系数 。显示了任何两个数值()之间的线性关系 。【方法来计算(默认),和之间的相关性 。】#frame[‘a’].corr(frame[‘b’]),frame.corr()如果中存在任何非数字列,则会自动排除 。
s.rank()
数据排名,为元素数组中的每个元素生成排名,在相同的情况下,分配平均等级 。【默认为true的升序参数,当设置为false时数据按照降序排序 。tie-方法: 默认值,相同数据分配平均数;min相同数据分配最小等级;max相同数据分配最大等级;first 相同数据根据出现在数组的顺序分配等级 。】
.cut(x, bins, right=True, =None, =False, =3, =False, =‘raise’, =True)
将数值数据转换为分类数据 。将数据均匀划分成n等份,每份的间距相等,返回的是一个特殊的对象,一组表示面元名称的字符串 。等宽法即是将属性值分为具有相同宽度的区间,区间的个数k根据实际情况来决定,比如属性值在[0,60]之间,最小值为0,最大值为60,我们要将其分为3等分,则区间被划分为[0,20] 、[21,40] 、[41,60],每个属性值对应属于它的那个区间 。【x要传入和切分的一维数组,需要离散化的数组、、对象 。bins分组数据,输入整数(x宽度范围内的等宽面元数量,x的范围在每个边上被延长1%,以保证包括x的最小值或最大值)、序列尺度(允许非均匀bin宽度的bin边缘,在这种情况下没有x的范围的扩展)、或间隔索引 。right为True时表示分组区间是包含右边,不包含左边即(],False代表[)分组左边闭合 。标签参数,表示分组的自定义标签,必须与结果箱相同长度,如果FALSE只返回整数指标面元 。是否返回面元,为True返回用浮点数填充的N维数组(bin的具体范围值),当bins是单个数值时很有用(因为bin是数字的话,划分组具体数值我们是不知道的) 。返回面元的小数点几位,存储和显示 bin 标签的精度,整数默认为3 。第一个区间是否应该是左包含的 。如果bin列表里有重复,raise报错/drop直接删除至保留一个 。标签是否有序,适用于返回的类型和 (使用dtype),为 True则将对生成的分类进行排序,为 False则生成的分类将是无序的(必须提供标签) 。】按值切割,即根据数据值的大小范围等分成n组,落入这个范围的分别进入到该组 。
.qcut(x, q, =None, =False, =3, =’raise’)
以相同数量的记录放进每个区间,是按照分位数对样本进行划分的,这样划分的结果是的每个区间的大小基本相同,但不一定完全相同,例如把a列分成4等份,就是按照四分位数划分的 。等频法即是将属性值分为具有相同宽度的区间,区间的个数k根据实际情况来决定 。比如有60个样本,我们要将其分为k=3部分,则每部分的长度为20个样本 。【x要进行分组的数据,数据类型为一维数组,或对象 。q整数或分位数组成的数组,即要将数据分成几组 。可以理解为组标签,这里注意标签个数要和组数相等 。】等频切割,即基本保证每个组里的元素个数是相等的 。
- 茜之塔多肉怎么养
- 榆熙电商:流量也有淡旺季之分吗?
- 谈谈数据分析
- 采集全球最新地震分布数据 Python之表格数据采集练习
- 八九之中取一个是什么生肖
- Android设计模式之代理模式 Proxy
- python数据分析——业务指标分析
- 实验心理学:众包之猛
- 人生之路第23集在哪儿在线播放
- 设计模式-代理模式之动态代理