西安房价在下个月内什么地方最值得买?——中篇

接“西安房价在下个月内什么地方最值得买?——上篇” 。上回我们说到选择对价格影响最大的特征 。只说了房源的数据 , 这回我们接着说楼盘的数据 。
第三步:选择对价格影响最大的特征 3.2 楼盘的处理
我们像上节一样先分析数据 , 然后用一些特殊的方法去选择特征 。
3.2.1 均价的总体情况
sns.set(color_codes=True)sns.distplot(loupan['average'], fit=stats.t);fig = plt.figure()res = stats.probplot(loupan['average'], sparams=(10,0),dist=stats.t,plot=plt);

西安房价在下个月内什么地方最值得买?——中篇

文章插图
我们还是观察和生成的图像:
西安房价在下个月内什么地方最值得买?——中篇

文章插图
我们可以看出这个均价几乎完美符合t分布 。但是很显然它线性拟合地不好:
西安房价在下个月内什么地方最值得买?——中篇

文章插图
这里算出的偏度是:2. 。说明数据右偏 , 且不是很符合正态分布了(绝对值超过2 , 就不是正态分布了) 。这也侧面证明了我们上面调参调出来的t分布的正确性 。
峰度是:9. 。说明我们的分布比正态分布要陡峭 。这一点从图中也能看出来 。9.5左右不是很大 , 所以我们的数据相对集中 , 取得极端值的概率小 。
【西安房价在下个月内什么地方最值得买?——中篇】在实际的问题中 , 数据一般都不会是线性的 , 非线性的居多 , 所以在后面我们建立模型来预测房价时 , 要建立非线性的模型 。3.3 特征的选择
3.1节我们把影响房源总价的特征选出来了 。现在我们不用画图 , 用一些特征选择的方法来选择影响楼盘均价的特征 。因为一共有10几个特征 , 画图虽然直观但是速度不快 。
一般提取特征有三种方法:
这里 有一个基于鸢尾花数据集的特征选择的实例 , 感兴趣的小伙伴可以去看看 。