Python数据分析案例20——我国家庭资产影响因素分析( 三 )


(5)经济指标
根据政府相关部门发布的各种经济指标和景气政策信号,家庭资产配置者可以分析经济增长走势判断资产的类别 。
三、实证研究 (一)研究设计
本文的数据来源于中国家庭金融调查(China,CHFS)是西南财经大学中国家庭金融调查与研究中心(下称中心)在全国范围内开展的抽样调查项目,由甘犁教授于2009年发起并领导,收集有关家庭金融微观层次的相关信息 。
本文选取家庭人口,总消费,总收入,和负债四个变量作为解释变量,资产作为被解释变量,进行回归分析 。变量名称和其英文简称如下表所示:

Python数据分析案例20——我国家庭资产影响因素分析

文章插图
表1 变量说明
debt
asset
家庭人口
总消费
总收入
负债
资产
(二)模型构建
本文采用的是多元线性回归模型,涉及多个自变量的多元线性回归方程,表示为:
其中,Y是资产(asset),x1至x4代表为家庭人口()、总消费()、总收入()、负债(debt) 。ε代表是误差项的随机变量,β0代表截距,β1至β10代表每个变量的斜率 。
(三)数据检验
描述性统计:
开始代码,导入包:
import numpy as npimport pandas as pdimport matplotlib.pyplot as plt import seaborn as snsplt.rcParams ['font.sans-serif'] ='SimHei'#显示中文plt.rcParams ['axes.unicode_minus']=False#显示负号sns.set_style("darkgrid",{"font.sans-serif":['KaiTi', 'Arial']})
数据读取,展示前五行
data=http://www.kingceram.com/post/pd.read_excel('data_clean.xlsx')data.head()
描述性统计
data.describe()
总共34609个观测量 。表示不同家庭还有不同时间点上的家庭资产负债等变量的情况 。可以看出,除了人口,其他这几组变量的方差都很大,说明几组数据波动性较大 。分布较为分散 。其中人口的平均值为3.27,说明绝大多数家庭都是三口之家,这和我国目前的国情也符合 。进一步考察每个变量的箱线图和密度图如下:
先去掉极端值和异常值:
data=http://www.kingceram.com/post/data[data['consump_total']<2e6]data=data[data['income_total']<0.75e7]data=data[data['income_total']>-0.25e7]data=http://www.kingceram.com/post/data[data['debt']<5e6]data=data[data['asset']<5e7]
画箱线图:
column = data.columns.tolist() # 列表头fig = plt.figure(figsize=(7,4), dpi=128)# 指定绘图对象宽度和高度for i in range(5):plt.subplot(2,3, i + 1)# 2行3列子图sns.boxplot(data=http://www.kingceram.com/post/data[column[i]], orient="v",width=0.5)# 箱式图plt.ylabel(column[i], fontsize=12)plt.tight_layout()plt.show()
密度图:
fig = plt.figure(figsize=(7,4), dpi=128)# 指定绘图对象宽度和高度for i in range(5):plt.subplot(2,3, i + 1)# 2行3列子图ax = sns.kdeplot(data=http://www.kingceram.com/post/data[column[i]],color='blue',shade= True)plt.ylabel(column[i], fontsize=12)plt.tight_layout()plt.show()
#画皮尔逊相关系数热力图
Python数据分析案例20——我国家庭资产影响因素分析

文章插图
corr = plt.subplots(figsize = (4,4),dpi=128)corr= sns.heatmap(data[column].corr(),annot=True,square=True)
从相关系数表中可以得知,与资产相关系数最大的是消费,为0.4733 。其次为收入,再就是负债和人口数量 。解释变量之间的相关系数都不算高,因此该模型应该不会出现多重共线性的问题 。下面进行回归分析 。