数据分析实战,用Pandas分析二手车市场行情

引言
这个项目主要是研究二手车市场上车辆定价的决定因素,本文将展示如何从汽车销售商网站上抓取所有的搜索结果,并建立一个包含所有找到的列表的数据库 。
使用的工具(库)导入所需的包并加载数据集:
来自网站的原始数据:
现在,可以看到有一个名为:0的列 。这一列一定是在抓取数据并将其保存到CSV文件中时添加的 。因此,下一步就是删除数据 。
数据清洗:
现在将删除:0列,然后再次清洗,使数据可视化 。
清洗后的:
数据概览:
()将为项目提供有关数据类型和每一列中非空值的数量的信息 。
()每一列的数字特征和信息:
最后我们得到了560行和9列,并且在Year、Brand、Car name、、owner、fuel、Emi、和price等列中没有空值 。
探索数据 车辆信息汇总 列类型:
2010年至2022年之间的车型年份
公里数范围从121英里到99944英里不等
价格从1.62万到24.36万卢比不等
数据可视化 单变量: 最畅销的品牌:

数据分析实战,用Pandas分析二手车市场行情

文章插图
a[‘Brand’].value_counts().plot(kind=’bar’)plt.xlabel(‘Brand’)plt.ylabel(‘Highest selling’)plt.show()
价格分布:
sns.histplot(a[‘price(in_lk)’],kde=True)
燃料
px.bar(a[‘fuel’].value_counts())
双变量分析
不同数量的前车主的车辆列表 :
【数据分析实战,用Pandas分析二手车市场行情】sns.barplot(x=a[‘owner’],y=a[‘price(in_lk)’],errorbar=None)
来自不同州的车辆列表
a.groupby([‘Location’])[‘year’].count().sort_values(ascending=False).plot(kind=’bar’, figsize=(10,6))plt.ylabel(‘Number of listings per state’, fontsize=12)plt.xlabel(‘State’, fontsize=12)plt.title(‘Listings per State’, fontsize=18)plt.show()
比较年份和价格:
sns.lineplot(x=a[“year”],y=a[“price(in_lk)”],errorbar=None)
燃料类型将如何影响转售价格?
sns.boxplot(x=a[“fuel”],y=a[“price(in_lk)”])
多变量分析:
sns.barplot(x=a[“year”],y=a[“price(in_lk)”],errorbar=None,hue=a[“owner”])
相关性:
可以使用corr()函数找到各种特征之间的相关性 。
sns.heatmap(a.corr(),annot=True)
plt.figure(figsize=(18,7))sns.barplot(x=a[“Location”],y=a[“price(in_lk)”],hue=a[“Location”],errorbar=None)plt.xticks(rotation = 90)plt.show()
结论
从可视化中,我们发现了以下结论:
推荐书单 《.x实例精解》
《.x实例精解》详细阐述了与相关的基本解决方案,主要包括基础,基本操作,创建和保留,开始数据分析,探索性数据分析,选择数据子集,过滤行,对齐索引,分组以进行聚合、过滤和转换,将数据重组为规整形式,组合对象,时间序列分析,使用、和进行可视化,调试和测试等内容 。此外,该书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程 。《.x实例精解》适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册 。
《.x实例精解》([美]马特·哈里森,等)【摘要 书评 试读】- 京东图书京东JD.COM图书频道为您提供《.x实例精解》在线选购,本书作者:,出版社:清华大学出版社 。买图书,到京东 。网购图书,享受最低优惠折扣!
精彩回顾
《使用和轻松探索大语言模型》
《和Bard太贵,介绍8个免费开源的大模型解决方案!》