数据分析实战，用Pandas分析二手车市场行情 _实例

引言
这个项目主要是研究二手车市场上车辆定价的决定因素，本文将展示如何从汽车销售商网站上抓取所有的搜索结果，并建立一个包含所有找到的列表的数据库。
使用的工具（库）导入所需的包并加载数据集：
来自网站的原始数据：
现在，可以看到有一个名为:0的列。这一列一定是在抓取数据并将其保存到CSV文件中时添加的。因此，下一步就是删除数据。
数据清洗：
现在将删除:0列，然后再次清洗，使数据可视化。
清洗后的：
数据概览：
()将为项目提供有关数据类型和每一列中非空值的数量的信息。
()每一列的数字特征和信息：
最后我们得到了560行和9列，并且在Year、Brand、Car name、、owner、fuel、Emi、和price等列中没有空值。
探索数据车辆信息汇总列类型：
2010年至2022年之间的车型年份
公里数范围从121英里到99944英里不等
价格从1.62万到24.36万卢比不等
数据可视化单变量：最畅销的品牌：

文章插图
a[‘Brand’].value_counts().plot(kind=’bar’)plt.xlabel(‘Brand’)plt.ylabel(‘Highest selling’)plt.show()
价格分布：
sns.histplot(a[‘price(in_lk)’],kde=True)
燃料
px.bar(a[‘fuel’].value_counts())
双变量分析
不同数量的前车主的车辆列表：
【数据分析实战，用Pandas分析二手车市场行情】sns.barplot(x=a[‘owner’],y=a[‘price(in_lk)’],errorbar=None)
来自不同州的车辆列表

a.groupby([‘Location’])[‘year’].count().sort_values(ascending=False).plot(kind=’bar’, figsize=(10,6))plt.ylabel(‘Number of listings per state’, fontsize=12)plt.xlabel(‘State’, fontsize=12)plt.title(‘Listings per State’, fontsize=18)plt.show()

比较年份和价格：
sns.lineplot(x=a[“year”],y=a[“price(in_lk)”],errorbar=None)
燃料类型将如何影响转售价格？
sns.boxplot(x=a[“fuel”],y=a[“price(in_lk)”])
多变量分析：
sns.barplot(x=a[“year”],y=a[“price(in_lk)”],errorbar=None,hue=a[“owner”])
相关性：
可以使用corr()函数找到各种特征之间的相关性。
sns.heatmap(a.corr(),annot=True)

plt.figure(figsize=(18,7))sns.barplot(x=a[“Location”],y=a[“price(in_lk)”],hue=a[“Location”],errorbar=None)plt.xticks(rotation = 90)plt.show()

结论
从可视化中，我们发现了以下结论：
推荐书单《.x实例精解》
《.x实例精解》详细阐述了与相关的基本解决方案，主要包括基础，基本操作，创建和保留，开始数据分析，探索性数据分析，选择数据子集，过滤行，对齐索引，分组以进行聚合、过滤和转换，将数据重组为规整形式，组合对象，时间序列分析，使用、和进行可视化，调试和测试等内容。此外，该书还提供了相应的示例、代码，以帮助读者进一步理解相关方案的实现过程。《.x实例精解》适合作为高等院校计算机及相关专业的教材和教学参考书，也可作为相关开发人员的自学用书和参考手册。
《.x实例精解》([美]马特·哈里森，等)【摘要书评试读】- 京东图书京东JD.COM图书频道为您提供《.x实例精解》在线选购，本书作者：，出版社：清华大学出版社。买图书，到京东。网购图书，享受最低优惠折扣!
精彩回顾
《使用和轻松探索大语言模型》
《和Bard太贵，介绍8个免费开源的大模型解决方案！》