这是一篇让人脸红的python数据分析,嘿嘿嘿嘿嘿

我的分析分为核心的三步:
**第一步:**爬取商品排名和详情页链接,需要的字段为:排名、商品名、详情页链接
**第二步:**爬取商品详情,需要的信息为:
**第三步:**数据转化为可视化图表,并做分析 。
是不是迫不及待想要看过程了,来吧~
如何爬取内衣数据
爬取过程分为三步
1、爬取商品排名和详情页链接
需要爬取的具体字段:排名(Rank),商品名(),商品详情页链接()、商品图片链接()
2、在商品详情页爬取更多商品信息
核心事项:
1)构建函数来获取单个商品的详细信息;
2)利用for循环,遍历商品详情页链接列表,来获取每个商品的详细信息
3、爬取评论
核心事项:
1)从上一步的csv文件中,读取Rank ,,, 字段
2)构建函数读取每个商品的所有评论
3)利用for循环,获取所有商品的所有评论
4)存储到数据库和csv文件中
4、爬取size和color数据
和第三步基本一样,代码基本一样,主要在于要确认每页评论的size&color个数 。
数据清洗与预处理
【这是一篇让人脸红的python数据分析,嘿嘿嘿嘿嘿】1、读取、清洗数据
从csv文件读取100个商品的数据,筛选出所需要的字段,进行数据清洗
2、以商家维度处理数据
获取所需的数据:商家的星级、评论数总和、评论数均值、最低价均值、最高价均值、价格均值、商品数量、占比 。针对星级、评论数均值、价格均值、商品数量做标准化处理,并计算加权分 。
歪果情趣内衣哪家强?

这是一篇让人脸红的python数据分析,嘿嘿嘿嘿嘿

文章插图
① 不同商家的星级排名
让我看看长什么样 。亚马逊上的商品,看上去就是普通泳衣,米国人还是很保守的嘛~
但评分高真的就说明产品好吗?不如来看看评论数吧——
②不同商家的平均评论数排名
那么,亚马逊的星级评价难道就只受评论数的几颗星比例影响吗?我查阅了网上的一些资料,发现亚马逊评价星级评定的三个重要因素:评论距离现在的时间,评论被买家投票采纳数,评论是否有 标志(意指真实买家) 。此外,评论的字符数,被点击次数等因素也可能会对评论星级有影响 。
看来,亚马逊对评论的监控和管理是非常严格而复杂的!当然,最重要的还是看看评论第一名的长什么样:
比上边的泳衣更点题了,大家说好才是真的好,very sexy!
③不同商家的价格区间排名(按均价)
最奢华的看上去果然比较女神,缩略图都比别家更用心 。
那么,到底哪个商家的策略更靠谱,市场份额更大呢?
④商家的商品数量饼图
的内衣是酷酷风的,我喜欢 。
单一方面毕竟还是很难衡量哪家商家更优秀,不如综合多个指标来分析吧~
⑤不同商家的加权分排名
将星级、平均评论数、商品均价、商品数量进行标准化处理后,因为不好拍定加权的比例,便将4项的归一化结果x10后直接累加得到总分,并制作成堆积图 。
而每个商家的4项指标的占比,则侧面反映其自身的优劣势 。
口碑最差的N-pearI,能搜到的商品也最少,不过图很劲爆……就不放出来,太劲爆了~
粗略来看的话,想要排名靠前,口碑一定不能太差,至少要保持在平均水平及以上!
⑥不同商家的星级/价格散点图
x轴为商家的商品均价,y轴为商家的星级,点大小为商品数量,商品数量越大,点越大,点颜色为评论均值,评论均值越大,颜色越深红 。
利用价格均值和星级均值,将图切分为四个象限: