这是一篇让人脸红的python数据分析，嘿嘿嘿嘿嘿 _商家

我的分析分为核心的三步：
**第一步：**爬取商品排名和详情页链接，需要的字段为：排名、商品名、详情页链接
**第二步：**爬取商品详情，需要的信息为：
**第三步：**数据转化为可视化图表，并做分析。
是不是迫不及待想要看过程了，来吧~
如何爬取内衣数据
爬取过程分为三步
1、爬取商品排名和详情页链接
需要爬取的具体字段：排名（Rank），商品名（），商品详情页链接（）、商品图片链接（）
2、在商品详情页爬取更多商品信息
核心事项：
1)构建函数来获取单个商品的详细信息；
2)利用for循环，遍历商品详情页链接列表，来获取每个商品的详细信息
3、爬取评论
核心事项：
1)从上一步的csv文件中，读取Rank ,,, 字段
2)构建函数读取每个商品的所有评论
3)利用for循环，获取所有商品的所有评论
4)存储到数据库和csv文件中
4、爬取size和color数据
和第三步基本一样，代码基本一样，主要在于要确认每页评论的size&color个数。
数据清洗与预处理
【这是一篇让人脸红的python数据分析，嘿嘿嘿嘿嘿】1、读取、清洗数据
从csv文件读取100个商品的数据，筛选出所需要的字段，进行数据清洗
2、以商家维度处理数据
获取所需的数据：商家的星级、评论数总和、评论数均值、最低价均值、最高价均值、价格均值、商品数量、占比。针对星级、评论数均值、价格均值、商品数量做标准化处理，并计算加权分。
歪果情趣内衣哪家强？

文章插图
① 不同商家的星级排名
让我看看长什么样。亚马逊上的商品，看上去就是普通泳衣，米国人还是很保守的嘛~
但评分高真的就说明产品好吗？不如来看看评论数吧——
②不同商家的平均评论数排名
那么，亚马逊的星级评价难道就只受评论数的几颗星比例影响吗？我查阅了网上的一些资料，发现亚马逊评价星级评定的三个重要因素：评论距离现在的时间，评论被买家投票采纳数，评论是否有标志（意指真实买家）。此外，评论的字符数，被点击次数等因素也可能会对评论星级有影响。
看来，亚马逊对评论的监控和管理是非常严格而复杂的！当然，最重要的还是看看评论第一名的长什么样：
比上边的泳衣更点题了，大家说好才是真的好，very sexy！
③不同商家的价格区间排名（按均价）
最奢华的看上去果然比较女神，缩略图都比别家更用心。
那么，到底哪个商家的策略更靠谱，市场份额更大呢？
④商家的商品数量饼图
的内衣是酷酷风的，我喜欢。
单一方面毕竟还是很难衡量哪家商家更优秀，不如综合多个指标来分析吧~
⑤不同商家的加权分排名
将星级、平均评论数、商品均价、商品数量进行标准化处理后，因为不好拍定加权的比例，便将4项的归一化结果x10后直接累加得到总分，并制作成堆积图。
而每个商家的4项指标的占比，则侧面反映其自身的优劣势。
口碑最差的N-pearI，能搜到的商品也最少，不过图很劲爆……就不放出来，太劲爆了~
粗略来看的话，想要排名靠前，口碑一定不能太差，至少要保持在平均水平及以上！
⑥不同商家的星级/价格散点图
x轴为商家的商品均价，y轴为商家的星级，点大小为商品数量，商品数量越大，点越大，点颜色为评论均值，评论均值越大，颜色越深红。
利用价格均值和星级均值，将图切分为四个象限：