10-20元香烟推荐东北


10-20元香烟推荐东北

文章插图
文章插图
大家好,小笨鸟今天给大家分享一篇关于国产香烟分析的文章,主要用python爬取“烟悦网”数据,并作详细分析,带你看看香烟的种类及价格现状,放一张词云图:
10-20元香烟推荐东北

文章插图
文章插图
【10-20元香烟推荐东北】1.爬取数据
1.1 网站分析
进入主页,烟悦网网址:https://www.yanyue.cn/tobacco
10-20元香烟推荐东北

文章插图
文章插图
我们可以发现,所有香烟品牌的名字及对应网址(href)直接在首页内,是一个简单的静态网页 。
随机进入某香烟品牌的主页:
10-20元香烟推荐东北

文章插图
文章插图
发现内含该品牌下不同种类的香烟,包含名称、类型、焦油量及价格等信息 。
打开流量分析工具,分析找到该数据接口:
10-20元香烟推荐东北

文章插图
文章插图
是1个json格式的文件,再来看看它的请求参数:
10-20元香烟推荐东北

文章插图
文章插图
有两个变量,分别是brandid=23(每个香烟品牌都有1个数字代表,在上一步网页中可以找到),page=1(页码),这两个变量都很好分析 。
现在网站上的逻辑关系基本已经捋顺了 。
1.2 爬取数据
获取每个品牌的名字及对应网址:
10-20元香烟推荐东北

文章插图
文章插图

构造每个品牌的主页网址,计算总页数:
10-20元香烟推荐东北

文章插图
文章插图
根据总页数,把该品牌所有香烟种类的数据爬下来:
10-20元香烟推荐东北

文章插图
文章插图

将数据保存到表格中:
10-20元香烟推荐东北

文章插图
文章插图

2.数据分析
本次数据分析主要通过pyecharts实现
2.1 分析香烟种类及数量
10-20元香烟推荐东北

文章插图
文章插图

10-20元香烟推荐东北

文章插图
文章插图

从上图可以看出:
·香烟品牌总共有106种
·香烟种类一共有2390种
2.2 画出香烟名字种类词云图
10-20元香烟推荐东北

文章插图
文章插图

10-20元香烟推荐东北

文章插图
文章插图

·根据词的大小可以看出该品牌下香烟种类的数量,看来是黄鹤楼最多
2.3 画出香烟种类数量排名前十柱状图
10-20元香烟推荐东北

文章插图
文章插图

10-20元香烟推荐东北

文章插图
文章插图
果然,种类最多的是黄鹤楼,一共有197种,感觉这几类烟都挺常见的
2.4 画出价格分布柱状图
主要根据每种价格对应的种类数量画图(例如20元的香烟有161种)
10-20元香烟推荐东北

文章插图
文章插图

10-20元香烟推荐东北