玩转Python网路爬虫

文章插图
玩转Python网路爬虫【玩转Python网路爬虫】本书站在初学者的角度，从原理到实践，循序渐进地讲述了使用Python开发网路爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网路爬虫所需的基础知识，分别是网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网路做全面分析；数据抓取介绍了Python爬虫模组Urllib和Requests的基础知识；数据清洗主要介绍字元串操作、正则和Beautiful Soup的使用；数据入库分别讲述了MySQL和MongoDB的操作，通过ORM框架SQLAlchemy实现数据持久化，实现企业级开发。实战篇深入讲解了分散式爬虫、爬虫软体开发与套用、12306抢票程式和微博爬取，所举示例均来自于开发实践，可帮助读者快速提升技能，开发实际项目。
基本介绍书名：玩转Python网路爬虫
作者：黄永祥
ISBN：9787302503286
定价：69元
出版社：清华大学出版社
出版时间：2018.08.01
印刷次数：1-2
印刷日期：2018.10.17
详细介绍玩转Python网路爬虫作者：黄永祥定价：69元印次：1-1ISBN：9787302503286出版日期：2018.08.01印刷日期：2018.10.17图书简介本书站在初学者的角度，从原理到实践，循序渐进地讲述了使用Python开发网路爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网路爬虫所需的基础知识，分别是网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网路做全面分析；数据抓取介绍了Python爬虫模组Urllib和Requests的基础知识；数据清洗主要介绍字元串操作、正则和Beautiful Soup的使用；数据入库分别讲述了MySQL和MongoDB的操作，通过ORM框架SQLAlchemy实现数据持久化，实现企业级开发。实战篇深入讲解了分散式爬虫、爬虫软体开发与套用、12306抢票程式和微博爬取，所举示例均来自于开发实践，可帮助读者快速提升技能，开发实际项目。作者介绍黄永祥，信息管理与信息系统专业学士，曾从事过系统开发和自动化开发，精通B/S和C/S自动化测试技术，多年网路爬虫开发经验，对反爬虫机制有独到的见解，精通Flask、Django等Web框架并有丰富的网站开发经验。曾就职于广州易点科技有限公司，担任Python开发工程师，目前就职于广东数据集成有限公司。热爱分享和新技术的探索，在CSDN上发表多篇Python技术文章。图书目录第1章理解网路爬虫 11.1 爬虫的定义 11.2 爬虫的类型 21.3 爬虫的原理 31.4 爬虫的搜寻策略 51.5 反爬虫技术及解决方案 61.6 本章小结 8第2章爬虫开发基础 92.1 HTTP与HTTPS 92.2 请求头 112.3 Cookies 132.4 HTML 142.5 JavaScript 162.6 JSON 182.7 Ajax 192.8 本章小结 20第3章 Chrome分析网站 213.1 Chrome开发工具 213.2 Elements标籤 223.3 Network标籤 233.4 分析QQ音乐 273.5 本章小结 29第4章 Fiddler抓包工具 304.1 Fiddler介绍 304.2 Fiddler安装配置 314.3 Fiddler抓取手机套用 334.4 Toolbar工具列 364.5 Web Session列表 374.6 View选项视图 404.7 Quickexec命令行 414.8 本章小结 42第5章 Urllib数据抓取 435.1 Urllib简介 435.2 传送请求 445.3 複杂的请求 465.4 代理IP 475.5 使用Cookies 485.6 证书验证 505.7 数据处理 515.8 本章小结 52第6章 Requests数据抓取546.1Requests简介及安装546.2请求方式556.3複杂的请求方式576.4下载与上传606.5本章小结63第7章验证码识别647.1验证码类型647.2OCR技术667.3第三方平台697.4本章小结72第8章数据清洗748.1字元串操作748.2正则表达式788.3BeautifulSoup介绍及安装848.4BeautifulSoup的使用868.5本章小结90第9章文档数据存储929.1CSV数据写入和读取929.2Excel数据写入和读取949.3Word数据写入和读取999.4本章小结101第10章 ORM框架10410.1SQLAlchemy介绍10410.2安装SQLAlchemy10510.3连线资料库10610.4创建数据表10810.5添加数据11110.6更新数据11210.7查询数据11410.8本章小结116第11章 MongoDB资料库操作11811.1MongoDB介绍11811.2安装及使用12011.2.1MongoDB12011.2.2MongoDB可视化工具12111.2.3PyMongo12311.3连线资料库12311.4添加文档12511.5更新文档12611.6查询文档12711.7本章小结130第12章项目实战：爬取淘宝商品信息13112.1分析说明13112.2功能实现13412.3数据存储13612.4本章小结138第13章项目实战：分散式爬虫——QQ音乐139 13.1分析说明13913.2歌曲下载14013.3歌手和歌曲信息14513.4分类歌手列表14813.5全站歌手列表15013.6数据存储15213.7分散式概念15413.7.1GIL是什幺15413.7.2为什幺会有GIL15413.8并发库concurrent.futures15513.9分散式爬虫15713.10本章小结159第14章项目实战：爬虫软体——淘宝商品信息16114.1分析说明16114.2GUI库介绍16214.3PyQt5安装及环境搭建16214.4软体界面开发16514.5MVC——视图16914.6MVC——控制器17114.7MVC——模型17214.8扩展思路17314.9本章小结174第15章项目实战：12306抢票17615.1分析说明17615.2验证码验证17715.3用户登录与验证18115.4查询车次18715.5预订车票19315.6提交订单19615.7生成订单20415.8本章小结209第16章项目实战：玩转微博21916.1分析说明21916.2用户登录22016.3用户登录（带验证码）23216.4关键字搜寻热门微博24016.5发布微博24716.6关注用户25316.7点讚和转发评论25716.8本章小结263第17章 Scrapy爬虫框架26517.1爬虫框架26517.2Scrapy的运行机制26717.3安装Scrapy26817.4爬虫开发快速入门27017.5Spiders介绍27717.6Spider的编写27817.7Items的编写28217.8ItemPipeline的编写28417.9Selectors的编写28817.10档案下载29117.11本章小结296第18章项目实战：Scrapy爬取QQ音乐29818.1分析说明29818.2创建项目29918.3编写setting30018.4编写Items30118.5编写ItemPipelines30218.6编写Spider30518.7本章小结310