精通Scrapy网路爬虫

精通Scrapy网路爬虫【精通Scrapy网路爬虫】《精通Scrapy网路爬虫》是2017年清华大学出版社出版的图书,作者是刘硕 。
基本信息作者:刘硕定价:59元印次:1-1ISBN:9787302484936出版日期:2017.10.01印刷日期:2017.09.22内容简介本书深入系统地介绍了Python流行框架Scrapy的相关技术及使用技巧 。全书共14章,从逻辑上可分为基础篇和高级篇两部分,基础篇重点介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解爬虫的高级话题,如登录认证、档案下载、执行JavaScript、动态网页爬取、使用HTTP代理、分散式爬虫的编写等,并配合项目案例讲解,包括供练习使用的网站,以及京东、知乎、豆瓣、360爬虫案例等 。本书案例丰富,注重实践,代码注释详尽,适合有一定Python语言基础,想学习编写複杂网路爬虫的读者使用 。目录结构第1章初识Scrapy11.1网路爬虫是什幺11.2Scrapy简介及安装21.3编写第一个Scrapy爬虫31.3.1项目需求41.3.2创建项目41.3.3分析页面51.3.4实现Spider61.3.5运行爬虫81.4本章小结11第2章编写Spider122.1Scrapy框架结构及工作原理122.2Request和Response对象142.2.1Request对象152.2.2Response对象162.3Spider开发流程182.3.1继承scrapy.Spider192.3.2为Spider命名202.3.3设定起始爬取点202.3.4实现页面解析函式222.4本章小结22第3章使用Selector提取数据233.1Selector对象233.1.1创建对象243.1.2选中数据253.1.3提取数据263.2Response内置Selector283.3XPath293.3.1基础语法303.3.2常用函式353.4CSS选择器363.5本章小结40第4章使用Item封装数据414.1Item和Field424.2拓展Item子类444.3Field元数据444.4本章小结47第5章使用ItemPipeline处理数据485.1ItemPipeline485.1.1实现ItemPipeline495.1.2启用ItemPipeline505.2更多例子515.2.1过滤重複数据515.2.2将数据存入MongoDB545.3本章小结57第6章使用LinkExtractor提取连结586.1使用LinkExtractor596.2描述提取规则606.3本章小结65第7章使用Exporter导出数据667.1指定如何导出数据677.1.1命令行参数677.1.2配置档案697.2添加导出数据格式707.2.1源码参考707.2.2实现Exporter727.3本章小结74第8章项目练习758.1项目需求778.2页面分析778.3编码实现838.4本章小结88第9章下载档案和图片899.1FilesPipeline和ImagesPipeline899.1.1FilesPipeline使用说明909.1.2ImagesPipeline使用说明919.2项目实战:爬取matplotlib例子源码档案929.2.1项目需求929.2.2页面分析949.2.3编码实现969.3项目实战:下载360图片1039.3.1项目需求1049.3.2页面分析1049.3.3编码实现1079.4本章小结109第10章模拟登录11010.1登录实质11010.2Scrapy模拟登录11410.2.1使用FormRequest11410.2.2实现登录Spider11710.3识别验证码11910.3.1OCR识别11910.3.2网路平台识别12310.3.3人工识别12710.4Cookie登录12810.4.1获取浏览器Cookie12810.4.2CookiesMiddleware源码分析12910.4.3实现BrowserCookies-Middleware13210.4.4爬取知乎个人信息13310.5本章小结135第11章爬取动态页面13611.1Splash渲染引擎14011.1.1render.html端点14111.1.2execute端点14211.2在Scrapy中使用Splash14511.3项目实战:爬取toscrape中的名人名言14611.3.1项目需求14611.3.2页面分析14611.3.3编码实现14711.4项目实战:爬取京东商城中的书籍信息14911.4.1项目需求14911.4.2页面分析149 11.4.3编码实现15211.5本章小结154第12章存入资料库15512.1SQLite15612.2MySQL15912.3MongoDB16512.4Redis16912.5本章小结173第13章使用HTTP代理17413.1HttpProxyMiddleware17513.1.1使用简介17513.1.2源码分析17713.2使用多个代理17913.3获取免费代理18013.4实现随机代理18413.5项目实战:爬取豆瓣电影信息18713.5.1项目需求18813.5.2页面分析18913.5.3编码实现19413.6本章小结198第14章分散式爬取19914.1Redis的使用20014.1.1安装Redis20014.1.2Redis基本命令20114.2scrapy-redis源码分析20614.2.1分配爬取任务部分20714.2.2汇总爬取数据部分21414.3使用scrapy-redis进行分布式爬取21714.3.1搭建环境21714.3.2项目实战21814.4本章小结224