很多小伙伴在学习了爬虫之后都能够使用它去抓取一些网页上的数据了 , 但是最近有小伙伴问我微信公众号上的文章要怎么去抓取出来 。那这一篇文章将会以实际的代码示例来介绍如何去使用爬虫抓取微信公众号的文章 。
1.下载这个应用程序 , 它可以将HTML格式的数据转换成PDF格式的 。
2.打开编辑器 , 新建一个项目命名为并在里面创建一个空白的文件 。打开编辑器的终端窗口输入下面的命令来下载所需要的库 , 如下所示:
pip install wechatsogou --upgradepip install pdfkit
3.下载完成后在文件的开头写导入模块的代码以及初始化抓取公众号文章的API , 如下所示:
import osimport pdfkitimport datetimeimport wechatsogouws_api = wechatsogou.WechatSogouAPI(captcha_break_time=3)
4.导入模块之后就可以来编写抓取公众号文章的代码了 , 这里的话可以使用一个函数将代码包括起来方便调用 , 如下所示:
# 这里的三个参数为公众号文章的url , 文章标题以及存储路径def url2pdf(url, title, targetPath):try:content_info = ws_api.get_article_content(url)except:return False# 对HTML格式进行处理html = f'''{title}{title}{content_info['content_html']}'''try:# 调用第一步的程序转为pdf格式并存储path_wk="E:/softwareAPP/wkhtmltopdf/bin/wkhtmltopdf.exe";config=pdfkit.configuration(wkhtmltopdf=path_wk)pdfkit.from_string(input=html, output_path=targetPath,configuration=config)except:# 处理文章标题 , 把特殊符号去掉filename = datetime.datetime.now().strftime('%Y%m%d%H%M%S') + '.pdf'pdfkit.from_string(html, targetPath + os.path.sep + filename)
5.函数创建完毕后就可以直接去调用了 , 代码如下:
# 判断公众号名称是否正确if __name__ == '__main__':url2pdf("这里是文章的url", "这里是公众号文章名称","G:/test/hbase文档.pdf" )
【Python怎么去抓取公众号的文章?Python爬虫爬取微信公众号方法】以上就是爬虫抓取公众号文章并转为PDF格式保存的详细代码示例解析了 。
关于技术储备
学好不论是就业还是做副业赚钱都不错 , 但要学会还是要有一个学习规划 。最后大家分享一份全套的学习资料 , 给那些想学习的小伙伴们一点帮助!
一、所有方向的学习路线
所有方向的技术点做的整理 , 形成各个领域的知识点汇总 , 它的用处就在于 , 你可以按照上面的知识点去找对应的学习资源 , 保证自己学得较为全面 。
二、必备开发工具
三、视频合集
观看零基础学习视频 , 看视频学习是最快捷也是最有效果的方式 , 跟着视频中老师的思路 , 从基础到深入 , 还是很容易入门的 。
文章插图
四、实战案例
光学理论是没用的 , 要学会跟着一起敲 , 要动手实操 , 才能将自己的所学运用到实际当中去 , 这时候可以搞点实战案例来学习 。
五、练习题
检查学习结果 。
六、面试资料
我们学习必然是为了找到高薪的工作 , 下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料 , 并且有阿里大佬给出了权威的解答 , 刷完这一套面试资料相信大家都能找到满意的工作 。
最后祝大家天天进步!!
上面这份完整版的全套学习资料已经上传至CSDN官方 , 朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】 。
- 这是一篇让人脸红的python数据分析,嘿嘿嘿嘿嘿
- 多肉奶油黄桃怎么养出状态
- PythonC++相互混合调用编程全面实战
- 隐马尔科夫模型 机器学习笔记Python笔记:HMM
- Python编程中的数据结构
- django项目实战基于Python实现的飞机票销售系统
- python爬虫---爬取知乎热榜内容并进行图片爬取
- 怎么用收件人查快递
- 苹果手机不能隐藏照片怎么办
- 水之密语口碑怎么样