2020年7月可用的,火车头采集微信公众号历史文章方法及思路解析

首页 > 科技 > 移动互联网 > 正文 2020-08-08

发表自话题:2020微信小额借款公众号

前言,这篇文章发布于2020年4月份,之后小白我一直都在使用,到今天7月了,依然有效,虽然中途改过了一些代码,但都是微调整,并不需要大改。

————正文开始————

采集公众号的原创文章,对于建设网站来说,非常有益。现在百度算法非常高明,想要欺骗它不太容易,而伪原创又牛头不对马嘴,可读性差,对于访客来说非常不友好。而公众号文章,很有质量保证,百度又没有权限抓取。是个很理想的采集源。

小白研究了一下,结果远比想象中要难(主要是我技术不够)。但是也还好,折腾了三天左右搞定了。

先说说我的需求:

抓取一批公众号,大概30个。监控最新发文,粗略想法是上午检测一遍,下午检测一遍。有新文章就采集下来。

为什么用火车头?

这软件很好用,有自动网址去重功能。重复的链接跳过不再采。而且这火车头有wordpress免登录发文接口,小白我一直在用,习惯了,方便上手。

解决方案选定:

主要集中解决公众号历史文章url,即文章列表。

一、一开始是想使用http://wenxin.sogou.com(这也是网上教程最多的),结果发现搜狗公众号搜索早就已经不再显示某个公众号最新文章了。据说是2019年之前就已经不行了,腾讯关闭了接口。
二、直接抓包,使用fildder等抓包工具,配合pc版,抓取公众号url。这个很复杂。看了一圈教程,果断放弃,不是我能承受的范围。
三、使用第三方公众号数据查询平台。这个方案可以操作。我经过一番研究之后,发现了三个。

1、西瓜助手:http://zs.xiguaji.com
2、微小宝:https://data.wxb.com/

3、壹伴插件:https://yiban.io/dashboard/



说说各自的住优缺点:

西瓜助手,优点:可以查询海量的公众号,目测更新很快。公众号文章列表可以直接用火车头采集出来,跟采集普通网站一样。缺点,收费,而且贵的一批。普通版都是99元一个月。
微小宝,优点,免费,登录即可以看到公众号数据,更新较快(基本上间隔一天就有了),公众号收录也多。缺点,火车头不能直接采集列表,是通过js算法写出来的内容。
壹伴插件,优点,免费,火车头可以直接采集列表。缺点,部分公众号查询不到数据,更新情况过山车似的,有的间隔一天,有的间隔半年。

还体验过一个平台,叫vread,地址:https://www.vreadtech.com/。这个平台有一部分公众号内容,也是通过监控的方式来采集最新的公众号文章,优点火车头可以直接采。缺点:公众号收录较少,需要自己提交(我提交过一个,头天晚上提交,第二天还没收录)而且收费的。12元一个月。虽然便宜,但真心还不如免费的壹伴插件好用。

在第三方平台上,我耽误了很多时间。西瓜助手,我都把火车站采集规则写好了,在筛选公众号阶段了。结果第二天,提示我要升级会员才能继续用了。我操,努力白干了。浪费时间。
壹伴插件,写规则也简单。不过公众号数据更新迷一样的操作,我最终又放弃了它。
微小宝,这个可操作性还行。但是它呈现的列表,是js渲染出来的。火车头无能为力。只能通过python搭配selenium的文本来运行。这个selenium说白了就是一个程序驱动浏览器来打开网页。这样抓取到的结果就是js算法完成时呈现出来的结果。

道理我都懂,但是python我去年学过一两周,看了几节课,现在完全忘了。所以,我又学python,先是在b站上搜索了selenium的教程。看了几个之后,感觉不得劲。从硬盘里翻出来去年下载的一套 崔庆才老师的《Python3网络爬虫实战案例》,里面实战篇有一课:《课时16:使用Selenium模拟浏览器抓取淘宝商品美食信息》。这简直就是完美的教程。看了几遍之后,再在网上找了点源码,就可以开工了。

安装python,pycharm之类的就不多说了,新手又费了不少时间。

你以为这样就最终方案敲定了吗?

并不。

四、源于对微小宝抓取公众号文章数据也不是最新的缺陷(当天的没有,昨天的有)。我还想找找有没有更即时的方法。还真有。那就是公众号官方运营平台。https://mp.weixin.qq.com

这里可以素材管理,插入链接,引用其他公众号。这里的公众号显示的就是最新的数据。一个小时之前的文章都能抓到。


但是,这里同样火车头不能直接抓取列表。同样还是得python和selenium上阵。经过一晚上外加一上午的研究。

我终于完成了这个任务。

最终实现方案是这样操作的:

公众号运营平台,抓取列表页url,这个url生成html文件,保存到本地网站(phpstudy搭建)里。然后再到火车头里提取这些html里的url,再对单篇文章进行采集。(这样就实现了火车头跟采集普通网站一样的效果)

为什么不直接使用python来采集公众号目标文章?因为我技术不到位啊,采集具体文章,还要得搞懂图片下载,html标签处理。我是个新手,完全不会啊,学成还不知道要多久。而且公众号文章发布时间是js渲染的,我能轻松通过火车标签的方法,从selenium抓取的html信息里直接调用。


最近说一句:python里面的selenium真的是个神器啊!理论上任何东西都能抓取到!

本文来源:2020年4月可用的,火车头采集公众号最近文章(包括实时更新)的方法及思路

标签组:[移动互联网] [微信公众号] [python] [火车头

上一篇2022年最新免费看电影.电视剧的微信公众号推荐

下一篇2020智慧树4小时学完一生的理财知识最新微信公众号答案

相关阅读

相同话题文章

相关话题