本站文章大多是采集的微信公众号,分享下我是如何稳定采集微信公众号文章
2020-03-30
百战团队

网赚爱好者可以在平台学习到最广范的网赚技术与经验。同时,网赚站长们可以在平台发现最新的网赚资讯,以便找到灵感,在此基础上结合自身的经验,写出自己原创的网赚项目文章到自己的网站上。所以,对于文章采集源,我们大多是采集公众号的文章,部分是采集几个比较不错的博客,自己写的占少数。为什么选择采集微信公众号的文章?1、原创度高,减小我排重的时间2、互动性强,多数文章内容偏向于与读者互动。不比纯资讯站,发表后不互动3、版面整洁,很少采集到垃圾内容4、模板固定,不像很多博主,经常换博客模板,导致采集规则失效本站采集了100多个微信公众号的文章,多数公众号发布的频率不是很高,但是发布的文章却都是干货。所以,目前来说,一天能够采集到原创文章大约30~50篇左右。看到有几个同学注册三人网赚,发私信过来,问我如何采集公众号的文章,简单的回复方法,大家也看不懂,所以干脆把我稳定采集公众号内容的方法分享出来,有需要的可以参考一下。目前,网站采集频率为每70秒扫描一轮各公众号去发现的文章,每3分钟将发现的文章,发布到网站上。先说一下原理:在搜狗公众号搜索公众号名称(如:人民日报),在结果页找到公众号,并获取该网址(公众号主页,即文章列表页),访问该网址抓取文章列表(如果你不是采按公众号采集文章,而是按关键词采集相关的文章则无需访问公众号文章列表页),并对比本地数据库,将新文章写入本地数据库,再使用采集软件,发布到网站上三人网赚刚建立时,采集公众号文章,是我第一次写公众号的规则,之前都是采集网站或博客,限制不是很多。采集公众号时,所以接连遇到多个问题。我采集公众号文章遇到的问题及优化步骤:1、我用的是ET采集器免费版(免费版运行15分钟会自动停止,自制的脚本,ET停止会自动启动,所以能够24小时不间断运行)2、采集前,参考官方的公众号采集思路(按搜索关键词结果采集),写的按公众号采集规则。3、最开始我是直接将几十个公众号搜狗微信搜索结果页放到1个文本中,用ET采集器会轮流从这些页面抓取新新文章,因为数量多以及频率高,导致没运行多长时间,抓取不到新文章,软件上测试抓取源码,发现是要输入验证码,于是我在浏览器中登陆搜狗,使用搜狗搜索公众号,输入验证码,将COOKIE导入到ET中,同时,抓取频率变成每15秒抓取一次,没用多久,验证码依旧。15秒抓取一次,也就是说100个公众号,跑一遍就得1500秒,近半小时。这周期太长,而且后期可能还会增加更多的公众号,所以只能挂IP代理去抓取!!4、et采集器无法使用多个ip轮番代理,所以,自己写个软件,并购买一些ip代理去抓取(没用远程打码的功能是想着彻底解决,即使打码,也可能要遇到未知的问题,比如ip被屏蔽,到最后还是靠代理),并将抓取到的文章写到本地文件wx-artlist.txt,et采集器改为从该文件中采集新文章,完美的解决搜狗访问受限问题。5、每天大约花费10~20块购买这些IP,后来想着,能否这笔费用,于是,将自己手里现有的6台vps,又申请几个景安的免费空间,各放了个php文件,反向代理抓取,完美解决,成功省去这笔钱!6、目前一天大约采集100~200篇文章(并非全部可用,有些内容不符),抓取文章内容与发布,仍然用的et采集器,所以本地采集目前没问题到问题(公众号主页不显示文章列表,不影响)7、ET采集官方发布的采集规则,内容过滤不好使,自己优化了一下,把一些杂乱标签全部替换成了段落标签或换行符
目前为止,稳定采集近2个月现在每天早上起床开始采集,晚上睡觉关电脑,期间,全自动采集发布到网站的文章回收站中,自己闲的时候,在回收站找到优质的文章手动审核发布到网站上。有些同学可能会问,手动审核为什么还要采集,复制粘贴不就好了。1、公众号图片无法外链,保存图片再上传,很费事,有些文章图片过多,可能5分钟就搞不定,采集这个时间是省掉了。2、一个个打开去看哪个公众号的新文章适宜采集(从目前每天200个文章中选50个文章),也费时间,哪有列表直接显示新文章来得快!
目前软件也开始尝试采集搜狗微信搜索的“网赚”、“赚钱”等关键词的搜索结果,并抓取最近的文章。原理一样,大同小异。
先说这么多,如果你的公众号文章不错,想将你的公众号文章自动同步到三人网赚,可联系我们采集,当然如果你觉得本站采集你的公众号影响你们的访问,可联系停止采集你的公众号文章。
如果认准备考,可联系网站客服获取国网考试资料!助你录取率提升90%!
学员评价








推荐阅读:
- 上一篇:成交客户的时候,不敢跟客户开口谈钱,怎么办?
- 下一篇:有钱不赚,大逆不道