本篇教程为高级实战案例,用【调度】功能多次采集微博实时热搜榜数据。
##插件安装及新手入门教程可以看订阅号第一篇文章 极简易用网页采集器:爬一爬数据采集实战教程
微博实时热搜榜每10min更新一次。如果想采集某个时间段内实时热搜榜的完整信息,需每隔十分钟手动运行,这样的效率极低,不可取。
今天就教大家一个方法,用调度器定时采集数据。这样,只要我们设置好调度任务,让任务自动运行,我们就可以高枕无忧的玩耍去了。
本例设置了在19:00--21:00期间每隔10分钟采集微博热搜榜数据。
操作步骤
1.确保账号已登录,打开需要采集的微博实时热搜榜网站,点击浏览器插件栏的“爬”字图标,启动插件。
2.点击页面上需要采集的信息。如果色彩框没有包含所有的任务数据, 点击切换按钮,切换算法,直到选中所有的任务数据。(注:下载为js-engine)
3.先点击“完成”按钮,再点击“测试”按钮,测试采集的数据是否就是您想要的。
4.确认测试成功后,点击”OK”关闭测试窗口。填写任务名称(长度为4-32的字符,必填),并根据个人需要修改列名。
5.点击“提交”按钮,创建任务。
6.任务创建成功后,在官网导航栏“任务”页面,点击”打开任务调度器”,调度页面便出现在浏览器标签页。
7.在所创建的任务后点击”管理”选项。
8.点击”调度”选项,新建调度,设置定时任务。
9.根据Cron表达式,设置任务抓取频率,如下图所示。具体可参考”教程中心”热门问题中的“什么是Cron表达式”。
(#注:本例设置的是 在19:00--21:00之间每隔10分抓取页面)
10.调度配置成功后,任务根据设置频率自动运行。我们可在调度管理标签页面,看到任务的运行状态。(#注:在任务调度期间,该页面不关闭。)
11.点击任务”数据”选项,我们可以看到多批次的数据。(#注:数据从19:00开始,每个批次间隔10分钟)
Tips:
①本例下载器为js-engine
②为保证数据稳定,可将频率值大一点,预留足够的抓取时间。
③想看视频版调度教程,赶紧去官网教程中心吧。
④附Cron表达式的一些例子:
表达式 | 释义 | 提示 |
0 12 * * ? | 每天12:00 | 相当于’0 12 */1 * ?’ |
15 10 ? * * | 每天10:15 | 相当于’15 10 * * ?’或’15 10 */1 * ?’ |
* 14 * * ? | 每天14:00到14:59,每隔1分钟 | |
0/5 14 * * ? | 每天14:00到14:59,每隔5分钟 | 相当于’*/5 14 * * ?’ |
0-5 14 * * ? | 每天14:00到14:05,每隔1分钟 | |
10,44 14 ? * 4 | 每周三14:10和14:44 | |
15 10 15 * ? | 每月15日的10:15 | |
15 10 ? * 6L | 每月最后一个周五的10:15 | |
15 10 ? * 6#3 | 每月第三个周五的10:15 |
如果对哪方面数据感兴趣,也可在评论区留言,日后做教程分享给大家!