返回
快速导航关闭
当前搜索
网站分类
栏目推荐
实用工具
热门标签
子分类:
创奇学院 >自媒体 >微博 >微博热搜 » 正文

今日微博热搜榜排名最新,爬一爬数据采集实战系列7「调度任务」:采集微博实时热搜榜信息

微博热搜 更新时间: 发布时间: 微博热搜归档 最新发布 网站地图

本篇教程为高级实战案例,用【调度】功能多次采集微博实时热搜榜数据。

##插件安装及新手入门教程可以看订阅号第一篇文章 极简易用网页采集器:爬一爬数据采集实战教程


微博实时热搜榜每10min更新一次。如果想采集某个时间段内实时热搜榜的完整信息,需每隔十分钟手动运行,这样的效率极低,不可取。

实时热搜榜的上榜规则

今天就教大家一个方法,用调度器定时采集数据。这样,只要我们设置好调度任务,让任务自动运行,我们就可以高枕无忧的玩耍去了。

本例设置了在19:00--21:00期间每隔10分钟采集微博热搜榜数据。

操作步骤

1.确保账号已登录,打开需要采集的微博实时热搜榜网站,点击浏览器插件栏的“爬”字图标,启动插件。

2.点击页面上需要采集的信息。如果色彩框没有包含所有的任务数据, 点击切换按钮,切换算法,直到选中所有的任务数据。(注:下载为js-engine)

依次选取要抓取的元素

3.先点击“完成”按钮,再点击“测试”按钮,测试采集的数据是否就是您想要的。

测试数据

4.确认测试成功后,点击”OK”关闭测试窗口。填写任务名称(长度为4-32的字符,必填),并根据个人需要修改列名。

5.点击“提交”按钮,创建任务。

创建任务

6.任务创建成功后,在官网导航栏“任务”页面,点击”打开任务调度器”,调度页面便出现在浏览器标签页。

打开调度器

7.在所创建的任务后点击”管理”选项。

打开任务管理页面

8.点击”调度”选项,新建调度,设置定时任务。

新建调度任务

9.根据Cron表达式,设置任务抓取频率,如下图所示。具体可参考”教程中心”热门问题中的“什么是Cron表达式”。

(#注:本例设置的是 在19:00--21:00之间每隔10分抓取页面)

设置Cron表达式

10.调度配置成功后,任务根据设置频率自动运行。我们可在调度管理标签页面,看到任务的运行状态。(#注:在任务调度期间,该页面不关闭。)

查看调度状态

11.点击任务”数据”选项,我们可以看到多批次的数据。(#注:数据从19:00开始,每个批次间隔10分钟)

查看数据

Tips:

①本例下载器为js-engine

②为保证数据稳定,可将频率值大一点,预留足够的抓取时间。

③想看视频版调度教程,赶紧去官网教程中心吧。

④附Cron表达式的一些例子:

表达式释义提示
0 12 * * ?每天12:00相当于’0 12 */1 * ?’
15 10 ? * *每天10:15相当于’15 10 * * ?’或’15 10 */1 * ?’
* 14 * * ?每天14:00到14:59,每隔1分钟
0/5 14 * * ?每天14:00到14:59,每隔5分钟相当于’*/5 14 * * ?’
0-5 14 * * ?每天14:00到14:05,每隔1分钟
10,44 14 ? * 4每周三14:10和14:44
15 10 15 * ?每月15日的10:15
15 10 ? * 6L每月最后一个周五的10:15
15 10 ? * 6#3每月第三个周五的10:15

如果对哪方面数据感兴趣,也可在评论区留言,日后做教程分享给大家!

转载请注明:文章转载自 http://www.320g.com/
本文地址:http://www.320g.com/wbrs/6738.html
考高分网交流群

扫一扫加入QQ交流群

和更多志同道合朋友一起交流,分享干货资料!
创奇学院客服

扫一扫加客服微信

有疑问请咨询创奇学院微信号,在线为您解答!
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 Copyright 320g.com Rights Reserved. Powered · 创奇学院

ICP备案号:陇ICP备2020003353号