返回
快速导航关闭
当前搜索
网站分类
栏目推荐
实用工具
热门标签
子分类:
创奇学院 >引流 >引流平台 >豆瓣引流 » 正文

豆瓣资源网采集,爬一爬数据采集实战系列6「连接任务」:采集豆瓣电影排行榜信息

豆瓣引流 更新时间: 发布时间: 豆瓣引流归档 最新发布 网站地图

本篇教程为高级实战案例,用【连接任务】采集豆瓣电影分类排行榜及其对应的具体电影信息。

#插件安装及新手入门教程可以看订阅号第一篇文章 极简易用网页采集器:爬一爬数据采集实战教程

抓取信息介绍:

1.豆瓣电影分类信息。

分类排行榜信息

2.具体分类下的电影信息。电影名称 / 主演 /上映时间及分类 / 评分数 / 评价数

具体电影信息(默认为好于100%-90%的电影)

操作步骤如下:

1. 确保账号已登录,打开豆瓣电影分类排行榜网页,点击浏览器插件栏的“爬”字图标,启动插件。

2. 点击页面上需要采集的信息。如果色彩框没有包含所有的任务数据, 点击切换按钮,切换算法,直到选中所有的任务数据。

3. 点击column1的“额外属性”按钮,勾选”href”作为连接两个任务的共同元素。(#注:本例第一个任务只采集分类名称以及分类URL)

新建任务一:豆瓣电影分类排行榜

4. 先点击“完成”按钮,再点击“测试”按钮,测试采集的数据是否就是您想要的。

测试任务一

5. 确认测试成功后,点击”OK”关闭测试窗口。填写任务名称(长度为4-32的字符,必填),并根据个人需要修改列名。

6. 点击“提交”按钮,第一个任务“豆瓣电影_分类”创建成功。

任务创建成功

7. 点击当前页面任一电影分类,进入具体页面,重复第一个任务的创建步骤,建立第二个任务。(#注:可根据采集页面的具体情况,添加操作类型。本例下载器为js-engine,添加了”滚动”操作,并设置等待时间为2s,次数为50)

点击任意分类进入电影具体页面

依次选择采集的元素

8. 确保第二个任务测试成功后,点击提交,创建任务”豆瓣电影_具体信息”。

任务二创建成功

9. 点击爬一爬官网“任务”页面下的“连接”按钮,弹出连接任务的界面。将“豆瓣电影_分类”设置为任务一,将“豆瓣电影_具体信息”设置为任务二,勾选任务一的“分类URL”列作为连接两个任务的共同元素,填写任务名称后点击保存。

创建连接任务

10. 在爬一爬官网的“任务”界面,出现了新创建的连接任务“豆瓣电影分类排行榜”,点击运行。

运行连接任务

11. 在任务运行期间,可通过该任务管理页面,查看运行状态。

查看连接任务运行状态

12. 任务运行结束后,点击官网“任务”页面的“数据”选项即可查看并下载数据。(#注:连接任务的数据为2张表)

数据1

数据2

如何获取该任务以及具体数据?

  1. 按照操作步骤,自己创建。(#自己的动手,丰衣足食,O(∩_∩)O~)

  2. 在官网“小市场”页面,免费获取任务,具体数据可在官网论坛处下载。

任务免费获取

Tips:

①本例下载器为js-engine

②添加了”滚动”操作,并设置等待时间和滚动次数。

③若觉得采集过快,可将频率值大一点,若过慢,则设置小一点。

如果对哪方面数据感兴趣,也可在评论区留言,日后做教程分享给大家!

转载请注明:文章转载自 http://www.320g.com/
本文地址:http://www.320g.com/dbyl/5607.html
考高分网交流群

扫一扫加入QQ交流群

和更多志同道合朋友一起交流,分享干货资料!
创奇学院客服

扫一扫加客服微信

有疑问请咨询创奇学院微信号,在线为您解答!
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 Copyright 320g.com Rights Reserved. Powered · 创奇学院

ICP备案号:陇ICP备2020003353号