返回
快速导航关闭
当前搜索
网站分类
栏目推荐
实用工具
热门标签
子分类:
创奇学院 >引流 >引流平台 >豆瓣引流 » 正文

豆瓣识图,「抓包分析」采集豆瓣排名数据的按键精灵脚本源码

豆瓣引流 更新时间: 发布时间: 豆瓣引流归档 最新发布 网站地图

大家好,我是公众号3分钟学堂的郭立员,今天给大家带来的是数据采集源码的分享。


本期以采集豆瓣排名数据为例:


分析


一、采集内容:https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=



随便选一个类型影片的排行榜。


二、尝试获取网页源码。


TracePrint url.get("https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=")


三、分析返回值




发现返回值并没有排行榜的内容,这说明这个排行榜内容是动态加载的,不能通过直接读取这个网址的网页源码获取到。


四、抓包分析,打开浏览器以后按一下f12键,刷新网页,用浏览器自带的抓包功能分析一下网页。




按照上图点选network,headers,之后因为数据很多,我们用ctrl+f搜索一下,搜索内容是排行榜第一的影片名称“美丽人生”,有两个搜索结果:




我们随便选其中一个分析一下,先把网址复制出来。


https://movie.douban.com/j/chart/top_list?type=24&interval_id=100%3A90&action=&start=0&limit=20


我们直接分析问号后面参数的部分:

type=24 => 影片类型:24

interval_id=100%3A90 => 影片被喜爱程度:100%-90% (%3A是冒号)

action= => 没有值暂时无法判断,字面翻译动作,可省略

start=0 => 起始位置,第一位开始

limit=20 => 显示多少条 ,限制最多20条


这些参数中,影片类型需要在原网址中提取:(下面红色部分)

https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=


每一个类型对应一个数字,比如喜剧是24,动作是5,其他的可以点开更多类型去一一点开看网址。




五、获取网页源码


TracePrint url.get("https://movie.douban.com/j/chart/top_list?type=24&interval_id=100%3A90&action=&start=0&limit=20")


六、网页返回值:




返回值是一个json,这里提取是先转table,然后用键值对提取,如果不会在我公众号(3分钟学堂)中搜索json,有多篇关于json提取的文章教程。


脚本源码


dim json= url.get("https://movie.douban.com/j/chart/top_list?type=13&interval_id=100%3A90")
Dim table=encode.jsontotable(json)
For i = 1 To Len(table)
TracePrint table[i]["title"],table[i]["rating"][1]
Next



转载请注明:文章转载自 http://www.320g.com/
本文地址:http://www.320g.com/dbyl/178.html
考高分网交流群

扫一扫加入QQ交流群

和更多志同道合朋友一起交流,分享干货资料!
创奇学院客服

扫一扫加客服微信

有疑问请咨询创奇学院微信号,在线为您解答!
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 Copyright 320g.com Rights Reserved. Powered · 创奇学院

ICP备案号:陇ICP备2020003353号