返回
快速导航关闭
当前搜索
网站分类
栏目推荐
实用工具
热门标签
子分类:
创奇学院 >引流 >引流平台 >豆瓣引流 » 正文

豆瓣小组官网,python爬虫实例教程之豆瓣电影排行榜-python爬虫requests库

豆瓣引流 更新时间: 发布时间: 豆瓣引流归档 最新发布 网站地图

前几节课我们通过requests库进行了简单的网页采集和百度翻译的操作,这一节课我们继续进行案例的讲解--python爬虫实例教程之豆瓣电影排行榜,这次的案例与上节课案例相似,同样会涉及到JSON模块,异步加载以及局部加载方式等内容,接下来我们一一讲解操作方法。


1.主要获取的内容


我们主要通过豆瓣电影排行榜(
https://movie.douban.com/typerank?type_name=%E5%96%9C%E5%89%A7&type=24&interval_id=100:90&action=

这个网站获取到影片的相关信息,如链接、片名、评分等内容(如下)



2.分析解题思路


首先我们打开我们要爬取的网址,我们会发现通过拖动鼠标滑块,电影是不断被加载出来的,并且网址不发生变化,因此我们是不是能立刻联想到上节课做的案例百度搜索有异曲同工之处--ajax异步,因此我们获取网址信息、headers、关键词等信息,不能再通过all查看,而是选择xpath查看(如下图)



3.书写代码


第一步,导入requests模块



第二步,获取url、参数、headers等信息


上面我们已经分析了,该网页采用ajax异步,因此我们通过xpath获取url、参数、headers信息(如下)



我们从上图中也了解到该网页的请求类型为get,响应类型方式为JSON,因此代码如下:



需要注意的是:


(1)网址中去掉了“limit=1”因为在参数中已经包含了“limit”


(2)参数中“limit”对应的值改为了100,原因是“limit”代表着电影的篇数,我们不只想获取1部电影的信息,我们想获取100部,当然数字可根据需要更改


了解更多

转载请注明:文章转载自 http://www.320g.com/
本文地址:http://www.320g.com/dbyl/29864.html
考高分网交流群

扫一扫加入QQ交流群

和更多志同道合朋友一起交流,分享干货资料!
创奇学院客服

扫一扫加客服微信

有疑问请咨询创奇学院微信号,在线为您解答!
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 Copyright 320g.com Rights Reserved. Powered · 创奇学院

ICP备案号:陇ICP备2020003353号