Python网络爬虫_URL封装【5】

发表于2023-07-14|更新于2025-02-08|学习笔记Python

|总字数:465|阅读时长:1分钟|浏览量:

为了达到便于管理的目的，大多网站会对网页的URL地址采取封装措施。

URL封装

在我们访问网站时，通常会看到不一样的网址，就如豆瓣电影的动作片排行榜的网页路径一样。并不是一个很层级形式的路径。
这就是URL封装。

3. 可以发现，URL路径中，从里面的问号开始往后就是封装的内容。

4. 像URL路径这样的，一般以Json的形式存在于请求的Request Payload，内参数用于指定路径。准确来说应该是一种请求体。
5. 我们打开检查查看Payload
6. 可以发现，Payload参数完全对应着URL的后半部分。

如果我们把这个Payload放入代码中拼接起来会咋样呢
因为像这样的参数我们需要将它们写成字典再传入Params可选参数，即可。

import requests  # 导入请求库

tou = {    # 伪装浏览器
    "User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36',
    }
ts = {   # 组装封装参数
    "type_name" : "动作",
    "type" : "5",
    "interval_id" : "100:90",
    "action" : "",
    
}
resposn = requests.get('https://movie.douban.com/typerank/', headers=tou,  params=ts)

print(resposn.text)   # 输出

可以看到运行后，就获取到了和页面一模一样的豆瓣动作片排行榜的源代码，
这就说明，Payload就是经过拆解后的URL。

9. 按照这样的思路，我们可以利用封装后的URL举一反三。
比如我们将参数修改一下，将动作换成戏剧，运行后我们就可以拿到豆瓣喜剧片的排行榜源码了。

1.内容为本人学习笔记,难免有不足之处,恳请大家批评指正。

文章作者: Almango

文章链接: http://example.com/2023/07/14/Python%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB_URL%E5%B0%81%E8%A3%85%E3%80%905%E3%80%91/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Almango！

Python 网络爬虫

相关推荐

Python网络爬虫 _XPath解析【6】

问题引入：前面我们可以通过HTTP Requests请求获取到网站的HTML源代码，但是仍没有得到我们想要的信息。那怎么办呢，这时我们就需要通过代码解析，从复杂的源码中提取出我们想要的信息。爬虫解析器爬虫解析器用作于从复杂的网页代码中解析提取出我们想要的数据。如下图，通过解析我们可以从结构复杂的代码中提取出我们想要的。爬虫解析器有三大类，分别是正则表达式解析器，Bs解析器和Lxml解析器。其对于的解析方法如下：正则表达式解析：正则表达式(Regular Expression) 简称 ‘Re’...

Python网络爬虫 _反爬虫【4】

1.由于网络爬虫具有一定的弊端，使用网络爬虫可以悄无声息的从互联网上获取很多资源，包括一些付费，原创和不公开的资源。所以很多大型网站都采取了反爬虫机制，来抵御爬虫的不正当行为。 2.本次介绍了什么是反网络爬虫？，简单的爬虫伪装操作？以及如何应对网络爬虫？。什么是反网络爬虫？反爬虫：**是指对扫描器中的网络爬虫环节进行反制，它会根据ip访问频率，浏览网页速度和User-Agent等参数来判断是否为网络爬虫，随后通过一些反网络爬虫机制来阻止或妨碍网络爬虫的正常爬取。**以此达到网络爬虫恶意获取网站资源的效果。爬虫伪装1. 什么是爬虫伪装？爬虫伪装：指的是将爬虫伪装成其他工具，我们知道请求头中的User-Agent是用于告诉服务器请求是通过什么工具发出的（浏览器，程序，），以及工具对应的版本和类型是什么。现在大多网站，都会根据User-Agent的参数来判断请求是否为网络爬虫发出的，服务器都希望访问网站的用户，是浏览器发出的请求，而不是爬虫程序。因为爬虫本身就是一种程序，所以就会被反爬虫机制给阻止。我们只需要将User-Agent的参数更改一下即可。 2....

Python网络爬虫_发送HTTP请求【3】

了解HTTP协议相关知识后，我们可以尝试利用Python发送一次HTTP请求。Request是Python的第三方库，用于构建和发送HTTP请求。安装Requests：因为是第三方库，所以我们需要用到命令行终端的pip来进行安装。打开终端，输入 pip install requests 再回车。当显示如图所示，则表示安装成功了。 #安装成功：但是如果显示如下，则表示你已经安装过了Requests，不需要再进行安装了。 #安装失败（重复）：打开该库后可以看到里面包含了很多方法模块，而我们待会就会用到里面的status_codes 编写代码：1. 发送HTTP请求当Requests库安装好之后，就到了编写Python代码的环节了，新建一个py文本。导入Requests模块。因为爬虫的主要行为是爬取内容，所以我用GET请求方法，获取一个服务器对象。我们拿百度为例。get内写的是要获取的完整的URL。注意：URL要带上http协议，加密协议带https。 123import requests # 导入模块send =...

Python网络爬虫 _简易的翻译小程序【7】

1.了解了URL封装和XPath解析后，也掌握了许多爬虫知识，是时候做个实战演练了。2.本期内容会讲到如何利用爬虫制作一个简易的翻译小程序。制作翻译小程序一. 实战对象先声明一下：本次实战案例是以学习为目的，不会有其他恶意行为，文章仅供参考。这次是利用爬虫制作小程序，那当然离不开网站了，本次我们会以，金山词霸为实战素材。二. 制作流程1. 英文翻译首先我们先打开金山词霸的官网页面。我们直接翻译两个单词，注意一下URL地址的变化，可以发现，，w=后面的就是我们要翻译的中文，连续两次翻译都是只是改变了这一小部分，所以，我们就可以利用到这一发现。 3....

Python网络爬虫_HTTP请求与响应【2】

问题引入：网络爬虫爬取的对象的是Web，我们将它称之为服务端，而爬虫就是本地的客户端。那么要怎样才能使客户端与服务端建立连接并爬取数据呢？这时就需要利用HTTP了什么是HTTP?1.HTTP：超文本传输协议（Hypertext Transfer Protocol，简称：HTTP）它是一个简单的请求-响应协议，架构运行在TCP之上。这套协议定义了客户端可发送什么样的请求（Request）信号和服务器可返回什么样的响应（Response）。它的作用是规定www服务器与浏览器之间信息传递规范，是二者共同遵守的协议。 2.当用户使用浏览器输入网址访问目标网站时，需要向网站服务器发送HTTP请求，通过发送请求即可从服务器获取页面内容的响应。但实际上服务器只会发送网页代码，我们所看到的页面效果是经过浏览器渲染而成的。请求类型：1.HTTP请求类型有八种：（GET、POST、HEAD、PUT、DELETE、OPTIONS、TRACE、CONNECT）2.但我们常用的只有两种**：GET**和POST。 GET ：用于获取数据，一般用于搜索排序和筛选之类的操作。 POST...

Python网络爬虫_初识【1】

本次教程是依据个人学习心得与学习记录所做，见证的是我们的成长。什么是网络爬虫?定义： Web...

评论

数据加载中