XPath 教程:爬虫如何用 XPath 定位网页元素
XPath 是爬虫里精准定位网页元素的核心技能,本文从节点选取、谓语、轴运算到 Python lxml 实战,全面讲解 XPath 语法与避坑指南。
XPath 是爬虫里精准定位网页元素的核心技能,本文从节点选取、谓语、轴运算到 Python lxml 实战,全面讲解 XPath 语法与避坑指南。
Python Parsel 怎么用?本文通过可运行示例讲清 Selector、CSS、XPath、正则提取、列表页解析及空结果排查,并给出 Parsel 配合 requests 的完整写法。
urljoin 是 Python 爬虫处理相对路径拼接的核心工具。本文从 URL 结构讲起,覆盖相对路径、绝对路径、./、../、urlparse、urlunparse 在爬虫中的实战用法,附 6 个实战案例与常见报错解决方案。
梳理 requests 异常的完整体系,按请求阶段逐一说明 URL 错误、连接失败、超时、状态码异常和重定向异常,帮你写出不容易崩的爬虫代码。
讲清网页源代码、Elements 面板和实时 DOM 的区别,说明为什么页面上看得到的数据,源代码里不一定有,以及如何判断静态页面和动态页面。
从地址栏输入 URL 开始,系统讲清浏览器如何补全地址、发起请求、解析 HTML、加载资源、执行 JavaScript,直到页面完成渲染。
讲清绝对路径、相对路径、协议相对路径和根路径的区别,并结合浏览器解析规则说明资源地址是怎么被补全成完整 URL 的。
系统梳理 HTTP 各版本演进逻辑:从短连接到长连接,从文本到二进制分帧,从应用层队头阻塞到传输层优化。
从爬虫初学者最常见场景出发,讲清 HTTP 请求与响应的结构、状态码的判断方法,以及抓包时应该优先看哪些字段。
聚焦爬虫开发最常用的 HTTP 头字段,讲清它们的作用、常见问题与排查顺序,帮你快速提升接口复现成功率。
从爬虫初学者视角讲清网页三件套:HTML 负责结构,CSS 负责样式,JavaScript 负责交互,以及为什么看懂网页结构是抓取数据的第一步。
用爬虫初学者能理解的方式讲清 DOM 树、节点、父节点、子节点和兄弟节点,帮助你看懂网页结构并准确定位数据。