Python 爬虫如何分析并模拟 JS 动态请求-智慧文博士

一、JS 动态请求的逆向工程核心逻辑

JS 动态请求的本质是浏览器通过 JavaScript 脚本，按照特定的规则（请求方法、参数、头信息、加密方式）向后端 API 接口发送请求，后端返回 JSON、XML 等结构化数据后，前端再进行渲染。逆向工程的核心就是还原这些请求规则，其流程可分为四步：

定位目标请求：通过浏览器开发者工具找到承载核心数据的异步请求；
分析请求参数：明确请求的 URL、方法、头信息、Query/String 参数的含义与生成规则；
破解加密逻辑：若参数存在加密（如 MD5、AES、RSA 或自定义算法），需逆向 JS 代码还原加密过程；
模拟请求发送：使用 Python 按照分析出的规则构造请求，获取数据。

这一流程的关键在于精准定位请求和破解参数加密，也是逆向工程的难点所在。

二、逆向分析工具选型

完成 JS 动态请求的逆向，需要搭配合适的工具链，以下是常用工具的功能与选型建议：

工具类别	推荐工具	核心作用
浏览器调试工具	Chrome/Firefox 开发者工具	抓包、查看请求参数、调试 JS 代码
JS 代码格式化 / 反混淆	Prettier、Chrome 开发者工具 Sources 面板	将混淆后的 JS 代码格式化，便于阅读
加密算法验证	Online Hash Calculator、CryptoJS 在线工具	验证逆向出的加密算法是否正确
Python 请求库	requests/httpx（同步）、aiohttp（异步）	构造并发送模拟请求
JS 代码执行	PyExecJS、Node.js	在 Python 中执行逆向得到的 JS 加密代码

其中，Chrome 开发者工具是最基础也是最重要的工具，几乎能完成从抓包到初步 JS 分析的所有工作。

三、逆向分析实战：以某动态数据接口为例

1. 定位目标请求

以某资讯网站的动态新闻列表为例，我们需要获取其分页加载的新闻数据：

打开 Chrome 浏览器，访问目标网站，按下F12打开开发者工具，切换到Network面板；
勾选XHR/Fetch筛选器（只显示异步请求），滚动页面触发新闻的分页加载；
在请求列表中，找到名称包含news_list的请求（通常为 JSON 格式），这就是承载新闻数据的核心请求。

2. 分析请求参数

点击该请求，切换到Headers标签，可查看关键信息：

Request URL：https://example.com/api/news/list（目标 API 接口）；
Request Method：POST（请求方法）；
Form Data/Payload：包含page（页码）、limit（每页条数）、timestamp（时间戳）、sign（签名）等参数；
Request Headers：包含User-Agent、Referer、Token等头信息。

其中，page和limit是普通参数，timestamp是当前时间戳，而sign是疑似加密的签名参数，这是逆向的重点。

3. 破解签名生成逻辑

要找到sign的生成规则，需定位对应的 JS 代码：

在开发者工具的Network面板中，右键该请求，选择Open in Sources panel，定位到发起请求的 JS 代码位置；
若代码被混淆，可使用Prettier格式化（点击 Sources 面板的{}按钮）；
搜索sign关键词，找到签名生成的代码段，例如：javascript运行

functiongenerateSign(timestamp,page,limit){constsecret="abc123xyz";// 固定密钥conststr=timestamp+page+limit+secret;returnmd5(str);// MD5加密}

此时，我们就逆向出了sign的生成规则：将时间戳、页码、每页条数与固定密钥拼接后，进行 MD5 加密。

四、Python 模拟请求的完整实现

1. 需求定义

基于上述逆向结果，实现 Python 爬虫：

构造请求参数，生成签名；
发送 POST 请求获取新闻数据；
解析并保存数据。

2. 实现代码

importrequestsimporttimeimporthashlibimportjsonfromtypingimportDict,ListclassJSDynamicRequestCrawler:def__init__(self):# 目标API接口self.api_url="https://example.com/api/news/list"# 固定密钥（逆向得到）self.secret="abc123xyz"# 请求头（从浏览器Headers中复制）self.headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36","Referer":"https://example.com/news","Content-Type":"application/json;charset=UTF-8"}defgenerate_sign(self,timestamp:str,page:int,limit:int)->str:"""根据逆向规则生成签名"""# 拼接字符串str_to_sign=f"{timestamp}{page}{limit}{self.secret}"# MD5加密md5_obj=hashlib.md5()md5_obj.update(str_to_sign.encode("utf-8"))sign=md5_obj.hexdigest()returnsigndefget_news_list(self,page:int,limit:int=10)->List[Dict]:"""获取单页新闻列表数据"""# 生成时间戳（秒级，与JS中的一致）timestamp=str(int(time.time()))# 生成签名sign=self.generate_sign(timestamp,page,limit)# 构造请求参数payload={"page":page,"limit":limit,"timestamp":timestamp,"sign":sign}try:# 发送POST请求response=requests.post(url=self.api_url,headers=self.headers,json=payload# 若接口为form-data，使用data=payload)# 验证响应状态response.raise_for_status()# 解析JSON数据data=response.json()ifdata.get("code")==200:# 假设接口返回code=200表示成功news_list=data.get("data",{}).get("list",[])print(f"成功获取第{page}页数据，共{len(news_list)}条新闻")returnnews_listelse:print(f"接口返回错误：{data.get('msg')}")return[]exceptrequests.exceptions.RequestExceptionase:print(f"请求失败：{str(e)}")return[]defsave_data(self,all_news:List[Dict],file_path:str="news_list.json"):"""保存数据到本地JSON文件"""withopen(file_path,"w",encoding="utf-8")asf:json.dump(all_news,f,ensure_ascii=False,indent=4)print(f"所有数据已保存到{file_path}，共{len(all_news)}条新闻")defstart_crawl(self,max_page:int=5):"""启动爬虫，爬取多页数据"""all_news=[]forpageinrange(1,max_page+1):news_list=self.get_news_list(page)ifnotnews_list:# 若某页数据获取失败，可选择停止或继续print(f"第{page}页数据获取失败，停止爬取")breakall_news.extend(news_list)# 避免请求过快，添加短暂延迟time.sleep(1)self.save_data(all_news)if__name__=="__main__":# 初始化爬虫并启动crawler=JSDynamicRequestCrawler()crawler.start_crawl(max_page=5)

3. 代码解析

签名生成：generate_sign方法按照逆向得到的规则，将时间戳、页码、每页条数与固定密钥拼接后进行 MD5 加密，生成签名参数；
请求发送：get_news_list方法构造 POST 请求的参数和头信息，发送请求并解析返回的 JSON 数据；
数据采集与保存：start_crawl方法循环爬取多页数据，save_data方法将数据保存到本地 JSON 文件；
反爬优化：添加了 1 秒的请求延迟，避免因请求过快被目标网站封禁 IP。

五、进阶场景与优化方案

1. 复杂加密算法的处理

若签名采用 AES、RSA 或自定义复杂算法，直接用 Python 还原可能耗时费力，可采用两种方案：

PyExecJS/Node.js：将逆向得到的 JS 加密代码保存为单独的文件，在 Python 中调用 JS 执行环境运行该代码，直接获取签名；
逆向编译：使用 IDA Pro、Ghidra 等工具对 JS 代码进行反编译，彻底还原算法逻辑后用 Python 实现。

2. 动态 Token 的处理

若请求头中包含动态生成的 Token（如从 Cookie 或其他接口获取），需在爬虫中先请求 Token 接口，获取 Token 后再构造请求。

3. 异步优化

对于需要爬取大量数据的场景，可将同步的requests替换为异步的aiohttp，结合asyncio实现并发请求，提升爬取效率。

4. 反爬策略规避

使用代理 IP：通过代理池为每个请求分配不同的 IP，避免 IP 被封禁；推荐亿牛云隧道代理
随机化请求头：维护 User-Agent、Accept 等头信息的列表，每次请求随机选择；
模拟浏览器行为：添加 Referer、Cookie 等信息，使请求更接近真实浏览器的行为。

总结

逆向工程是 Python 爬虫处理 JS 动态请求的核心能力，其本质是还原前端与后端的通信规则。从浏览器抓包定位请求，到分析参数与加密逻辑，再到用 Python 模拟请求，整个流程需要开发者具备调试 JS 代码、分析网络请求和编写爬虫的综合能力。

Python 爬虫如何分析并模拟 JS 动态请求