基于Qwen3的Python爬虫实战：智能字幕数据采集与处理-智慧文博士

基于Qwen3的Python爬虫实战：智能字幕数据采集与处理

你是不是也遇到过这种情况？想分析某个视频平台的字幕内容，看看大家都在讨论什么，或者想收集特定领域的视频讲解文本。手动下载？效率太低。写个爬虫？字幕数据往往结构复杂，还夹杂着时间轴、广告语，清洗起来特别麻烦。

今天，我就带你用Python爬虫，再结合一个叫Qwen3的智能工具，来搞定这件事。整个过程就像给爬虫装上了“大脑”，让它不仅能抓取数据，还能理解、清洗和整理数据。即使你之前没怎么接触过字幕处理，跟着这篇教程走，也能轻松上手。

1. 我们要做什么？先看看最终效果

在深入代码之前，我们先明确目标。假设我们想分析一系列技术教学视频的字幕，目标是得到一份干净、连贯的文本内容，用于后续的关键词提取或内容分析。

原始爬取的数据：可能包含[00:01:23]这样的时间戳、(背景音乐)这样的场景描述、重复的发言人标记，甚至是一些乱码。
经过智能处理后的数据：是一段段连贯的、可读性强的段落文本，时间戳和噪音被移除，语句通顺。

Qwen3在这里扮演的角色，就是一个“智能字幕清洁工”和“语义理解助手”。它不负责爬取，但能极大地提升我们处理爬取结果的效率和质量。

2. 环境准备：装好你的工具箱

开始之前，确保你的电脑已经准备好了以下几样东西。别担心，都是Python里常用的。

第一步：安装Python如果你还没安装Python，去官网下载3.8或以上版本就行。安装时记得勾选“Add Python to PATH”。

第二步：安装必要的库打开你的命令行（终端或CMD），输入下面的命令，把我们要用的库一次装好。

pip install requests beautifulsoup4 lxml pandas openai

我来简单说说这几个库是干嘛的：

requests：用来向网站发送请求，获取网页内容。这是爬虫的“手”。
beautifulsoup4和lxml：用来解析复杂的HTML网页，从中提取我们需要的信息。这是爬虫的“眼睛”。
pandas：处理表格数据的神器，方便我们清洗和保存数据。
openai：这是用来和Qwen3这类大模型API进行交互的官方库。当然，你需要有对应的API密钥。

第三步：准备Qwen3的API访问由于Qwen3需要通过API调用，你需要：

前往提供Qwen3 API服务的平台（例如阿里云灵积、通义千问等），注册并获取API Key。
在你的代码中，会像下面这样设置这个Key（注意：不要直接把Key写在要分享的代码里！）。

# 这是一个示例，实际使用时请妥善管理你的API Key import openai # 配置客户端，这里以兼容OpenAI格式的API为例 client = openai.OpenAI( api_key="你的实际API-KEY", # 请替换为你的真实Key base_url="https://dashscope.aliyuncs.com/compatible-mode/v1" # 示例base_url，具体以平台文档为准 )

关键提示：永远不要将真实的API Key提交到GitHub等公开仓库。可以使用环境变量或配置文件来管理。

3. 爬虫核心：如何抓取字幕数据？

不同网站的字幕存放方式不一样，这里我以两种最常见的情况为例。

3.1 情况一：字幕直接嵌入在HTML页面中

有些网站会把字幕文本直接放在页面源码里。我们用BeautifulSoup就能把它“揪”出来。

import requests from bs4 import BeautifulSoup def fetch_subtitle_from_html(url, subtitle_selector): """ 从网页HTML中提取字幕 :param url: 视频页面地址 :param subtitle_selector: CSS选择器，用于定位字幕元素 :return: 提取到的原始字幕文本 """ headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36' } try: response = requests.get(url, headers=headers, timeout=10) response.raise_for_status() # 检查请求是否成功 soup = BeautifulSoup(response.content, 'lxml') # 使用传入的CSS选择器查找字幕元素 subtitle_element = soup.select_one(subtitle_selector) if subtitle_element: raw_text = subtitle_element.get_text(strip=False, separator='\n') return raw_text else: print(f"未在页面中找到字幕元素，选择器：{subtitle_selector}") return None except requests.RequestException as e: print(f"请求页面时出错：{e}") return None # 示例用法 video_url = "https://example.com/video/123" # 你需要通过浏览器开发者工具（F12）查看字幕对应的HTML元素，并确定其CSS选择器 # 例如，字幕可能在一个<div class="subtitle-text">标签里 selector = "div.subtitle-text" raw_subtitle = fetch_subtitle_from_html(video_url, selector) if raw_subtitle: print("抓取到的原始字幕前500字符：") print(raw_subtitle[:500])

小技巧：怎么找到那个subtitle_selector？打开浏览器开发者工具（F12），点击元素选择箭头，然后去点页面上的字幕，就能在Elements面板里看到它的HTML结构和类名了。

3.2 情况二：字幕在独立的JSON或SRT文件中

更多时候，字幕文件（如.srt,.vtt或.json）是单独存放的。我们需要找到这个文件的链接。

import re import requests def fetch_subtitle_from_srt(srt_url): """ 下载并解析SRT格式字幕文件 :param srt_url: SRT文件的直接链接 :return: 解析后的字幕文本列表（每个元素是一句） """ try: resp = requests.get(srt_url, timeout=10) resp.raise_for_status() srt_content = resp.text # 简单的SRT解析：移除序号和时间行，合并文本行 # SRT格式通常为：序号\n时间轴 --> 时间轴\n字幕文本\n\n lines = srt_content.split('\n') subtitles = [] current_text = [] for line in lines: line = line.strip() # 跳过空行、纯数字行（序号）和时间轴行（包含'-->'） if not line or line.isdigit() or '-->' in line: if current_text: # 遇到分隔符，保存上一句字幕 subtitles.append(' '.join(current_text)) current_text = [] else: current_text.append(line) # 添加最后一句 if current_text: subtitles.append(' '.join(current_text)) return subtitles except Exception as e: print(f"处理SRT文件出错：{e}") return None # 示例：假设你通过其他方式（如分析页面网络请求）找到了SRT链接 srt_url = "https://example.com/subtitles/123.srt" srt_lines = fetch_subtitle_from_srt(srt_url) if srt_lines: print(f"共解析到 {len(srt_lines)} 条字幕") for i, line in enumerate(srt_lines[:3]): # 打印前3句 print(f"{i+1}: {line}")

关键点：找到srt_url或json_url是这一步的难点。通常需要在视频播放页面的网络请求（Network tab）中，过滤subtitle或srt等关键词来寻找。

4. 智能处理：请Qwen3来当数据清洁工

现在，我们拿到了原始、粗糙的字幕文本。接下来就是Qwen3大显身手的时候了。我们设计几个简单的任务让它帮忙。

4.1 任务一：基础清洗与格式化

这个任务目标是去掉技术性标记，留下纯内容。

def clean_subtitle_with_llm(raw_text, client): """ 使用大模型清洗字幕文本 :param raw_text: 原始字幕字符串 :param client: 配置好的OpenAI兼容客户端 :return: 清洗后的文本 """ # 构造一个清晰的指令（Prompt） system_prompt = "你是一个专业的字幕处理助手。你的任务是清理和格式化原始字幕文本。" user_prompt = f""" 请处理以下原始字幕文本： 1. 移除所有时间戳（如 [00:01:23] 或 00:01:23,000 --> 00:01:25,000）。 2. 移除所有括号内的场景描述、音效说明（如 (背景音乐)、(笑声)）。 3. 移除重复的发言人标识（如 讲师: 主持人:）。 4. 将结果整合成通顺、连贯的段落，必要时可以合并短句。 5. 不要添加任何原始文本中没有的内容。 原始文本： {raw_text[:2000]} # 限制输入长度，避免超出Token限制 """ try: response = client.chat.completions.create( model="qwen-max", # 根据实际可用的Qwen模型名称调整，如 qwen-plus, qwen-turbo等 messages=[ {"role": "system", "content": system_prompt}, {"role": "user", "content": user_prompt} ], temperature=0.1, # 低温度使输出更确定、更专注于任务 ) cleaned_text = response.choices[0].message.content return cleaned_text.strip() except Exception as e: print(f"调用模型处理字幕时出错：{e}") return None # 假设 raw_subtitle 是上一节抓取到的原始文本 if raw_subtitle: cleaned_result = clean_subtitle_with_llm(raw_subtitle, client) if cleaned_result: print("\n=== 模型清洗后的结果 ===\n") print(cleaned_result)

4.2 任务二：语义理解与摘要提取

清洗之后，我们还可以让Qwen3做更深度的分析，比如提取核心内容。

def analyze_subtitle_content(cleaned_text, client): """ 分析字幕内容，提取关键信息 :param cleaned_text: 清洗后的字幕文本 :param client: 配置好的OpenAI兼容客户端 :return: 分析结果（字典形式） """ user_prompt = f""" 请分析以下视频字幕文本，并提取关键信息： {cleaned_text[:1500]} 请以JSON格式返回，包含以下字段： 1. `main_topic`: 视频的核心主题（1-2句话）。 2. `key_points`: 3-5个最关键的知识点或论述要点（列表形式）。 3. `style_tone`: 视频的语言风格（如：教学式、幽默式、严谨论述式）。 """ try: response = client.chat.completions.create( model="qwen-max", messages=[ {"role": "system", "content": "你是一个内容分析专家，请严格按JSON格式输出。"}, {"role": "user", "content": user_prompt} ], temperature=0.3, response_format={ "type": "json_object" } # 要求返回JSON对象 ) import json analysis_result = json.loads(response.choices[0].message.content) return analysis_result except Exception as e: print(f"分析字幕内容时出错：{e}") return None # 使用清洗后的文本进行分析 if cleaned_result: analysis = analyze_subtitle_content(cleaned_result, client) if analysis: print("\n=== 内容分析报告 ===") print(f"核心主题：{analysis.get('main_topic')}") print(f"\n关键要点：") for point in analysis.get('key_points', []): print(f" - {point}") print(f"\n语言风格：{analysis.get('style_tone')}")

5. 实战组装：构建一个完整的爬虫流程

我们把上面的所有步骤串起来，形成一个完整的、可复用的脚本框架。

import pandas as pd import time class SmartSubtitleCrawler: def __init__(self, api_client): self.client = api_client self.results = [] def crawl_and_process(self, video_url_list, fetch_method, fetch_args): """ 批量爬取和处理视频字幕 :param video_url_list: 视频URL列表 :param fetch_method: 抓取字幕的函数 :param fetch_args: 传递给抓取函数的参数（如选择器） """ for idx, url in enumerate(video_url_list): print(f"\n正在处理视频 ({idx+1}/{len(video_url_list)}): {url}") # 1. 抓取原始字幕 raw_data = fetch_method(url, **fetch_args) if not raw_data: print(" 抓取失败，跳过。") continue # 2. 智能清洗 cleaned_data = clean_subtitle_with_llm(raw_data, self.client) if not cleaned_data: cleaned_data = "清洗失败" # 3. (可选) 内容分析 analysis_data = analyze_subtitle_content(cleaned_data, self.client) if cleaned_data != "清洗失败" else None # 4. 保存结果 self.results.append({ "video_url": url, "raw_subtitle_preview": str(raw_data)[:200], # 存个预览 "cleaned_text": cleaned_data, "main_topic": analysis_data.get("main_topic") if analysis_data else "N/A", "key_points": "; ".join(analysis_data.get("key_points", [])) if analysis_data else "N/A" }) # 礼貌延时，避免请求过快 time.sleep(2) print(f"\n所有视频处理完成！共成功处理 {len(self.results)} 个。") def save_to_csv(self, filename="subtitle_results.csv"): """将结果保存到CSV文件""" df = pd.DataFrame(self.results) df.to_csv(filename, index=False, encoding='utf-8-sig') print(f"结果已保存至 {filename}") # 如何使用这个类 if __name__ == "__main__": # 1. 初始化爬虫（传入配置好的client） crawler = SmartSubtitleCrawler(client) # 2. 准备你的视频列表和抓取参数 my_video_urls = [ "https://example.com/video/1", "https://example.com/video/2", # ... 更多视频 ] # 假设这些页面都用相同的CSS选择器抓取字幕 fetch_args = {"subtitle_selector": "div.player-subtitle"} # 3. 开始执行 crawler.crawl_and_process(my_video_urls, fetch_subtitle_from_html, fetch_args) # 4. 保存数据 crawler.save_to_csv()

6. 可能会遇到的问题与进阶技巧

爬虫之路很少一帆风顺，这里有几个常见坑和应对方法。

反爬虫机制：网站可能会屏蔽你的请求。
- 对策：使用更真实的User-Agent头，添加Referer头，或者使用time.sleep()随机延时。对于更复杂的情况，可能需要研究会话（Session）或简单的IP轮换。
动态加载字幕：字幕可能是通过JavaScript动态加载的，用requests直接抓取页面源码看不到。
- 对策：可以考虑使用Selenium或Playwright这类浏览器自动化工具来模拟真实用户访问，获取渲染后的页面内容。这会增加复杂度，但能解决很多动态加载问题。
API调用成本与限速：频繁调用Qwen3 API会产生费用，也可能被限速。
- 对策：对于大批量数据，可以先进行简单的规则清洗（如用正则表达式移除时间戳），只把最复杂的语义合并任务交给模型。同时，合理设置请求间隔。
Prompt工程优化：给模型的指令（Prompt）越清晰，结果越好。
- 技巧：在Prompt中提供“好”的示例（Few-shot Learning）。例如，在指令里先写一个“原始字幕”和“期望输出”的例子，模型会模仿得更好。