HoRain云--Crawlab爬虫管理平台快速部署指南-智慧文博士

🎬 HoRain 云小助手：个人主页

⛺️生活的理想，就是为了理想的生活!

⛳️ 推荐

前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。

通过 Docker 单节点部署 Crawlab 来管理爬虫，能让你快速获得一个功能完善的分布式爬虫管理平台。下面这张流程图清晰地展示了从准备到验证的完整操作序列，帮你对整个过程有个整体把握。

flowchart A[准备Docker环境] --> B[创建docker-compose.yml] B --> C[启动Crawlab服务] C --> D[访问Web界面<br>localhost:8080] D --> E[创建/上传爬虫] E --> F[运行与监控爬虫任务] F --> G[验证数据收集]

🔧 详细部署步骤

1. 环境准备

确保你的机器上已安装Docker 和Docker Compose。你可以通过运行docker --version和docker-compose --version来检查是否安装成功。

2. 编写核心配置文件

创建一个名为docker-compose.yml的文件，这是部署的核心。以下配置提供了一个稳定且适合单节点部署的起点。

version: '3.3' services: crawlab: image: crawlabteam/crawlab:latest container_name: crawlab_master restart: unless-stopped environment: CRAWLAB_NODE_MASTER: "Y" # 指定为主节点 CRAWLAB_MONGO_HOST: "mongo" # 连接MongoDB ports: - "8080:8080" # Web管理界面端口 volumes: - /opt/crawlab/master:/data # 持久化数据，防止重启后丢失 depends_on: - mongo mongo: image: mongo:latest container_name: crawlab_mongo restart: unless-stopped volumes: - /opt/crawlab/mongo/data/db:/data/db # 持久化数据库数据

关键配置说明：

CRAWLAB_NODE_MASTER: "Y"：明确指定该节点为主节点，这是单节点部署的关键。
volumes挂载：将容器内的数据目录挂载到宿主机（如/opt/crawlab），确保即使容器删除，你的爬虫任务、配置和数据库数据也不会丢失。请确保宿主机上的目录存在且具有适当权限。
restart: unless-stopped：设置容器自动重启策略，提高服务稳定性。

3. 启动服务

在包含docker-compose.yml文件的目录下，执行以下命令来启动所有服务。

docker-compose up -d

-d参数让服务在后台运行。之后，你可以使用docker-compose ps检查容器状态，或使用docker-compose logs -f crawlab查看实时日志以排查问题。

4. 访问与初体验

服务启动后，打开浏览器，访问http://<你的服务器IP地址>:8080。

默认的用户名和密码均为admin 。
首次登录后，为了安全起见，建议立即在 Web 界面的设置中修改密码。

🚀 部署与运行第一个爬虫

成功登录后，你可以通过以下方式部署爬虫：

上传爬虫代码：在 Crawlab 的 Web 界面中，通常有“爬虫”或“项目”管理页面。你可以将本地的爬虫项目（例如一个包含scrapy.cfg的 Scrapy 项目）打包成 ZIP 文件直接上传。
注意依赖管理：Crawlab 基础镜像可能未包含你的爬虫所需的所有 Python 库（如requests,selenium）。你有两种方式解决：
- 在 Crawlab 界面中安装：在“依赖管理”或“节点管理”页面，查找安装 Python 包的选项。你可以使用国内镜像源加速，例如pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple。
- 构建自定义 Docker 镜像：对于生产环境，更可靠的方法是创建自己的 Dockerfile，基于 Crawlab 镜像安装所需依赖。
执行爬虫任务：在爬虫列表中找到你上传的爬虫，点击“运行”按钮。你可以在任务中心查看实时日志和任务状态。

⚠️ 常见问题与解决

问题	可能原因与解决方案
无法访问 Web 界面 (localhost:8080)	1.防火墙/安全组：确保服务器安全组开放了 8080 端口。 2.容器启动失败：使用`docker-compose logs`命令查看具体错误日志。
爬虫任务执行失败，提示缺少模块	Crawlab 工作节点环境中缺少必要的 Python 库。通过 Web 界面或自定义镜像安装所需依赖。
Docker Compose 启动报错	1.端口冲突：检查 8080, 27017 等端口是否被其他程序占用，可修改`docker-compose.yml`中的端口映射（如`"8081:8080"`）。 2.镜像拉取失败：检查网络，或尝试手动拉取：`docker pull crawlabteam/crawlab:latest`。
爬虫能运行但无数据或数据丢失	1.未配置数据存储：确保你的爬虫代码正确配置了数据管道，将数据保存到数据库或文件。 2.未挂载数据卷：检查`docker-compose.yml`中的`volumes`配置，确保数据持久化。