news 2026/4/3 3:40:48

openstack计算节点nova-compute服务启动异常处理

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
openstack计算节点nova-compute服务启动异常处理

#你处理过openstack中计算节点nova-compute服务假死的问题吗,正常状态下,突发指定到该节点的云主机创建失败,本篇介绍两个案例。#

在openstack云计算平台,nova计算节点经常出现nova-compute服务假死的状态,重启也起不来。创建云主机指定该节点创建云主机失败。该问题在我运维过程当中遇到过几次,在节点正常状态下,突然出现指定到该节点的云主机创建失败,但是其已存在的云主机是没有任何影响的时候,可能是存在脏数据,以下故障问题可以借鉴。

实例脏数据导致nova-compute服务启动异常

底层kvm的虚拟机和数据库中的云主机对应不上关系,导致nova-compute服务启动失败

1. 重启nova-conpute服务失败,查看nova-compute日志,因为数据库中的instances表中的数据和kvm层的信息不一致导致

根据uuid确认 instance-ID。

确认该实例状态,如果确实不一致了,定义为脏数据,查询示列ID的UUID,从kvm层销毁该云主机。

virsh dumpxml 实例ID | grep "<entry name='uuid'>"

nova show 379121c9-6ce2-49bc-8fec-a3fb9cbfb588 //没有该uuid virsh list --all |grep instance-00000015 //确认的实例状态 virsh destroy instance-00000015 //关机 virsh undefine instance-00000015 //销毁该云主机

然后重启libvirt服务和nova-compute服务

systemctl restart libvirtd.service systemctl restart openstack-nova-compute

在重新加入computeha 监控

consul members|grep server //登录server节点执行haclient.sh list-dangling haclient.sh list-dangling //加入fence的节点,也就是consul 隔离的节点重新加入monitor架空 haclient.sh monitor node-xx

修复nova-compute服务异常

1.确认libvirt服务运行情况

nova-compute服务异常的原因和ceph存储有关,可能存储网络连通异常。

//nova-compute服务在部分节点启动失败 systemctl stop openstack-nova-compute.service computeha-slave.service wdmd nova service-force-down --unset node-24 nova-compute nova service-enable node-24 nova-compute systemctl start openstack-nova-compute.service sys //重启libvirtd可以修复 systemctl restart libvirtd //检查是否受HAcomputer检测 haclinet.sh list-dangling //如果存在,执行重新加入 haclient.sh monitor node-24

2.查看异常节点nova-compute.log日志

nova-compute如果还是没法恢复,查看节点上nova-compute日志,确认有没有阻碍nova-compute服务启动的虚拟机资源,然后从数据库中

cat /var/log/nova/nova-compute.log|grep -i "InstanceNotFound"

tailf /var/log/nova/nova-compute.log //确认有没有阻碍nova-compute服务启动的虚拟机资源,然后从数据库中 cat /var/log/nova/nova-compute.log|grep -i "InstanceNotFound" mysql -uroot -p set foreign_key_checks = 0 delete from nova.instances where uuid="对应的UUID" //脚本 #!/bin/bash a=($(cat /var/log/nova/nova-compute.log | grep -Eo 'InstanceNotFound: Instance .* could not be found.' | awk '!a[$3]++ {printf"\"%s\"\n",$3}')) passwd=`consul kv get settings/cluster/database_password` echo "${a[@]}" for i in "${a[@]}" ;do mysql -u root -p${passwd} -e"set foreign_key_checks = 0; delete from nova.instances where uuid="$i";" done

3.重新启动nova-compute,接触节点隔离

如果重新加入force监控之后,服务启动正常,但是在server节点执行haclient.sh list-dangling,显示节点还在的问题。可以通过控制节点查看nova-monitor.log日志,很可能是该节点的租户网卡异常。

往期推荐

云计算平台 分析云主机迁移过程

openstack常用命令集

openstack 计算节点nova-compute配置优化

云计算:什么是云计算

云计算:openstack架构

你用的云计算,底层其实是虚拟化

云计算 云平台虚拟机镜像定制化生成方案

关注订阅不迷路

云计算 | 市场分析 | 为梦想启航 | linux命令大全 | linux技术博客

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/31 18:45:50

企业级OCR部署:CRNN性能优化实战

企业级OCR部署&#xff1a;CRNN性能优化实战 &#x1f4cc; 引言&#xff1a;OCR文字识别的工业级挑战 在数字化转型浪潮中&#xff0c;光学字符识别&#xff08;OCR&#xff09; 已成为企业自动化流程的核心技术之一。从发票识别、合同归档到智能客服中的图文解析&#xff0…

作者头像 李华
网站建设 2026/4/1 4:32:23

技术写作新姿势:自动为教程文章生成配套示意图

技术写作新姿势&#xff1a;自动为教程文章生成配套示意图 作为一名长期与技术文档打交道的工程师&#xff0c;我深知反复截屏、修图、调整格式的痛苦。每次更新文档版本&#xff0c;都要重新制作示意图&#xff0c;不仅耗时耗力&#xff0c;还难以保持视觉风格的一致性。今天我…

作者头像 李华
网站建设 2026/3/29 2:46:23

WVG实战手册:从DRM技术新手到精通高手的进阶指南

WVG实战手册&#xff1a;从DRM技术新手到精通高手的进阶指南 【免费下载链接】wvg 项目地址: https://gitcode.com/gh_mirrors/wv/wvg 你是否曾经对DRM技术感到困惑&#xff1f;面对复杂的加密流程和许可证交换机制&#xff0c;是否觉得无从下手&#xff1f;现在&#…

作者头像 李华
网站建设 2026/3/27 12:01:40

学术翻译革命:Zotero智能翻译插件实现英文文献高效中文化

学术翻译革命&#xff1a;Zotero智能翻译插件实现英文文献高效中文化 【免费下载链接】zotero-pdf2zh PDF2zh for Zotero | Zotero PDF中文翻译插件 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-pdf2zh 面对海量英文文献的阅读压力&#xff0c;科研工作者常常陷…

作者头像 李华
网站建设 2026/4/1 10:58:48

从零精通Rufus:USB启动盘制作全流程实战指南

从零精通Rufus&#xff1a;USB启动盘制作全流程实战指南 【免费下载链接】rufus The Reliable USB Formatting Utility 项目地址: https://gitcode.com/GitHub_Trending/ru/rufus 在系统维护、数据恢复和操作系统安装过程中&#xff0c;一个可靠的USB启动盘是每个技术人…

作者头像 李华