发布网友 发布时间:2022-04-24 03:22
共1个回答
热心网友 时间:2023-10-24 15:42
硬件配置: RH5885H V3或者RH5885 V3服务器。
现象1. 服务器运行一段时间后,操作系统宕机,显示器输出无显(no signal)。
现象2. BMC上报CAT ERROR,如图1所示。并且无其他硬件告警。
图1
现象3. 收集操作系统日志,没有产生MCE日志或者MCE日志中没有硬件报错信息。Message日志中没有错误打印。
告警信息
服务器BMC报CAT ERROR或者服务器出现OS死机
处理过程
1 服务器CAT ERROR告警原理分析
1.1.1 CAT ERROR是X86计算系统检测机制所能识别到的故障统称
Intel在Pentium 4、Xenon和P6系列处理器中实现了机器检查(Machinecheck)架构,提供能够检测和报告错误的机制,如系统总线错误、校验错 误、缓存错误、TLB错误、进程溢出和越界等。
当机器检查到不可纠正的进程错误时,就触发记录一个CAT ERROR日志。也就是说CAT ERROR是进程在CPU和内存中执行过程中遇到。
X86平台中导致CAT ERROR的原因主要包括CPU、内存相关硬件故障以及异常逻辑状态等软件故障。
1.1.3 华为服务器针对此类复杂的异常事件,具有故障诊断功能,可以快速提供该类疑难问题的判断依据
当前X86平台技术中对于CAT ERROR问题定位较为困难,为此华为服务器在BMC管理系统中开发了故障诊断功能。实现了计算资源的轨迹追踪,可以在发生CAT ERROR事件时根据轨迹追踪信息从硬件的角度进行自动判断,并给出处理建议。
因此对于此类问题的分析主要采用BMC故障诊断日志和OS中的MCElog日志进行对应分析的方法。如问题原因为硬件导致,那么在两个日志中均会有硬件异常产生,否则问题的方向需要从OS层面进行深入分析。
根因
1. 初步结论:无有效日志,无法确认CAT ERROR具体原因。根据现有日志分析,初步排除硬件故障,现象疑似OS进程偶发异常导致。
2. RH5885 V3采用新一代CPU(E7-48xx V2系列),OS对新一代硬件平台CPU的高级节能特性支持可能存在不稳定性。
根据之前平台处理经验,出现过OS和CPU节能模式不兼容导致系统概率性出现异常的情况。VMware和Citrix官方都明确建议关闭CPU的节能模式。
VMware:
VMware官网文档中在电源管理方便建议关闭节能模式,链接如下:
http://www.vmware.com/files/pdf/techpaper/VMW-Tuning-Latency-Sensitive-Workloads.pdf
因各厂家服务器BIOS参数名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。
Citrix:
Citrix系统也有节能模式引起的问题:
官网说明链接如下:
http://support.citrix.com/article/CTX127395
处理方案也是将节能模式关闭,因各厂家服务器BIOS参数名称名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。
解决方案
若遇到此类服务器故障现象,可以手动收集服务器BMC日志和操作系统OS的message日志返回研发分析确认是是否属于节能模式问题,确认属于该问 题,可以进入BIOS中手东关闭CPU节能模式能够解决该问题。
热心网友 时间:2023-10-24 15:42
硬件配置: RH5885H V3或者RH5885 V3服务器。
现象1. 服务器运行一段时间后,操作系统宕机,显示器输出无显(no signal)。
现象2. BMC上报CAT ERROR,如图1所示。并且无其他硬件告警。
图1
现象3. 收集操作系统日志,没有产生MCE日志或者MCE日志中没有硬件报错信息。Message日志中没有错误打印。
告警信息
服务器BMC报CAT ERROR或者服务器出现OS死机
处理过程
1 服务器CAT ERROR告警原理分析
1.1.1 CAT ERROR是X86计算系统检测机制所能识别到的故障统称
Intel在Pentium 4、Xenon和P6系列处理器中实现了机器检查(Machinecheck)架构,提供能够检测和报告错误的机制,如系统总线错误、校验错 误、缓存错误、TLB错误、进程溢出和越界等。
当机器检查到不可纠正的进程错误时,就触发记录一个CAT ERROR日志。也就是说CAT ERROR是进程在CPU和内存中执行过程中遇到。
X86平台中导致CAT ERROR的原因主要包括CPU、内存相关硬件故障以及异常逻辑状态等软件故障。
1.1.3 华为服务器针对此类复杂的异常事件,具有故障诊断功能,可以快速提供该类疑难问题的判断依据
当前X86平台技术中对于CAT ERROR问题定位较为困难,为此华为服务器在BMC管理系统中开发了故障诊断功能。实现了计算资源的轨迹追踪,可以在发生CAT ERROR事件时根据轨迹追踪信息从硬件的角度进行自动判断,并给出处理建议。
因此对于此类问题的分析主要采用BMC故障诊断日志和OS中的MCElog日志进行对应分析的方法。如问题原因为硬件导致,那么在两个日志中均会有硬件异常产生,否则问题的方向需要从OS层面进行深入分析。
根因
1. 初步结论:无有效日志,无法确认CAT ERROR具体原因。根据现有日志分析,初步排除硬件故障,现象疑似OS进程偶发异常导致。
2. RH5885 V3采用新一代CPU(E7-48xx V2系列),OS对新一代硬件平台CPU的高级节能特性支持可能存在不稳定性。
根据之前平台处理经验,出现过OS和CPU节能模式不兼容导致系统概率性出现异常的情况。VMware和Citrix官方都明确建议关闭CPU的节能模式。
VMware:
VMware官网文档中在电源管理方便建议关闭节能模式,链接如下:
http://www.vmware.com/files/pdf/techpaper/VMW-Tuning-Latency-Sensitive-Workloads.pdf
因各厂家服务器BIOS参数名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。
Citrix:
Citrix系统也有节能模式引起的问题:
官网说明链接如下:
http://support.citrix.com/article/CTX127395
处理方案也是将节能模式关闭,因各厂家服务器BIOS参数名称名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。
解决方案
若遇到此类服务器故障现象,可以手动收集服务器BMC日志和操作系统OS的message日志返回研发分析确认是是否属于节能模式问题,确认属于该问 题,可以进入BIOS中手东关闭CPU节能模式能够解决该问题。
热心网友 时间:2023-10-24 15:42
硬件配置: RH5885H V3或者RH5885 V3服务器。
现象1. 服务器运行一段时间后,操作系统宕机,显示器输出无显(no signal)。
现象2. BMC上报CAT ERROR,如图1所示。并且无其他硬件告警。
图1
现象3. 收集操作系统日志,没有产生MCE日志或者MCE日志中没有硬件报错信息。Message日志中没有错误打印。
告警信息
服务器BMC报CAT ERROR或者服务器出现OS死机
处理过程
1 服务器CAT ERROR告警原理分析
1.1.1 CAT ERROR是X86计算系统检测机制所能识别到的故障统称
Intel在Pentium 4、Xenon和P6系列处理器中实现了机器检查(Machinecheck)架构,提供能够检测和报告错误的机制,如系统总线错误、校验错 误、缓存错误、TLB错误、进程溢出和越界等。
当机器检查到不可纠正的进程错误时,就触发记录一个CAT ERROR日志。也就是说CAT ERROR是进程在CPU和内存中执行过程中遇到。
X86平台中导致CAT ERROR的原因主要包括CPU、内存相关硬件故障以及异常逻辑状态等软件故障。
1.1.3 华为服务器针对此类复杂的异常事件,具有故障诊断功能,可以快速提供该类疑难问题的判断依据
当前X86平台技术中对于CAT ERROR问题定位较为困难,为此华为服务器在BMC管理系统中开发了故障诊断功能。实现了计算资源的轨迹追踪,可以在发生CAT ERROR事件时根据轨迹追踪信息从硬件的角度进行自动判断,并给出处理建议。
因此对于此类问题的分析主要采用BMC故障诊断日志和OS中的MCElog日志进行对应分析的方法。如问题原因为硬件导致,那么在两个日志中均会有硬件异常产生,否则问题的方向需要从OS层面进行深入分析。
根因
1. 初步结论:无有效日志,无法确认CAT ERROR具体原因。根据现有日志分析,初步排除硬件故障,现象疑似OS进程偶发异常导致。
2. RH5885 V3采用新一代CPU(E7-48xx V2系列),OS对新一代硬件平台CPU的高级节能特性支持可能存在不稳定性。
根据之前平台处理经验,出现过OS和CPU节能模式不兼容导致系统概率性出现异常的情况。VMware和Citrix官方都明确建议关闭CPU的节能模式。
VMware:
VMware官网文档中在电源管理方便建议关闭节能模式,链接如下:
http://www.vmware.com/files/pdf/techpaper/VMW-Tuning-Latency-Sensitive-Workloads.pdf
因各厂家服务器BIOS参数名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。
Citrix:
Citrix系统也有节能模式引起的问题:
官网说明链接如下:
http://support.citrix.com/article/CTX127395
处理方案也是将节能模式关闭,因各厂家服务器BIOS参数名称名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。
解决方案
若遇到此类服务器故障现象,可以手动收集服务器BMC日志和操作系统OS的message日志返回研发分析确认是是否属于节能模式问题,确认属于该问 题,可以进入BIOS中手东关闭CPU节能模式能够解决该问题。
热心网友 时间:2023-10-24 15:42
硬件配置: RH5885H V3或者RH5885 V3服务器。
现象1. 服务器运行一段时间后,操作系统宕机,显示器输出无显(no signal)。
现象2. BMC上报CAT ERROR,如图1所示。并且无其他硬件告警。
图1
现象3. 收集操作系统日志,没有产生MCE日志或者MCE日志中没有硬件报错信息。Message日志中没有错误打印。
告警信息
服务器BMC报CAT ERROR或者服务器出现OS死机
处理过程
1 服务器CAT ERROR告警原理分析
1.1.1 CAT ERROR是X86计算系统检测机制所能识别到的故障统称
Intel在Pentium 4、Xenon和P6系列处理器中实现了机器检查(Machinecheck)架构,提供能够检测和报告错误的机制,如系统总线错误、校验错 误、缓存错误、TLB错误、进程溢出和越界等。
当机器检查到不可纠正的进程错误时,就触发记录一个CAT ERROR日志。也就是说CAT ERROR是进程在CPU和内存中执行过程中遇到。
X86平台中导致CAT ERROR的原因主要包括CPU、内存相关硬件故障以及异常逻辑状态等软件故障。
1.1.3 华为服务器针对此类复杂的异常事件,具有故障诊断功能,可以快速提供该类疑难问题的判断依据
当前X86平台技术中对于CAT ERROR问题定位较为困难,为此华为服务器在BMC管理系统中开发了故障诊断功能。实现了计算资源的轨迹追踪,可以在发生CAT ERROR事件时根据轨迹追踪信息从硬件的角度进行自动判断,并给出处理建议。
因此对于此类问题的分析主要采用BMC故障诊断日志和OS中的MCElog日志进行对应分析的方法。如问题原因为硬件导致,那么在两个日志中均会有硬件异常产生,否则问题的方向需要从OS层面进行深入分析。
根因
1. 初步结论:无有效日志,无法确认CAT ERROR具体原因。根据现有日志分析,初步排除硬件故障,现象疑似OS进程偶发异常导致。
2. RH5885 V3采用新一代CPU(E7-48xx V2系列),OS对新一代硬件平台CPU的高级节能特性支持可能存在不稳定性。
根据之前平台处理经验,出现过OS和CPU节能模式不兼容导致系统概率性出现异常的情况。VMware和Citrix官方都明确建议关闭CPU的节能模式。
VMware:
VMware官网文档中在电源管理方便建议关闭节能模式,链接如下:
http://www.vmware.com/files/pdf/techpaper/VMW-Tuning-Latency-Sensitive-Workloads.pdf
因各厂家服务器BIOS参数名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。
Citrix:
Citrix系统也有节能模式引起的问题:
官网说明链接如下:
http://support.citrix.com/article/CTX127395
处理方案也是将节能模式关闭,因各厂家服务器BIOS参数名称名称和BIOS路径有差异,如下截图中是HP和DELL服务器的参数说明。
解决方案
若遇到此类服务器故障现象,可以手动收集服务器BMC日志和操作系统OS的message日志返回研发分析确认是是否属于节能模式问题,确认属于该问 题,可以进入BIOS中手东关闭CPU节能模式能够解决该问题。