BIOS工程师标准作业书 之 PCIE 问题如何处理

2024-08-31 15:20

本文主要是介绍BIOS工程师标准作业书 之 PCIE 问题如何处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

bios 工程师作为最基层的岗位,做事情一定要按部就班,肯定不能随意发挥。PCI 作为服务器中最主要的总线,也是最容易出bug 的地方。所以我整理了这篇文章。

当前x86系统PCIe架构中面临的挑战以及问题

系统设计中使用了不同供应商的硬件模块,不同的硬件模块都有各自的错误处理和报错机制。

在这么复杂的系统中,如何快速定位故障的模块,并使系统重新健康的上线工作

如何在复杂的系统中,找到问题的根因(root cause), 尤其是超时类的问题?

我们收集了日常工作中所遇到的问题。

PCIe 架构中所面临的问题:

PCIE 设备找不到

PCIE 设备没有跑在所期望的Link speed/ Link width

系统运行过程中,Pcie 设备产生了错误,要怎么处理

在做热插拔的时候,设备发生问题要怎么处理,有可能找不到,有可能

今天主题

服务器的PCIE 拓扑架构

先介绍一下背景知识:

root port:

就是我们说的根节点,pcie 的根节点,它能连接pcie的其他设备, 并且让其他设备在os 下能正常工作。

switch: 相当于usb hub, 就是作扩展作用的。比如32 进72 出。

retimer: 如果直接连,经过的链路太长,信号品质会下降,所以我们需要retimer. 

从软件的角度,我们是如何发现这些pcie设备的:

我们用lspci 观察一下,上面pcie 这条链路上的设备。从根节点开始,一个switch 一个nvme 一个oam

1: root port, bus number 60, device 1 function 0.

2 pcie switch 

3 gpu  卡 bus 号 63

4 smart nic device bus 号 64

5 nvme bus 号65

PCIE 问题的分类

林林总总的问题比较多,首先是和链路相关的部分,设备换不到, 降带宽,降速度。 RAS 错误。 对于错误类别,分为可纠正,不可纠正,热插拔的问题,

PCIE 设备找不到问题的诊断流程

在讲诊断流程之前,我们需要知道PCI 设备的初始化路线。

从主板上电开始,到pci reset , 进入LSTMM , LSTTM 经过两次到L0 状态,第一次我们要跑在gen1的状态, 然后通过recovery , 调整到gen3/4/5 状态。这个就是整个硬件的初始化,后面就是pci 枚举, 分配bus号,把真实的功能跑起来。

只要在上面,任意一个地方有问题,就会找不到

我们重点讲一下状态机。

绿色的L0 就是正常工作的状态。

detect phase: 发出一个检测脉冲, 就是在这个时候,查两端有没有设备,如果没有设备,就不会往下走。

bios 初始化过程:

检测RP 的link status 寄存器,确认LINK SPEED /WIDH 都是有效的值(ltssm 是在L0)

初始化RP设备的bus number 寄存器来构建pci topo /pcie tree

有递归算法找出整个pcie topo 上所有的pcie 设备

收集pcie 设备对资源的要求  内存和IO  (大部分设备不需要IO).

决定最终的bus 号,并组每个pcie 设备分配所需要的资源

枚举示意图:

PCIE Advanced Error Reporting (AER ) 机制

这篇关于BIOS工程师标准作业书 之 PCIE 问题如何处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1124276

相关文章

mybatis和mybatis-plus设置值为null不起作用问题及解决

《mybatis和mybatis-plus设置值为null不起作用问题及解决》Mybatis-Plus的FieldStrategy主要用于控制新增、更新和查询时对空值的处理策略,通过配置不同的策略类型... 目录MyBATis-plusFieldStrategy作用FieldStrategy类型每种策略的作

linux下多个硬盘划分到同一挂载点问题

《linux下多个硬盘划分到同一挂载点问题》在Linux系统中,将多个硬盘划分到同一挂载点需要通过逻辑卷管理(LVM)来实现,首先,需要将物理存储设备(如硬盘分区)创建为物理卷,然后,将这些物理卷组成... 目录linux下多个硬盘划分到同一挂载点需要明确的几个概念硬盘插上默认的是非lvm总结Linux下多

Python Jupyter Notebook导包报错问题及解决

《PythonJupyterNotebook导包报错问题及解决》在conda环境中安装包后,JupyterNotebook导入时出现ImportError,可能是由于包版本不对应或版本太高,解决方... 目录问题解决方法重新安装Jupyter NoteBook 更改Kernel总结问题在conda上安装了

pip install jupyterlab失败的原因问题及探索

《pipinstalljupyterlab失败的原因问题及探索》在学习Yolo模型时,尝试安装JupyterLab但遇到错误,错误提示缺少Rust和Cargo编译环境,因为pywinpty包需要它... 目录背景问题解决方案总结背景最近在学习Yolo模型,然后其中要下载jupyter(有点LSVmu像一个

解决jupyterLab打开后出现Config option `template_path`not recognized by `ExporterCollapsibleHeadings`问题

《解决jupyterLab打开后出现Configoption`template_path`notrecognizedby`ExporterCollapsibleHeadings`问题》在Ju... 目录jupyterLab打开后出现“templandroidate_path”相关问题这是 tensorflo

如何解决Pycharm编辑内容时有光标的问题

《如何解决Pycharm编辑内容时有光标的问题》文章介绍了如何在PyCharm中配置VimEmulator插件,包括检查插件是否已安装、下载插件以及安装IdeaVim插件的步骤... 目录Pycharm编辑内容时有光标1.如果Vim Emulator前面有对勾2.www.chinasem.cn如果tools工

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

Java多线程父线程向子线程传值问题及解决

《Java多线程父线程向子线程传值问题及解决》文章总结了5种解决父子之间数据传递困扰的解决方案,包括ThreadLocal+TaskDecorator、UserUtils、CustomTaskDeco... 目录1 背景2 ThreadLocal+TaskDecorator3 RequestContextH

关于Spring @Bean 相同加载顺序不同结果不同的问题记录

《关于Spring@Bean相同加载顺序不同结果不同的问题记录》本文主要探讨了在Spring5.1.3.RELEASE版本下,当有两个全注解类定义相同类型的Bean时,由于加载顺序不同,最终生成的... 目录问题说明测试输出1测试输出2@Bean注解的BeanDefiChina编程nition加入时机总结问题说明

关于最长递增子序列问题概述

《关于最长递增子序列问题概述》本文详细介绍了最长递增子序列问题的定义及两种优化解法:贪心+二分查找和动态规划+状态压缩,贪心+二分查找时间复杂度为O(nlogn),通过维护一个有序的“尾巴”数组来高效... 一、最长递增子序列问题概述1. 问题定义给定一个整数序列,例如 nums = [10, 9, 2