【PCIe】AER linux 驱动浅析

2023-12-26 21:40
文章标签 linux 驱动 浅析 pcie aer

本文主要是介绍【PCIe】AER linux 驱动浅析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

AER及linux内核驱动简介:https://blog.csdn.net/u010443710/article/details/104649179

下面是PCIe设备端错误记录和报告的详细流程图。

1. AER 中断

首先AER驱动作为错误上报和处理的机制,必须有一个错误上报的入口。

这个入口就是AER中断。linux的AER驱动只针对RC,也就是说软件需要处理RC的AER中断请求。

并在中断处理函数中通过AER 寄存器来判断错误类型并作出相应处理。

1.1 AER中断产生

在PCIe spec中定义了2种AER中断产生方式,类似于ep设备,可以选择legacy的INTx或者MSI/MSIx的方式来产生中断。

但对于RC而言,无论是INTx还是MSI/MSIx,都不需要像ep那样真的来触发INTx边带信号或发送MSI tlp来告知RC。

因为RC作为根节点,内部的中断就是报给自己,可以直接在chip内部处理,不需要在PCIe协议上走一圈。

这就涉及RC内部中断上报的机制,由于RC内部中断不仅限于AER中断,所以这部分单独开一篇进行阐述。

 

1.2 如何使能AER中断?

AER Capability -> Root Error Command Register (Offset 2Ch)

打开相应的报告使能bit位,当错误发生后,就会有中断产生。

2. AER驱动

AER驱动与PME、pciehp、pcie-dpc一样是作为pcie port的可选service。

service挂载在pcie port驱动上,由portdrv_core进行管理,service通过pcie_port_service_register进行注册。

具体来说,service的数据结构如下:

struct pcie_port_service_driver {const char *name;int (*probe) (struct pcie_device *dev);void (*remove) (struct pcie_device *dev);int (*suspend) (struct pcie_device *dev);int (*resume) (struct pcie_device *dev);/* Service Error Recovery Handler */const struct pci_error_handlers *err_handler;/* Link Reset Capability - AER service driver specific */pci_ers_result_t (*reset_link) (struct pci_dev *dev);int port_type;  /* Type of the port this driver can handle */u32 service;    /* Port service this device represents */struct device_driver driver;
};

 以下是AER的service结构

static struct pcie_port_service_driver aerdriver = {.name		= "aer",.port_type	= PCI_EXP_TYPE_ROOT_PORT,.service	= PCIE_PORT_SERVICE_AER,.probe		= aer_probe,.remove		= aer_remove,.err_handler	= &aer_error_handlers,.reset_link	= aer_root_reset,
};

2.1 初始化(aer_probe)

AER初始化主要完成2件事情:

  1. 为错误处理入口aer_irq,申请中断;request_irq(dev->irq, aer_irq, IRQF_SHARED, "aerdrv", dev);
  2. 配置AER功能相关的cap寄存器,打开AER能使,中断上报使能等;aer_enable_rootport(rpc);
/*** aer_probe - initialize resources* @dev: pointer to the pcie_dev data structure** Invoked when PCI Express bus loads AER service driver.*/
static int aer_probe(struct pcie_device *dev)
{int status;struct aer_rpc *rpc;struct device *device = &dev->device;/* Alloc rpc data structure */rpc = aer_alloc_rpc(dev);if (!rpc) {dev_printk(KERN_DEBUG, device, "alloc rpc failed\n");aer_remove(dev);return -ENOMEM;}/* Request IRQ ISR */status = request_irq(dev->irq, aer_irq, IRQF_SHARED, "aerdrv", dev);if (status) {dev_printk(KERN_DEBUG, device, "request IRQ failed\n");aer_remove(dev);return status;}rpc->isr = 1;aer_enable_rootport(rpc);return status;
}

这里的中断向量dev->irq,是pcie port驱动初始化时已经申请好了可能是lagecy的或者是MSI/MSIx,AER只需要再注册一个share中断上去。

看一下aer_enable_rootport,先清楚了所有device的状态位,再把上下游设备的错误上报全部使能。

/*** aer_enable_rootport - enable Root Port's interrupts when receiving messages* @rpc: pointer to a Root Port data structure** Invoked when PCIe bus loads AER service driver.*/
static void aer_enable_rootport(struct aer_rpc *rpc)
{struct pci_dev *pdev = rpc->rpd->port;int aer_pos;u16 reg16;u32 reg32;/* Clear PCIe Capability's Device Status */pcie_capability_read_word(pdev, PCI_EXP_DEVSTA, &reg16);pcie_capability_write_word(pdev, PCI_EXP_DEVSTA, reg16);/* Disable system error generation in response to error messages */pcie_capability_clear_word(pdev, PCI_EXP_RTCTL,SYSTEM_ERROR_INTR_ON_MESG_MASK);aer_pos = pdev->aer_cap;/* Clear error status */pci_read_config_dword(pdev, aer_pos + PCI_ERR_ROOT_STATUS, &reg32);pci_write_config_dword(pdev, aer_pos + PCI_ERR_ROOT_STATUS, reg32);pci_read_config_dword(pdev, aer_pos + PCI_ERR_COR_STATUS, &reg32);pci_write_config_dword(pdev, aer_pos + PCI_ERR_COR_STATUS, reg32);pci_read_config_dword(pdev, aer_pos + PCI_ERR_UNCOR_STATUS, &reg32);pci_write_config_dword(pdev, aer_pos + PCI_ERR_UNCOR_STATUS, reg32);/** Enable error reporting for the root port device and downstream port* devices.*/set_downstream_devices_error_reporting(pdev, true);/* Enable Root Port's interrupt in response to error messages */pci_read_config_dword(pdev, aer_pos + PCI_ERR_ROOT_COMMAND, &reg32);reg32 |= ROOT_PORT_INTR_ON_MESG_MASK;pci_write_config_dword(pdev, aer_pos + PCI_ERR_ROOT_COMMAND, reg32);
}

2.2 中断处理

AER中断分为上下半部,上半部aer_irq:

irqreturn_t aer_irq(int irq, void *context)
{unsigned int status, id;struct pcie_device *pdev = (struct pcie_device *)context;struct aer_rpc *rpc = get_service_data(pdev);int next_prod_idx;unsigned long flags;int pos;pos = pdev->port->aer_cap;/** Must lock access to Root Error Status Reg, Root Error ID Reg,* and Root error producer/consumer index*/spin_lock_irqsave(&rpc->e_lock, flags);/* Read error status */pci_read_config_dword(pdev->port, pos + PCI_ERR_ROOT_STATUS, &status);if (!(status & (PCI_ERR_ROOT_UNCOR_RCV|PCI_ERR_ROOT_COR_RCV))) {spin_unlock_irqrestore(&rpc->e_lock, flags);return IRQ_NONE;}/* Read error source and clear error status */pci_read_config_dword(pdev->port, pos + PCI_ERR_ROOT_ERR_SRC, &id);pci_write_config_dword(pdev->port, pos + PCI_ERR_ROOT_STATUS, status);/* Store error source for later DPC handler */next_prod_idx = rpc->prod_idx + 1;if (next_prod_idx == AER_ERROR_SOURCES_MAX)next_prod_idx = 0;if (next_prod_idx == rpc->cons_idx) {/** Error Storm Condition - possibly the same error occurred.* Drop the error.*/spin_unlock_irqrestore(&rpc->e_lock, flags);return IRQ_HANDLED;}rpc->e_sources[rpc->prod_idx].status =  status;rpc->e_sources[rpc->prod_idx].id = id;rpc->prod_idx = next_prod_idx;spin_unlock_irqrestore(&rpc->e_lock, flags);/*  Invoke DPC handler */schedule_work(&rpc->dpc_handler);return IRQ_HANDLED;
}

irq中首先读取 Root Error Status Register,看看是不是有错误产生了。(PCI_ERR_ROOT_STATUS)

获取错误源ID,Error Source Identification Register,PCI_ERR_ROOT_ERR_SRC

并保存在rpc->e_sources数组里面。

中断处理下半部 :aer_isr,这是一个worker

/*** aer_isr - consume errors detected by root port* @work: definition of this work item** Invoked, as DPC, when root port records new detected error*/
void aer_isr(struct work_struct *work)
{struct aer_rpc *rpc = container_of(work, struct aer_rpc, dpc_handler);struct pcie_device *p_device = rpc->rpd;struct aer_err_source uninitialized_var(e_src);mutex_lock(&rpc->rpc_mutex);while (get_e_source(rpc, &e_src))aer_isr_one_error(p_device, &e_src);mutex_unlock(&rpc->rpc_mutex);
}

把刚才上半部保存在rpc->e_sources里面的错误源取出来,一个一个调用aer_isr_one_error进行处理

/*** aer_isr_one_error - consume an error detected by root port* @p_device: pointer to error root port service device* @e_src: pointer to an error source*/
static void aer_isr_one_error(struct pcie_device *p_device,struct aer_err_source *e_src)
{struct aer_rpc *rpc = get_service_data(p_device);struct aer_err_info *e_info = &rpc->e_info;/** There is a possibility that both correctable error and* uncorrectable error being logged. Report correctable error first.*/if (e_src->status & PCI_ERR_ROOT_COR_RCV) {e_info->id = ERR_COR_ID(e_src->id);e_info->severity = AER_CORRECTABLE;if (e_src->status & PCI_ERR_ROOT_MULTI_COR_RCV)e_info->multi_error_valid = 1;elsee_info->multi_error_valid = 0;aer_print_port_info(p_device->port, e_info);if (find_source_device(p_device->port, e_info))aer_process_err_devices(p_device, e_info);}if (e_src->status & PCI_ERR_ROOT_UNCOR_RCV) {e_info->id = ERR_UNCOR_ID(e_src->id);if (e_src->status & PCI_ERR_ROOT_FATAL_RCV)e_info->severity = AER_FATAL;elsee_info->severity = AER_NONFATAL;if (e_src->status & PCI_ERR_ROOT_MULTI_UNCOR_RCV)e_info->multi_error_valid = 1;elsee_info->multi_error_valid = 0;aer_print_port_info(p_device->port, e_info);if (find_source_device(p_device->port, e_info))aer_process_err_devices(p_device, e_info);}
}

aer_isr_one_error就是处理错误的具体实现了,这里按照AER的不同类型进行错误报告或者恢复处理。

这篇关于【PCIe】AER linux 驱动浅析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/540867

相关文章

在Linux中改变echo输出颜色的实现方法

《在Linux中改变echo输出颜色的实现方法》在Linux系统的命令行环境下,为了使输出信息更加清晰、突出,便于用户快速识别和区分不同类型的信息,常常需要改变echo命令的输出颜色,所以本文给大家介... 目python录在linux中改变echo输出颜色的方法技术背景实现步骤使用ANSI转义码使用tpu

linux hostname设置全过程

《linuxhostname设置全过程》:本文主要介绍linuxhostname设置全过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录查询hostname设置步骤其它相关点hostid/etc/hostsEDChina编程A工具license破解注意事项总结以RHE

Linux中压缩、网络传输与系统监控工具的使用完整指南

《Linux中压缩、网络传输与系统监控工具的使用完整指南》在Linux系统管理中,压缩与传输工具是数据备份和远程协作的桥梁,而系统监控工具则是保障服务器稳定运行的眼睛,下面小编就来和大家详细介绍一下它... 目录引言一、压缩与解压:数据存储与传输的优化核心1. zip/unzip:通用压缩格式的便捷操作2.

Linux中SSH服务配置的全面指南

《Linux中SSH服务配置的全面指南》作为网络安全工程师,SSH(SecureShell)服务的安全配置是我们日常工作中不可忽视的重要环节,本文将从基础配置到高级安全加固,全面解析SSH服务的各项参... 目录概述基础配置详解端口与监听设置主机密钥配置认证机制强化禁用密码认证禁止root直接登录实现双因素

在Linux终端中统计非二进制文件行数的实现方法

《在Linux终端中统计非二进制文件行数的实现方法》在Linux系统中,有时需要统计非二进制文件(如CSV、TXT文件)的行数,而不希望手动打开文件进行查看,例如,在处理大型日志文件、数据文件时,了解... 目录在linux终端中统计非二进制文件的行数技术背景实现步骤1. 使用wc命令2. 使用grep命令

Linux如何快速检查服务器的硬件配置和性能指标

《Linux如何快速检查服务器的硬件配置和性能指标》在运维和开发工作中,我们经常需要快速检查Linux服务器的硬件配置和性能指标,本文将以CentOS为例,介绍如何通过命令行快速获取这些关键信息,... 目录引言一、查询CPU核心数编程(几C?)1. 使用 nproc(最简单)2. 使用 lscpu(详细信

linux重启命令有哪些? 7个实用的Linux系统重启命令汇总

《linux重启命令有哪些?7个实用的Linux系统重启命令汇总》Linux系统提供了多种重启命令,常用的包括shutdown-r、reboot、init6等,不同命令适用于不同场景,本文将详细... 在管理和维护 linux 服务器时,完成系统更新、故障排查或日常维护后,重启系统往往是必不可少的步骤。本文

浅析如何保证MySQL与Redis数据一致性

《浅析如何保证MySQL与Redis数据一致性》在互联网应用中,MySQL作为持久化存储引擎,Redis作为高性能缓存层,两者的组合能有效提升系统性能,下面我们来看看如何保证两者的数据一致性吧... 目录一、数据不一致性的根源1.1 典型不一致场景1.2 关键矛盾点二、一致性保障策略2.1 基础策略:更新数

基于Linux的ffmpeg python的关键帧抽取

《基于Linux的ffmpegpython的关键帧抽取》本文主要介绍了基于Linux的ffmpegpython的关键帧抽取,实现以按帧或时间间隔抽取关键帧,文中通过示例代码介绍的非常详细,对大家的学... 目录1.FFmpeg的环境配置1) 创建一个虚拟环境envjavascript2) ffmpeg-py

Linux脚本(shell)的使用方式

《Linux脚本(shell)的使用方式》:本文主要介绍Linux脚本(shell)的使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录概述语法详解数学运算表达式Shell变量变量分类环境变量Shell内部变量自定义变量:定义、赋值自定义变量:引用、修改、删