【工作笔记】syslog,kern.log大量写入invalid cookie错误信息问题

本文主要是介绍【工作笔记】syslog,kern.log大量写入invalid cookie错误信息问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

任务描述

错误出现出现过四五次,应该是诊断单元tf卡读写出问题导致下面这条告警一直高频写入到/var/log/下的syslog、kern.log、messages中

Nov 23 06:25:12 embest kernel: omap_hsmmc 48060000.mmc: [omap_hsmmc_pre_dma_transfer] invalid cookie: data->host_cookie 1 host->next_data.cookie -2107299097

等系统分区写满后WebServer(一个node.js实现的可视化系统)会卡死(也可能tf出错时就已经卡死,但是WebServer中日志中没报任何异常),只能删掉日志重启诊断单元(一个硬件设备,arm64,ubuntu系统)才能恢复,尝试重新该问题,重现不了就想办法识别该问题发生就重启诊断单元

前期思考

思路1

我在网上翻到一个有点类似的问题讨论,不确定是什么问题,有可能是板子的事,不过楼主建议“如果内核关闭SMP,或是uboot启动的时候nosmp 参数禁用SMP就不会出现该问题”https://bbs.21ic.com/icview-903274-1-1.html
在这里插入图片描述

所以最开始的解决方法是日志中出现这个错误就直接停止MotorServer然后重启诊断单元吧,把重启的记录也写到MotorServer.log中。

因此我完成了一个shell脚本,代码如下。

#!/bin/bash
_var=""
_var1=""
_var2=""# 判断日志文件是否存在
if [ -f /var/log/syslog ] ;then_var=`grep -w 'invalid cookie' /var/log/syslog`;
fi
if [ -f /var/log/kern.log ] ;then_var1=`grep -w 'invalid cookie' /var/log/kern.log`;
fi
if [ -f /var/log/messages ];then_var2=`grep -w 'invalid cookie' /var/log/messages`;
fi# 判断日志文件是否有'invalid cookie'相关的错误
if [[ "$_var" || "$_var1"|| "$_var2" ]];
thenecho `date +"%Y-%m-%d %H:%M:%S  MotorServer will restart because /var/log/ exist error of invalid cookie"` >> /media/eMMC-Flasher/motor/log/MotorServer.logsupervisorctl restart MotorServerecho "exist"sudo reboot
fi

我的打算是脚本执行就写到系统的定时任务,每隔12小时定时执行一次,检查/var/log下的syslog,kern.log,messages是否有invalid cookie这种错误信息,有就记录到moter-server.log,重启motor-server和诊断单元。但是并不可行,因为出现这个错误之后会不断写入,很快就满了,不能用定时任务,应该看一下syslog和kern.log有没有回调钩子

思路2

因此我也找到一个可以监听到文件事件的回调钩子函数及其相关介绍,相关参考链接如下:https://blog.csdn.net/sesiria/article/details/119721118
https://www.cnblogs.com/PikapBai/p/14480881.html

不过这个是针对所有的文件的,用这种也可行,不过效率可能没有专门针对syslog的高,但我觉得syslog、kern.log应该会提供专门的接口。

我也专门寻找了一些博客文章,发现系统日志syslog也是有提供linux内核接口,syslog.h,但是只有写入日志的接口,并没有监听写入事件的,具体了解syslog.h可以参考下面这些文章
https://blog.csdn.net/zhizhengguan/article/details/111597389
https://blog.csdn.net/u012247418/article/details/83684052
https://blog.csdn.net/qq_23274715/article/details/106138885

思路3

过滤日志,可以用syslog filter来监测是否有日志文件中的cookie invalid,从而可以过滤掉这一类的日志,从而可以防止系统日志被大量写入,磁盘空间占满。

利用rsyslog进行系统日志过滤的相关文章参考如下:
https://blog.csdn.net/FaceThePast/article/details/114483026
https://blog.csdn.net/Jailman/article/details/115956157
查看rsyslog版本:https://blog.csdn.net/jeonkc/article/details/79986634

解决方案敲定

  • 初步想法:如果要根据写入syslog的内容进行判断,对诊断单元重启,目前我能想到的就是用inotify监听syslog的写入事件,然后再c++调用tail命令获取日志最新写入的前50条数据,对里面的内容进行判断是否存在“invalid cookie”错误,决定要不要重启诊断单元
  • 深入思考,假如日志写入增长快,日志内容多,获取前k条的想法并不好,一来有可能出现错过漏掉的情况;就算不会出现错过漏掉的情况,假如日志内容大,写入缓存,然后利用字符串对比较,这样的效率也不好;三,syslog作为系统日志,写入会相对记录的信息相对多,同时“invalid cookie”这样的错误信息是偶发事件,并不容易复现,这样子程序则会长时间去进行无用的判断,浪费系统资源。
  • 优化后最终决策:syslog filter过滤出cookie invalid再触发inotify,只要触发了就重启,不用传递日志内容。设置rsyslog规则,把包含cookie invalid的日志信息写入一个A文件,inotify就监听A文件,A文件有写入事件了就重启。
    这样子做,一来是保留了错误日志信息,也方便监听,而且inotify的c++程序可以挂在后台supervisor进程,同时偶发事件不占用程序一直判断。

实现过程

配置rsyslog过滤包含“invalid error”的日志

(1)这一步我们的想法是写过滤规则,将包含指定内容的日志信息写入自定义的文件。在根据https://blog.csdn.net/FaceThePast/article/details/114483026 博客里面的方式设置rsylog.conf,但是发现并不生效。
(2)后面查了其他博客,例如https://blog.csdn.net/Jailman/article/details/115956157。发现不同版本的rsyslog服务是的配置文件有一些不同,可以用下面命令去查看版本

 rsyslogd -ver

在这里插入图片描述
图片上面看是V8的,格式差不多是下面这样,但是下面这个的意思是,日志内容与keyword相等的就停止写入,并且修改了内容后要重启reyslog

在这里插入图片描述

这不符合我们的要求,那我们参考v7的,写成这样,意思是将包含invalid cookie内容的日志写入/var/log/invalid_cookie_error.log文件中

syslog.conf
:rawmsg, contains, "invalid cookie" /var/log/invalid_cookie_error.log

然后将写好的过滤规则文件syslog.conf放到/etc/rsyslog.d/目录下,因为规则文件存放的路径是/etc/rsyslog.conf里面原来配置好的

在这里插入图片描述

最后重启服务

service rsyslog restart

还要看看服务有没有正常运行,有没有错误信息

service rsyslog status

在这里插入图片描述

invotify监听指定文件是否被写入

这里附上invotify监听的c++代码

#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <unistd.h>
#include <errno.h>
#include <sys/inotify.h>
#include <sys/reboot.h>
#include <iostream>
#include <sys/time.h>
using namespace std;
#define EVENT_NUM  12
void GetTime(string& strtime)
{time_t tt = time(NULL);//这句返回的只是一个时间cuotm* t = localtime(&tt);char buffer[50];snprintf(buffer, sizeof(buffer), "%04d-%02d-%02d %02d:%02d:%02d", t->tm_year + 1900, t->tm_mon + 1, t->tm_mday, t->tm_hour, t->tm_min, t->tm_sec);strtime.append(buffer);
}string GetTime()
{string strtime;GetTime(strtime);return strtime;
}
const char *event_str[EVENT_NUM] =
{"IN_ACCESS","IN_MODIFY","IN_ATTRIB","IN_CLOSE_WRITE","IN_CLOSE_NOWRITE","IN_OPEN","IN_MOVED_FROM","IN_MOVED_TO","IN_CREATE","IN_DELETE","IN_DELETE_SELF","IN_MOVE_SELF"
};int inotifyTask(char *argv[]) 
{cout<<GetTime().c_str()<<":inotify event start....."<<endl;int fd = -1;fd = inotify_init();int wd1 = -1;struct inotify_event *event;int length;int nread;char buf[BUFSIZ];int i = 0;buf[sizeof(buf) - 1] = 0;wd1 = inotify_add_watch(fd, argv[1], IN_ALL_EVENTS);if(wd1 < 0){fprintf(stderr, "%s:inotify_add_watch %s failed\n", GetTime().c_str(),argv[1]);printf("%s:Error no.%d: %s\n", GetTime().c_str(),errno, strerror(errno));}length = read(fd, buf, sizeof(buf) - 1);nread = 0;// inotify 事件发生时while(length > 0){printf("\n");event = (struct inotify_event *)&buf[nread];// 遍历所有事件for(i = 0; i< EVENT_NUM; i++){			// 判断事件是否发生if( (event->mask >> i) & 1 ){	// 该监控项为目录或目录下的文件时if(event->len > 0){fprintf(stdout, "%s:%s --- %s\n",GetTime().c_str(), event->name, event_str[i]);}// 该监控项为文件时else if(event->len == 0){if(event->wd == wd1){if(strcmp(event_str[i],"IN_MODIFY")==0){fprintf(stdout, "%s:%s --- %s\n",GetTime().c_str(), argv[1], event_str[i]);system("echo `date +\"%Y-%m-%d %H:%M:%S  MotorServer will restart because /var/log/ exist error of invalid cookie\"` >> /media/eMMC-Flasher/motor/log/MotorServer.log");system("nice -n 19 supervisorctl stop MotorServer");system("nice -n 19 supervisorctl stop WebServer");sync(); //  同步磁盘数据,将缓存数据回写到硬盘,以防数据丢失[luther.gliethttp]printf("%s:system will reboot\n",GetTime().c_str());return system("sudo reboot");// return reboot(RB_AUTOBOOT);}}}}}nread = nread + sizeof(struct inotify_event) + event->len;length = length - sizeof(struct inotify_event) - event->len;}close(fd);return 0;
}int main(int argc, char *argv[])
{	if(argc < 2){fprintf(stderr, "Usage: %s path\n", argv[0]);return -1;}if(inotifyTask(argv) == -1){return -1;}return 0;
}
  • 在linux中可以用logger "xxx"模拟将日志信息写入syslog
logger "embest kernel: omap_hsmmc 48060000.mmc: [omap_hsmmc_pre_dma_transfer] invalid cookie: data->host_cookie 1 host->next_data.cookie -2107299097"

这篇关于【工作笔记】syslog,kern.log大量写入invalid cookie错误信息问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/243319

相关文章

好题——hdu2522(小数问题:求1/n的第一个循环节)

好喜欢这题,第一次做小数问题,一开始真心没思路,然后参考了网上的一些资料。 知识点***********************************无限不循环小数即无理数,不能写作两整数之比*****************************(一开始没想到,小学没学好) 此题1/n肯定是一个有限循环小数,了解这些后就能做此题了。 按照除法的机制,用一个函数表示出来就可以了,代码如下

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

内核启动时减少log的方式

内核引导选项 内核引导选项大体上可以分为两类:一类与设备无关、另一类与设备有关。与设备有关的引导选项多如牛毛,需要你自己阅读内核中的相应驱动程序源码以获取其能够接受的引导选项。比如,如果你想知道可以向 AHA1542 SCSI 驱动程序传递哪些引导选项,那么就查看 drivers/scsi/aha1542.c 文件,一般在前面 100 行注释里就可以找到所接受的引导选项说明。大多数选项是通过"_

购买磨轮平衡机时应该注意什么问题和技巧

在购买磨轮平衡机时,您应该注意以下几个关键点: 平衡精度 平衡精度是衡量平衡机性能的核心指标,直接影响到不平衡量的检测与校准的准确性,从而决定磨轮的振动和噪声水平。高精度的平衡机能显著减少振动和噪声,提高磨削加工的精度。 转速范围 宽广的转速范围意味着平衡机能够处理更多种类的磨轮,适应不同的工作条件和规格要求。 振动监测能力 振动监测能力是评估平衡机性能的重要因素。通过传感器实时监

缓存雪崩问题

缓存雪崩是缓存中大量key失效后当高并发到来时导致大量请求到数据库,瞬间耗尽数据库资源,导致数据库无法使用。 解决方案: 1、使用锁进行控制 2、对同一类型信息的key设置不同的过期时间 3、缓存预热 1. 什么是缓存雪崩 缓存雪崩是指在短时间内,大量缓存数据同时失效,导致所有请求直接涌向数据库,瞬间增加数据库的负载压力,可能导致数据库性能下降甚至崩溃。这种情况往往发生在缓存中大量 k

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

6.1.数据结构-c/c++堆详解下篇(堆排序,TopK问题)

上篇:6.1.数据结构-c/c++模拟实现堆上篇(向下,上调整算法,建堆,增删数据)-CSDN博客 本章重点 1.使用堆来完成堆排序 2.使用堆解决TopK问题 目录 一.堆排序 1.1 思路 1.2 代码 1.3 简单测试 二.TopK问题 2.1 思路(求最小): 2.2 C语言代码(手写堆) 2.3 C++代码(使用优先级队列 priority_queue)

系统架构师考试学习笔记第三篇——架构设计高级知识(20)通信系统架构设计理论与实践

本章知识考点:         第20课时主要学习通信系统架构设计的理论和工作中的实践。根据新版考试大纲,本课时知识点会涉及案例分析题(25分),而在历年考试中,案例题对该部分内容的考查并不多,虽在综合知识选择题目中经常考查,但分值也不高。本课时内容侧重于对知识点的记忆和理解,按照以往的出题规律,通信系统架构设计基础知识点多来源于教材内的基础网络设备、网络架构和教材外最新时事热点技术。本课时知识

【VUE】跨域问题的概念,以及解决方法。

目录 1.跨域概念 2.解决方法 2.1 配置网络请求代理 2.2 使用@CrossOrigin 注解 2.3 通过配置文件实现跨域 2.4 添加 CorsWebFilter 来解决跨域问题 1.跨域概念 跨域问题是由于浏览器实施了同源策略,该策略要求请求的域名、协议和端口必须与提供资源的服务相同。如果不相同,则需要服务器显式地允许这种跨域请求。一般在springbo

题目1254:N皇后问题

题目1254:N皇后问题 时间限制:1 秒 内存限制:128 兆 特殊判题:否 题目描述: N皇后问题,即在N*N的方格棋盘内放置了N个皇后,使得它们不相互攻击(即任意2个皇后不允许处在同一排,同一列,也不允许处在同一斜线上。因为皇后可以直走,横走和斜走如下图)。 你的任务是,对于给定的N,求出有多少种合法的放置方法。输出N皇后问题所有不同的摆放情况个数。 输入