bpf对内核的观测

2023-10-20 18:53
文章标签 观测 内核 bpf

本文主要是介绍bpf对内核的观测,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

目录

  • 1 bpftrace常用命令
    • 1.1 列出bpftrace 相关命令的list
    • 1. 2bpftrace -e 是执行
    • 1.3 查看参数 -lv
  • 2 bpftrace 可以用到的变量
  • 3 高级
    • 3.1 内置函数
    • 3.2 文件系统
    • 3.3 内核内存 栈
    • 3.4 Malloc 调用 统计
    • 3.5 系统调用 brk 的 统计
    • 3.6 脚本调用
  • 4 应用
  • 5 怎么串联起来呢

bpftrace 总的来说是对线上项目的系统调用的函数的观测,因为这时已经不能往函数里面加log了。
相关的开源项目 https://github.com/iovisor/bpftrace

1 bpftrace常用命令

1.1 列出bpftrace 相关命令的list

bpftrace -l

$ sudo bpftrace -l | grep accept
tracepoint:syscalls:sys_enter_accept4
tracepoint:syscalls:sys_exit_accept4
tracepoint:syscalls:sys_enter_accept
tracepoint:syscalls:sys_exit_accept
kprobe:bpf_lsm_socket_accept
kprobe:vfs_dentry_acceptable
kprobe:find_acceptable_alias
kprobe:security_socket_accept
kprobe:selinux_socket_accept
kprobe:apparmor_socket_accept

1. 2bpftrace -e 是执行

使用命令

# bpftrace -e 'BEGIN { printf("hello n"); }'
# bpftrace -e 'tracepoint:syscalls:sys_enter_accept { printf("accept\n"); }'
# bpftrace -e 'tracepoint:syscalls:sys_enter_accept4 { printf("accept4\n"); }'
# bpftrace -e 'tracepoint:syscalls:sys_enter_connect { printf("connect\n"); }'
# bpftrace -e 'tracepoint:syscalls:sys_enter_read { printf("read\n"); }'
# bpftrace -e 'tracepoint:syscalls:sys_enter_write { printf("write\n"); }'
# bpftrace -e 'tracepoint:syscalls:sys_enter_close { printf("close\n"); }'

1.3 查看参数 -lv

$ sudo bpftrace -lv 'tracepoint:syscalls:sys_enter_write'
tracepoint:syscalls:sys_enter_writeint __syscall_nr;unsigned int fd;const char * buf;size_t count;

bpftrace语法结构
bpftrace的语法结构是参考awk的。
probes /filter/ { action }
probes :事件,tracepoint, kprobe, kretprobe, uprobe。两个特殊事件 BEGIN/END,用于脚本开始和结束处执行
filter :过滤条件,事件触发时,判断条件,例如:/pid == 3245/,表示pid为3245的进程执行。
action :具体执行的操作,例如:{ printf(“close\n”);} 打印close

在这里插入图片描述
想到的应用,如上图中,kprobe的时候记录一下时间t1,kretprobe记录一下时间t2,t2-t1就是这个内核函数调用的时间

2 bpftrace 可以用到的变量

内置变量
bpftrace脚本常用变量如下:
uid:用户id。
tid:线程id
pid:进程id。
cpu:cpu id。
cgroup:cgroup id.
probe:当前的trace点。
comm:进程名字。
nsecs:纳秒级别的时间戳。
kstack:内核栈描述
curtask:当前进程的task_struct地址。
args:获取该kprobe或者tracepoint的参数列表
arg0:获取该kprobe的第一个变量,tracepoint不可用
arg1:获取该kprobe的第二个变量,tracepoint不可用
arg2:获取该kprobe的第三个变量,tracepoint不可用
retval: kretprobe中获取函数返回值
args->ret: kretprobe中获取函数返回值
自定义变量
以’ ′ 标志起来定义与引用变量,例如: '标志起来定义与引用变量,例如: 标志起来定义与引用变量,例如:idx = 0;

3 高级

进一步,还有 “自定义变量”,”map变量“,“内置函数”, “文件系统”, “磁盘”, “进程”。

3.1 内置函数

(可以查一下,bpftrace的内置函数有哪些)
应用举例:(具体的路径加程序名:函数名
#bpftrace -e ‘tracepoint:syscalls:sys_enter_accept4
{ printf(“accept 4 %ld n”, pid); }’

3.2 文件系统

统计调用read 的次数,
#bpftrace e 't:syscalls:sys_enter_read {@[probe]=count();

3.3 内核内存 栈

#bpf trace e 't:kmem:kmem_cache_alloc { @bytes[kstack] =
sum(args -->bytes_alloc);

分析内核实时函数栈, 统计ip_output 调用栈:
#bpftrace -e ‘kprobe:ip_output { @[kstack()] = count(); } interval:s:10 { exit(); }’
#bpftrace -e ‘kprobe:ip_output { @[kstack(3)] = count(); }’

3.4 Malloc 调用 统计

#bpftrace e 'u:/lib/x86_64 linux gnu/libc.so.6:malloc
{@[ustack, comm] = sum(arg0);

3.5 系统调用 brk 的 统计

#统计
统计进程进程发生发生缺页缺页中断中断
#bpftrace bpftrace --e ‘t:exceptions:page_fault_user { @[ustack, comm] e ‘t:exceptions:page_fault_user { @[ustack, comm] = count(); }’= count(); }’

3.6 脚本调用

比如侦测系统调用 accept,查IP,端口…
inet_csk_accept 这个函数是通过 bpftrace -l grep相关的accept函数,然后结合内核源码找到的
$ sudo bpftrace -l | grep inet_csk_accept
kprobe:inet_csk_accept

eg1 : 新建一个accept.bt的文件,内容如下:(这里需要查阅一下bpftrace的语法,与应用举例了)

#include <net/sock.h>BEGIN
{printf("%8s %6s %15s", "TIME", "PID", "COMM");printf("%20s %6s %20s %6s\n", "RADDR", "RPORT", "LADDR", "LPORT");	
}kretprobe:inet_csk_accept
{$sk = (struct sock*)retval;  // retval是inet_csk_accept的返回值$raddr = ntop($sk->__sk_common.skc_daddr);  // ntop 是将32位的值转换IP地址加port模式,类似 地址转换函数inet_ntoa、inet_ntop、inet_pton、inet_addr  // ntop([int af, ]int|char[4|16] addr)              Convert IP address data to text$laddr = ntop($sk->__sk_common.skc_rcv_saddr);time("%H:%M:%S");printf("%6d %15s", pid, comm);printf("%20s, %20s\n", $raddr, $laddr);}

执行#bpftrace accept.bt
在这里插入图片描述
参考:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

eg2: accept4.bt 里面探测write方法,可以打印出buf,可以包括很多信息,比如用户名,密码,因此这些信息要用密文,至少不那么容易破解。

tracepoint:syscalls:sys_enter_accept4 
{ printf("accept4 %s\n", comm);
}tracepoint:syscalls:sys_enter_accept
{ printf("accept %s\n", comm);
}tracepoint:syscalls:sys_enter_connect 
{ printf(" connect \n");
}tracepoint:syscalls:sys_enter_read
/ comm == "nginx"/
{printf(" read  %s, %d\n", comm, pid);
}tracepoint:syscalls:sys_enter_write
/ comm == "git" || comm == "git-remote-http"/
{printf(" write  %s, %d, buf: %s\n", comm, pid, str(args->buf));
}

执行 #bpftrace accept4.bt

4 应用

类似 tcpdump -i eth0

5 怎么串联起来呢

就是要对内核比较熟悉,对文件操作(vfs…),网络操作熟悉,然后灵活运用。
eg3 : vfs的例子

#include <linux/fs.h>
#include <linux/path.h>
#include <linux/dcache.h>kprobe:vfs_open 
/ comm == "cat"/ 
{ printf("vfs_open: %s, name: %s\n", comm, str(((struct path*)arg0)->dentry->d_name.name)); 
}kprobe:vfs_write
/ comm == "cat"/
{$file = str(((struct file*)arg0)->f_path.dentry->d_name.name);printf("vfs_write: %s, count: %d, buf:%s\n", $file, arg2, str(arg1));
}

可以用cat命令去测试,cat一个文件可以触发vfs_open。参考
在这里插入图片描述

这篇关于bpf对内核的观测的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/249083

相关文章

Linux内核之内核裁剪详解

《Linux内核之内核裁剪详解》Linux内核裁剪是通过移除不必要的功能和模块,调整配置参数来优化内核,以满足特定需求,裁剪的方法包括使用配置选项、模块化设计和优化配置参数,图形裁剪工具如makeme... 目录简介一、 裁剪的原因二、裁剪的方法三、图形裁剪工具四、操作说明五、make menuconfig

如何安装HWE内核? Ubuntu安装hwe内核解决硬件太新的问题

《如何安装HWE内核?Ubuntu安装hwe内核解决硬件太新的问题》今天的主角就是hwe内核(hardwareenablementkernel),一般安装的Ubuntu都是初始内核,不能很好地支... 对于追求系统稳定性,又想充分利用最新硬件特性的 Ubuntu 用户来说,HWEXBQgUbdlna(Har

内核启动时减少log的方式

内核引导选项 内核引导选项大体上可以分为两类:一类与设备无关、另一类与设备有关。与设备有关的引导选项多如牛毛,需要你自己阅读内核中的相应驱动程序源码以获取其能够接受的引导选项。比如,如果你想知道可以向 AHA1542 SCSI 驱动程序传递哪些引导选项,那么就查看 drivers/scsi/aha1542.c 文件,一般在前面 100 行注释里就可以找到所接受的引导选项说明。大多数选项是通过"_

笔记整理—内核!启动!—kernel部分(2)从汇编阶段到start_kernel

kernel起始与ENTRY(stext),和uboot一样,都是从汇编阶段开始的,因为对于kernel而言,还没进行栈的维护,所以无法使用c语言。_HEAD定义了后面代码属于段名为.head .text的段。         内核起始部分代码被解压代码调用,前面关于uboot的文章中有提到过(eg:zImage)。uboot启动是无条件的,只要代码的位置对,上电就工作,kern

图解可观测Metrics, tracing, and logging

最近在看Gophercon大会PPT的时候无意中看到了关于Metrics,Tracing和Logging相关的一篇文章,凑巧这些我基本都接触过,也是去年后半年到现在一直在做和研究的东西。从去年的关于Metrics的goappmonitor,到今年在排查问题时脑洞的基于log全链路(Tracing)追踪系统的设计,正好是对这三个话题的实践。这不禁让我对它们的关系进行思考:Metrics和Loggi

Ubuntu22.04回退系统内核

文章目录 起因回退操作卸载内核禁止内核升级 起因 最近因为系统内核自动升级,导致显卡驱动检测不到,炼丹环境被破坏。无奈只能重装驱动,于是跟着手册操作发现驱动要求的是内核版本是5.15.0-25-generic,而我通过uname -r发现这时候的内核版本是6.8.0-40-generic,看来只能回退了。 我搜索了网上很多的文章,没有一篇文章能够完全解决这个问题,所以在我多次尝

跟我一起玩《linux内核设计的艺术》第1章(四)——from setup.s to head.s,这回一定让main滚出来!(已解封)

看到书上1.3的大标题,以为马上就要见着main了,其实啊,还早着呢,光看setup.s和head.s的代码量就知道,跟bootsect.s没有可比性,真多……这确实需要包括我在内的大家多一些耐心,相信见着main后,大家的信心和干劲会上一个台阶,加油! 既然上篇已经玩转gdb,接下来的讲解肯定是边调试边分析书上的内容,纯理论讲解其实我并不在行。 setup.s: 目标:争取把setup.

编译linux内核出现 arm-eabi-gcc: error: : No such file or directory

external/e2fsprogs/lib/ext2fs/tdb.c:673:29: warning: comparison between : In function 'max2165_set_params': -。。。。。。。。。。。。。。。。。。 。。。。。。。。。。。。。 。。。。。。。。 host asm: libdvm <= dalvik/vm/mterp/out/Inte

linux 内核提权总结(demo+exp分析) -- 任意读写(四)

hijack_modprobe_path篇 本文转自网络文章,内容均为非盈利,版权归原作者所有。 转载此文章仅为个人收藏,分享知识,如有侵权,马上删除。 原文作者:jmpcall 专栏地址:https://zhuanlan.kanxue.com/user-815036.htm     原理同hijack_prctl, 当用户执行错误格式的elf文件时内核调用call_usermod