android sw watchdog and How to Debug

2024-04-12 16:08
文章标签 debug android watchdog sw

本文主要是介绍android sw watchdog and How to Debug,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Android 平台实现了一个软件的WatchDog来监护SystemServer。SystemServer无疑是Android平台中最重要的进程了,里面运行了整个平台中绝大多数的服务。
在这个进程中运行着近50个线程,任何一个线程死掉都可能导致整个系统死掉。SystemServer退出反而问题不大,因为 init进程会重新启动它,但是它死锁就麻烦了,因为整个系统就没法动了。
在 SystemServer里运行的服务中有很多的服务,具体可以在
framework/base/services/java/com/android/SystemServer中找到
最重要的几个服务应该数ActivityManager、WindowManager和 PowerManager。

软件的WatchDog主要就是确保这几个服务发生死锁之后,退出SystemServer进程,让init进程重启它,让系统回到可用状态。


如何在service中添加watchDog?


以WindowManagerServeice为例, 


首先在构造函数中把自身加入到watchdog monitor服务中:


private WindowManagerService(Context context, PowerManagerService pm,
            boolean haveInputMethods) {
.............
 // Add ourself to the Watchdog monitors.
  Watchdog.getInstance().addMonitor(this);


}


然后每个被监护的Service必须实现Watchdog.Monitor接口,这个接口只要实现一个函数monitor,这个函数实现非常简单:


// Called by the heartbeat to ensure locks are not held indefnitely (for deadlock detection).
    public void monitor() {
        synchronized (mWindowMap) { }
        synchronized (mKeyguardTokenWatcher) { }
    }
 它去锁一下对象,什么也不做,然后就返回。如果对象没有死锁,这个过程就会很顺利。如果对象死锁了,这个函数就会挂在这里。


WatchDog如何工作?



在WatchDog启动之后,开始跑run函数。该函数内部为一个无限循环。
public void run() {
        boolean waitedHalf = false;
        while (true) {
            mCompleted = false;
            mHandler.sendEmptyMessage(MONITOR);------发送MESSAGE由HeartbeatHandler处理监控的各个对象的状态
            ...
            while (timeout > 0 && !mForceKillSystem) {
                    try {
                        wait(timeout); ----等待HeartbeatHandler处理结果
                        } catch (InterruptedException e) {
                    }
                    timeout = TIME_TO_WAIT - (SystemClock.uptimeMillis() - start);
                    //TIME_TO_WAIT的默认时间为30s。此为第一次等待时间,WatchDog判断对象是否死锁的最长处理时间为1Min。
                }
            
                
        }
}
一开始就会发送一个MONITOR的Message,由HeartbeatHandler负责接收并处理。同时会等待30秒,等待HeartbeatHandler的处理结果。然后才会进行下一步动作。
在HeartbeatHandler中将会作如下处理:
public void handleMessage(Message msg) {
            switch (msg.what) {
                case MONITOR: {
                ...
                final int size = mMonitors.size();
                    for (int i = 0 ; i < size ; i++) {
                        mCurrentMonitor = mMonitors.get(i);
                        mCurrentMonitor.monitor();
                    }//依次去调用监护对象的monitor接口,实现对其的监护。
                 synchronized (Watchdog.this) {
                        mCompleted = true;
                        mCurrentMonitor = null;
                    }//如果监护的对象都正常,则会很快运行到这里,并对mCompleted赋值为true,表示对象正常返回。mCompleted值初始为false。
    ...}
  }
}




同时在run函数中:if (mCompleted && !mForceKillSystem) {
                    // The monitors have returned.
                    waitedHalf = false;
                    continue;
                   }//如果所有对象在30s内能够返回,则会得到mCompleted = true;则本次监护就结束,返回继续下一轮监护。



如果在30s内,monitor对象未能返回,mCompleted 值即为false,则会运行到run方法中该语句:


if (!waitedHalf) {
                    // We've waited half the deadlock-detection interval.  Pull a stack
                    // trace and wait another half.
                    ArrayList<Integer> pids = new ArrayList<Integer>();
                    pids.add(Process.myPid());
                    ActivityManagerService.dumpStackTraces(true, pids, null, null);.....dump出trace文件,将有助于我们对watchdog问题的解决
                    waitedHalf = true;
                    continue;
                }


然后跳出该循环,继续一轮循环就将会走到run方法如下语句,非死锁是不会走到的:


// If we got here, that means that the system is most likely hung.


            final String name = (mCurrentMonitor != null) ?
                    mCurrentMonitor.getClass().getName() : "null";
if (!Debug.isDebuggerConnected()) {
                if (Build.TYPE.equals("eng") || Build.TYPE.equals("userdebug")) {
                    Slog.w(TAG, "*** WATCHDOG KILLING THE SYSTEM: " + name);...............发生watchdog的重要LOG


                    // Give some extra time to make sure CrashMonitorService reacts to
                    // the dropbox entry before the crash
                    SystemClock.sleep(2000);


                    forceCrashDump();
                } else {
                    Slog.w(TAG, "*** WATCHDOG KILLING SYSTEM PROCESS: " + name);
                    Process.killProcess(Process.myPid());
                    System.exit(10);
                }



watchdog 的类型:



1:android.server.ServerThread被block,LOG如下:  

02:06:22.571 W/Watchdog( 307): *** WATCHDOG KILLING THE SYSTEM: null


2:诸如windowManagerService ,activityManagerService等死锁,LOG如下:
02:06:22.571 W/Watchdog( 307): *** WATCHDOG KILLING THE SYSTEM: activityManagerService


如何DEBUG watchdog?


第一种类型的watchdog,我们要首先看trace.txt中serverThread的调用栈. 为什么呢?
因为system server启动服务 要分两个过程, 一个是init1()和 init2(),
前者是启动native service, 比如:surfaceFlinger, AudioFlinger...
后者就是启动android services, 比如: activityManager, WindowManager...
而启动android services是在serverThread中进行,代码如下:


public static final void init2() {
        Slog.i(TAG, "Entered the Android system server!");
        Thread thr = new ServerThread();
        thr.setName("android.server.ServerThread");
        thr.start();
    }
其次,如果遇到调用了native的代码,就可以用gdb或者crash继续debug.


第二种类型 看trace.txt中对应死锁进程的调用栈。

这篇关于android sw watchdog and How to Debug的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/897603

相关文章

Android中Dialog的使用详解

《Android中Dialog的使用详解》Dialog(对话框)是Android中常用的UI组件,用于临时显示重要信息或获取用户输入,本文给大家介绍Android中Dialog的使用,感兴趣的朋友一起... 目录android中Dialog的使用详解1. 基本Dialog类型1.1 AlertDialog(

Android Kotlin 高阶函数详解及其在协程中的应用小结

《AndroidKotlin高阶函数详解及其在协程中的应用小结》高阶函数是Kotlin中的一个重要特性,它能够将函数作为一等公民(First-ClassCitizen),使得代码更加简洁、灵活和可... 目录1. 引言2. 什么是高阶函数?3. 高阶函数的基础用法3.1 传递函数作为参数3.2 Lambda

Android自定义Scrollbar的两种实现方式

《Android自定义Scrollbar的两种实现方式》本文介绍两种实现自定义滚动条的方法,分别通过ItemDecoration方案和独立View方案实现滚动条定制化,文章通过代码示例讲解的非常详细,... 目录方案一:ItemDecoration实现(推荐用于RecyclerView)实现原理完整代码实现

Android App安装列表获取方法(实践方案)

《AndroidApp安装列表获取方法(实践方案)》文章介绍了Android11及以上版本获取应用列表的方案调整,包括权限配置、白名单配置和action配置三种方式,并提供了相应的Java和Kotl... 目录前言实现方案         方案概述一、 androidManifest 三种配置方式

Android WebView无法加载H5页面的常见问题和解决方法

《AndroidWebView无法加载H5页面的常见问题和解决方法》AndroidWebView是一种视图组件,使得Android应用能够显示网页内容,它基于Chromium,具备现代浏览器的许多功... 目录1. WebView 简介2. 常见问题3. 网络权限设置4. 启用 JavaScript5. D

Android如何获取当前CPU频率和占用率

《Android如何获取当前CPU频率和占用率》最近在优化App的性能,需要获取当前CPU视频频率和占用率,所以本文小编就来和大家总结一下如何在Android中获取当前CPU频率和占用率吧... 最近在优化 App 的性能,需要获取当前 CPU视频频率和占用率,通过查询资料,大致思路如下:目前没有标准的

Android开发中gradle下载缓慢的问题级解决方法

《Android开发中gradle下载缓慢的问题级解决方法》本文介绍了解决Android开发中Gradle下载缓慢问题的几种方法,本文给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录一、网络环境优化二、Gradle版本与配置优化三、其他优化措施针对android开发中Gradle下载缓慢的问

Android 悬浮窗开发示例((动态权限请求 | 前台服务和通知 | 悬浮窗创建 )

《Android悬浮窗开发示例((动态权限请求|前台服务和通知|悬浮窗创建)》本文介绍了Android悬浮窗的实现效果,包括动态权限请求、前台服务和通知的使用,悬浮窗权限需要动态申请并引导... 目录一、悬浮窗 动态权限请求1、动态请求权限2、悬浮窗权限说明3、检查动态权限4、申请动态权限5、权限设置完毕后

Goland debug失效详细解决步骤(合集)

《Golanddebug失效详细解决步骤(合集)》今天用Goland开发时,打断点,以debug方式运行,发现程序并没有断住,程序跳过了断点,直接运行结束,网上搜寻了大量文章,最后得以解决,特此在这... 目录Bug:Goland debug失效详细解决步骤【合集】情况一:Go或Goland架构不对情况二:

Android里面的Service种类以及启动方式

《Android里面的Service种类以及启动方式》Android中的Service分为前台服务和后台服务,前台服务需要亮身份牌并显示通知,后台服务则有启动方式选择,包括startService和b... 目录一句话总结:一、Service 的两种类型:1. 前台服务(必须亮身份牌)2. 后台服务(偷偷干