05-10 周五 FastBuild 容器启动引起超时问题定位与解决

2024-05-12 02:12

本文主要是介绍05-10 周五 FastBuild 容器启动引起超时问题定位与解决,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

05-10 周五 FastBuild 容器启动超时问题
时间版本修改人描述
2024年5月11日16:45:33V0.1宋全恒新建文档
2024年5月11日22:37:21V1.0宋全恒完成解决方案的撰写,包括问题分析,docker命令

简介

 关于FastBuild的优化,已经撰写了多个博客,具体如下所示:

博客描述
04-22 周日 阿里云-瑶光上部署FastBuild过程(配置TLS、自定义辅助命令)-CSDN博客记录了部署FastBuild的完整过程,基本流程
04-25 周四 FastBuild重构实践-TLS、全局捕获异常、一键配置-CSDN博客记录了第一次优化的过程,完成配置文件移入数据库
05-08 周三 FastBuild FastAPI 引入并发支持和全局捕获异常-CSDN博客记录了并发支持和全局捕获异常。解决拉取和check解耦问题以及超时问题。

问题

问题1 容器启动时/bin/bash不存在

 可以使用

docker run -it --rm [image_name] ls /bin

 这将列出容器中/bin目录下的所有文件,包括bashdash

10.200.88.53/xyy-zhejianglab.com/123:1

image-20240510200146027
root@iZ1pp06qu51oiqqddsrnuvZ:~# docker inspect d94e2b46e87b
[{"Id": "sha256:d94e2b46e87b3df99b8371a632b467fe5cc39dae04f882991af1ed1b8353c336","RepoTags": ["10.200.88.53/xyy-zhejianglab.com/123:1"],"RepoDigests": ["10.200.88.53/xyy-zhejianglab.com/123@sha256:2625be6a2bc2aedfe4d91961b2037e557b0d1739a9c87677c184421c7d215d77"],"Parent": "","Comment": "","Created": "2021-06-08T12:33:13.003229175Z","Container": "3b0058616208c2df9bf5122ca6d3d2c3eef81ab200b17693a2578dbec7db56d3","ContainerConfig": {"Hostname": "3b0058616208","Domainname": "","User": "","AttachStdin": false,"AttachStdout": false,"AttachStderr": false,"Tty": false,"OpenStdin": false,"StdinOnce": false,"Env": ["PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"],"Cmd": ["/bin/sh","-c","#(nop) ","CMD [\"/bin/sh\" \"-c\" \"/bin/cp -rf /jacocoagent.jar /tmp/\"]"],"Image": "sha256:c83155cc95491342b169187489dfe5b9b32157adce169144b51a65f4e9a552bd","Volumes": null,"WorkingDir": "/","Entrypoint": null,"OnBuild": null,"Labels": {}},"DockerVersion": "19.03.1","Author": "cuisj@isyscore.com","Config": {"Hostname": "","Domainname": "","User": "","AttachStdin": false,"AttachStdout": false,"AttachStderr": false,"Tty": false,"OpenStdin": false,"StdinOnce": false,"Env": ["PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"],"Cmd": ["/bin/sh","-c","/bin/cp -rf /jacocoagent.jar /tmp/"],"Image": "sha256:c83155cc95491342b169187489dfe5b9b32157adce169144b51a65f4e9a552bd","Volumes": null,"WorkingDir": "/","Entrypoint": null,"OnBuild": null,"Labels": null},"Architecture": "amd64","Os": "linux","Size": 5866405,"VirtualSize": 5866405,"GraphDriver": {"Data": {"LowerDir": "/var/lib/docker/overlay2/e6ec3bebc8c50e24ef8786628813c76df51885d0009b8ee48cf51f21effbcad1/diff","MergedDir": "/var/lib/docker/overlay2/b4f143ad6a63d5641c51350dc152d27e7831bcff5e127055dfd6a73c63b71d7e/merged","UpperDir": "/var/lib/docker/overlay2/b4f143ad6a63d5641c51350dc152d27e7831bcff5e127055dfd6a73c63b71d7e/diff","WorkDir": "/var/lib/docker/overlay2/b4f143ad6a63d5641c51350dc152d27e7831bcff5e127055dfd6a73c63b71d7e/work"},"Name": "overlay2"},"RootFS": {"Type": "layers","Layers": ["sha256:50644c29ef5a27c9a40c393a73ece2479de78325cae7d762ef3cdc19bf42dd0a","sha256:7aec0e78f86e45c647f9166c795e14a4025e698d082f506fc84027cea786c1f0"]},"Metadata": {"LastTagTime": "0001-01-01T00:00:00Z"}}
]

问题2 Container is not running

image-20240510200515738

思考

/bin/bash不存在

 这个问题是不存在的,因为容器的启动使用了镜像默认的entrypoint和cmd。但是如果代码写死了直接使用/bin/bash来启动容器,则是有问题的,应该先判断/bin/bash的存在。这是问题解决初期的思路。

root@iZ1pp06qu51oiqqddsrnuvZ:~# docker run -it --rm d94e2b46e87b /bin/bash
docker: Error response from daemon: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: exec: "/bin/bash": stat /bin/bash: no such file or directory: unknown.

 可以使用

docker run -it --rm [image_name] ls /bin

 这将列出容器中/bin目录下的所有文件,包括bashdash

10.200.88.53/xyy-zhejianglab.com/123:1

root@iZ1pp06qu51oiqqddsrnuvZ:~# docker run -it d94e2b46e87b ls /bin
arch           echo           kill           netstat        sh
ash            ed             link           nice           sleep
base64         egrep          linux32        pidof          stat
bbconfig       false          linux64        ping           stty
busybox        fatattr        ln             ping6          su
cat            fdflush        login          pipe_progress  sync
chgrp          fgrep          ls             printenv       tar
chmod          fsync          lzop           ps             touch
chown          getopt         makemime       pwd            true
conspy         grep           mkdir          reformime      umount
cp             gunzip         mknod          rev            uname
date           gzip           mktemp         rm             usleep
dd             hostname       more           rmdir          watch
df             ionice         mount          run-parts      zcat
dmesg          iostat         mountpoint     sed
dnsdomainname  ipcalc         mpstat         setpriv
dumpkmap       kbd_mode       mv             setserial

启动方式

注:在容器启动时通过entrypoint和cmd配合,可以探测/bin/bash的存在。下面描述了cmd和entrypoint的作用

cmd和entrypoint作用

  • CMD:设置容器启动后默认执行的命令及其参数。不过,CMD 指定的命令可以通过 docker run 命令行参数来覆盖。它主要用于为容器设定默认启动行为。如果 Dockerfile 中有多个 CMD 指令,只有最后一个生效。

  • ENTRYPOINT:配置容器启动时运行的命令,功能上与 CMD 类似,但有一个关键区别——即使在 docker run 时指定了其他命令,ENTRYPOINT 也不会被忽略,而是会与这些命令结合使用(除非使用 --entrypoint 覆盖)。当容器作为应用程序或服务运行时,推荐使用 ENTRYPOINT,并且最好采用 Exec 格式。


  1. 使用 RUN 命令来安装应用程序和包,并创建新的镜像层。
  2. 如果Docker镜像的目的是运行一个应用程序或服务,例如运行 MySQL,那么应该优先使用 Exec 格式的 ENTRYPOINT 命令。CMD 可以为 ENTRYPOINT 提供额外的默认参数,并且这些默认参数可以被 docker run 命令行替换。
  3. 如果你想为容器设置默认的启动命令,可以使用 CMD 命令。用户可以在 docker run 命令行中覆盖这个默认命令。

docker:RUN CMD ENTRYPOINT区别_docker run entrypoint-CSDN博客 这个文章描述的比较清楚,CMD和EntryPOINT指令

docker中的run/cmd/entrypoint的区别详解_docker_脚本之家 比较清楚的演示了作用

 CMD 可以被覆盖。

 CMD 可以为ENtrypoint 提供参数

注,镜像设置了entrypoint之后,docker run之后的命令相当于提供给entrypoint的参数,这个在docker中的run/cmd/entrypoint的区别详解_docker_脚本之家有清晰的演示。

entrypoint中的参数始终会被使用,而cmd的额外参数可以在容器启动时动态替换掉。

探测/bin/bash存在,启动镜像容器结论

 如果镜像中已经配置了entrypoint,可以通过如下的方式

docker run --entrypoint /bin/ls f45dbefbae90  "/bin"
CMDEntrypoint启动方式
/bin/bash存在,用CMD指定/bin/bash即可
2.使用/bin/sh, 启动
3. 报错
判断存在 用entrypoint指定/bin/ls,cmd指定"/bin"判断bash是否存在。
docker run -it --entrypoint /bin/ls d94e2b46e87b “/bin”
  • CMD 是容器启动时如果没有指定命令时的默认行为,它的灵活性较高,易于被 docker run 后的命令覆盖。
  • ENTRYPOINT 更像是容器的核心功能定义,常用于定义容器的主应用程序,并且能接收 docker run 的参数,这样可以确保容器启动时总是执行预期的程序,并且可以处理任何额外的参数。

总结:

无论什么镜像,我们直接使用entrypoint 和CMD来获取/bin/bash是否存在,如果不存在,要用sh.

 即无论镜像的元数据,即entrypoint和cmd配置与否,我们可以通过指定entrypoint和cmd来按照我们预期的方式来探测镜像中/bin/bash的存在,进而确定启动容器的方式是使用/bin/sh还是/bin/bash

oot@iZ1pp06qu51oiqqddsrnuvZ:~# docker images |  grep f45
10.200.88.53/songquanheng-zhejianglab.com/python                   <none>                                                       6de34f45a879   4 days ago          7.57GB
10.200.88.53/framework/jax                                         0.4.8-python3.8.10-ubuntu18.04-cuda11.7-cudnn8-ssh-jupyter   f45dbefbae90   12 months ago       8.3GB
root@iZ1pp06qu51oiqqddsrnuvZ:~# docker run --entrypoint /bin/ls f45dbefbae90  "/bin"
bash
bunzip2
bzcat
bzcmp
bzdiff
bzegrep
bzexe
zmore
znew

 其实简单一点,如果镜像配置了Entrypoint,则CMD即作为entrypoing的参数,而entrypoint是可执行程序的路径。CMD作为参数,如果没有设置entrypoint,则cmd自身即为可执行的命令,而且在docker run时可以灵活的指定。

注,经过思考,发现问题的关键并不在于这个方向,即启动容器的方式,关键在于镜像之前的配置,导致容器的启动无法长时间运行。

结论

 经过仔细的思考发现,由于FastBuild要判断镜像默认启动中,是否包含了sshd服务和jupyterlab服务,倘若我们通过覆盖entrypoint和cmd的方式,来修改了容器启动的方式,则服务判断是无法进行的。

 根据上面的结论,可以得到如下的结果,即,无法覆盖entrypoint和cmd。

 问题进而转化为,如何解决超时问题,超时问题是因为系统内部启动容器,结果镜像启动容器的命令是类似cp文件的命令,容器执行完了命令,自动停止了,不在处于运行状态,导致系统无法和容器交互获取其中容器的python,pip等环境,因此,是镜像自身的问题,因此,我们可以通过捕获异常的方式来提示用户,该镜像问题。

解决方式

问题代码修改

    def collect_image_info(self, image_name):image_meta = self.get_image_meta(image_name)container = self.get_image_container(image_name)print(f"启动容器, 镜像名称: {image_name}, 容器id: {container.short_id}")extractor = ArtifactExtractor(image_name, container, image_meta)descriptor = extractor.get_image_descriptor()print("镜像类型: " + image_meta["Architecture"])print("镜像大小: " + str(round(float(image_meta["Size"]) / 1000000000, 2)) + "G")return descriptor, image_meta

 代码修改为

    def collect_image_info(self, image_name):try:image_meta = self.get_image_meta(image_name)command, entrypoint = self.get_cmd_entrypoint(image_meta)container = self.get_image_container(image_name)print(f"{image_name}镜像的command:{command}, entrypoint:{entrypoint}")print(f"启动容器, 镜像名称: {image_name}, 容器id: {container.short_id}")extractor = ArtifactExtractor(image_name, container, image_meta)descriptor = extractor.get_image_descriptor()print("镜像类型: " + image_meta["Architecture"])print("镜像大小: " + str(round(float(image_meta["Size"]) / 1000000000, 2)) + "G")return descriptor, image_metaexcept APIError as err:print(f"在镜像环境收集时失败,镜像自有的启动命令command:{command}, entrypoint: {entrypoint}")raise FBException(15005, f"镜像启动命令command:{command}, entrypoint: {entrypoint}需要保证容器在环境探测过程中保持运行状态"f"请检查镜像启动命令是否正确,错误信息:{err}")

 可以看出,主要是将上述问题代码添加try,捕获异常APIError,这样系统出现了这个异常之后,通过捕获重新抛出了FBException,而这被全局捕获异常处理的方式告诉给前端,即解决了超时问题。

解决问题中Config和ContainerConfig

 下述内容记录了通过镜像元数据读取entrypoint和cmd的过程,这样方便在提示中正确的提示用户,是镜像出问题了。顺道解决超时问题

在Docker镜像的元数据中,Config 和 ContainerConfig 表示镜像的配置和容器的配置。它们的区别在于:Config:Config 指的是镜像的配置。这个配置是在构建镜像时定义的,并保存在镜像的元数据中。它包含了构建镜像时使用的各种指令,比如 CMD、ENTRYPOINT、ENV 等。这些配置会影响到使用该镜像创建的所有容器。
ContainerConfig:ContainerConfig 指的是容器的配置。这个配置是在创建容器时指定的,并保存在容器的元数据中。它包含了在创建容器时传递给 Docker 引擎的各种参数,比如 CMD、ENTRYPOINT、ENV 等。与镜像的配置不同,容器的配置可以覆盖镜像的配置,允许用户在创建容器时对容器的行为进行定制。
因此,Config 表示镜像的静态配置,而 ContainerConfig 表示容器的动态配置,可以根据需要在创建容器时进行调整。
image-20240511171735546

docker命令

 下述命令是定位解决两个问题的方式

打印系统中的所有镜像:tag

docker 获取镜像名称和tag

root@iZ1pp06qu51oiqqddsrnuvZ:~# docker images --format "{{.Repository}}:{{.Tag}}" | grep -v none
10.200.88.53/liuyangyang-zhejianglab.com/ui_test_image1715413002:1
10.200.88.53/liuyangyang-zhejianglab.com/ui_test_image1715412764:1
10.200.88.53/liuyangyang-zhejianglab.com/ui_test_image1715411659:1
10.200.88.53/liuyangyang-zhejianglab.com/ui_test_image1715411501:1
10.200.88.53/liuyangyang-zhejianglab.com/ui_test_image1715410460:1
10.200.88.53/liuyangyang-zhejianglab.com/ui_test_image1715409964:1

不能覆盖镜像的启动的信息,因为要根据启动的信息判断服务的存在。

docker run --entrypoint /bin/ls -it  /bin

打印系统所有镜像的entrypoint和cmd

root@iZ1pp06qu51oiqqddsrnuvZ:~# docker images --format "{{.Repository}}:{{.Tag}}" | grep -v none | xargs -I {} docker inspect --format='{{range .Config.Cmd}}{{.}} {{end}}|{{range .Config.Entrypoint}}{{.}} {{end}}' {}
|/bin/bash -c bash start.sh 
bash |/bin/bash -c bash start.sh 
bash |/bin/bash -c bash start.sh 
bash |/bin/bash -c bash start.sh 
bash |/bin/bash -c bash start.sh 
bash |/bin/bash -c bash start.sh 
|/bin/bash -c bash start.sh 
bash |/bin/bash -c bash start.sh 
|/bin/sh -c /usr/bin/supervisord -c /etc/supervisor/supervisord.conf 
bash |/bin/bash -c bash start.sh 
bash |/bin/bash -c bash start.sh 
bash |/bin/bash -c bash start.sh 
bash |/bin/bash -c bash start.sh 
bash |/bin/bash -c bash start.sh 
|/bin/sh -c /workspace/env_entrypoint.sh 
|/bin/sh -c /usr/bin/supervisord -c /etc/supervisor/supervisord.conf 
/bin/bash |
|/bin/bash -c bash run.sh 
|/bin/bash -c bash run.sh 
|/bin/bash -c bash run.sh 
|/bin/bash -c bash run.sh 
bash |
bash |
/bin/bash |
bash |/bin/bash -c bash start.sh 
bash |/bin/bash -c bash start.sh 
/bin/bash |/bin/sh -c /opt/conda/bin/supervisord -c /etc/supervisord.d/supervisord.conf 
/bin/bash |
/bin/bash |
/bin/bash |
/bin/bash |
|/bin/bash -c MASTER_HOST=`cat /etc/volcano/master.host | tr "\n" ","`;
WORKER_HOST=`cat /etc/volcano/worker.host | tr "\n" ","`;
mkdir -p /var/run/sshd; /usr/sbin/sshd;
mkdir -p /etc/mpi/;
cp /etc/volcano/master.host /etc/mpi/hostfile;
echo >> /etc/mpi/hostfile;
cat /etc/volcano/worker.host >> /etc/mpi/hostfile;
echo >> /etc/mpi/hostfile;
echo -e 'jupyter lab --ip=* --port=8888 --no-browser --notebook-dir=/home --allow-root' > /tmp/run.sh;bash /tmp/run.sh|/bin/sh -c /usr/bin/supervisord -c /etc/supervisor/supervisord.conf 
|/bin/bash -c bash start.sh 
|/bin/sh -c /workspace/env_entrypoint.sh 
|/bin/bash -c MASTER_HOST=`cat /etc/volcano/master.host | tr "\n" ","`;
WORKER_HOST=`cat /etc/volcano/worker.host | tr "\n" ","`;
mkdir -p /var/run/sshd; /usr/sbin/sshd;
mkdir -p /etc/mpi/;
cp /etc/volcano/master.host /etc/mpi/hostfile;
echo >> /etc/mpi/hostfile;
cat /etc/volcano/worker.host >> /etc/mpi/hostfile;
echo >> /etc/mpi/hostfile;
echo -e 'jupyter lab --ip=* --port=8888 --no-browser --notebook-dir=/home --allow-root' > /tmp/run.sh;bash /tmp/run.sh/bin/bash |/bin/bash -c /etc/init.d/ssh start && sleep infinity 
|/bin/bash /alphadrug/run.sh 
|/bin/bash /alphadrug/run.sh 
|/bin/bash -c /etc/init.d/ssh start && sleep 365d 
/bin/bash |
/bin/bash |
/bin/bash |
bash |/bin/bash -c bash start.sh 
bash |/bin/bash -c bash start.sh 
|/bin/sh -c /usr/bin/supervisord -c /etc/supervisord.d/supervisord.conf 
|/bin/sh -c /usr/bin/supervisord -c /etc/supervisord.d/supervisord.conf 
|/bin/bash -c /etc/init.d/ssh start && sleep infinity 
/bin/bash |
/bin/bash |/bin/bash -c /usr/local/bin/supervisord -c /etc/supervisord.d/supervisord.conf 
/bin/bash |/bin/bash -c /usr/local/bin/supervisord -c /etc/supervisord.d/supervisord.conf 
/bin/bash |/bin/bash -c /usr/local/bin/supervisord -c /etc/supervisord.d/supervisord.conf 
/bin/bash |/bin/sh -c /opt/conda/bin/supervisord -c /etc/supervisord.d/supervisord.conf 
/bin/bash |
/bin/sh -c /bin/cp -rf /jacocoagent.jar /tmp/ |

总结

 通过这个问题解决的过程,解决了在交互过程中而导致内部服务器错误,前端无法接收到后端响应,而出现的Bad Request的问题。文章包含了完整的分析过程,教训是惨痛的,程序还是需要健壮的,多亏了之前的全局捕获异常,可以很好的将这个异常传达给上层。

这篇关于05-10 周五 FastBuild 容器启动引起超时问题定位与解决的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/981315

相关文章

linux报错INFO:task xxxxxx:634 blocked for more than 120 seconds.三种解决方式

《linux报错INFO:taskxxxxxx:634blockedformorethan120seconds.三种解决方式》文章描述了一个Linux最小系统运行时出现的“hung_ta... 目录1.问题描述2.解决办法2.1 缩小文件系统缓存大小2.2 修改系统IO调度策略2.3 取消120秒时间限制3

关于@MapperScan和@ComponentScan的使用问题

《关于@MapperScan和@ComponentScan的使用问题》文章介绍了在使用`@MapperScan`和`@ComponentScan`时可能会遇到的包扫描冲突问题,并提供了解决方法,同时,... 目录@MapperScan和@ComponentScan的使用问题报错如下原因解决办法课外拓展总结@

MybatisGenerator文件生成不出对应文件的问题

《MybatisGenerator文件生成不出对应文件的问题》本文介绍了使用MybatisGenerator生成文件时遇到的问题及解决方法,主要步骤包括检查目标表是否存在、是否能连接到数据库、配置生成... 目录MyBATisGenerator 文件生成不出对应文件先在项目结构里引入“targetProje

C#使用HttpClient进行Post请求出现超时问题的解决及优化

《C#使用HttpClient进行Post请求出现超时问题的解决及优化》最近我的控制台程序发现有时候总是出现请求超时等问题,通常好几分钟最多只有3-4个请求,在使用apipost发现并发10个5分钟也... 目录优化结论单例HttpClient连接池耗尽和并发并发异步最终优化后优化结论我直接上优化结论吧,

Java内存泄漏问题的排查、优化与最佳实践

《Java内存泄漏问题的排查、优化与最佳实践》在Java开发中,内存泄漏是一个常见且令人头疼的问题,内存泄漏指的是程序在运行过程中,已经不再使用的对象没有被及时释放,从而导致内存占用不断增加,最终... 目录引言1. 什么是内存泄漏?常见的内存泄漏情况2. 如何排查 Java 中的内存泄漏?2.1 使用 J

numpy求解线性代数相关问题

《numpy求解线性代数相关问题》本文主要介绍了numpy求解线性代数相关问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 在numpy中有numpy.array类型和numpy.mat类型,前者是数组类型,后者是矩阵类型。数组

解决systemctl reload nginx重启Nginx服务报错:Job for nginx.service invalid问题

《解决systemctlreloadnginx重启Nginx服务报错:Jobfornginx.serviceinvalid问题》文章描述了通过`systemctlstatusnginx.se... 目录systemctl reload nginx重启Nginx服务报错:Job for nginx.javas

Spring核心思想之浅谈IoC容器与依赖倒置(DI)

《Spring核心思想之浅谈IoC容器与依赖倒置(DI)》文章介绍了Spring的IoC和DI机制,以及MyBatis的动态代理,通过注解和反射,Spring能够自动管理对象的创建和依赖注入,而MyB... 目录一、控制反转 IoC二、依赖倒置 DI1. 详细概念2. Spring 中 DI 的实现原理三、

Redis缓存问题与缓存更新机制详解

《Redis缓存问题与缓存更新机制详解》本文主要介绍了缓存问题及其解决方案,包括缓存穿透、缓存击穿、缓存雪崩等问题的成因以及相应的预防和解决方法,同时,还详细探讨了缓存更新机制,包括不同情况下的缓存更... 目录一、缓存问题1.1 缓存穿透1.1.1 问题来源1.1.2 解决方案1.2 缓存击穿1.2.1

Mysql DATETIME 毫秒坑的解决

《MysqlDATETIME毫秒坑的解决》本文主要介绍了MysqlDATETIME毫秒坑的解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着... 今天写代码突发一个诡异的 bug,代码逻辑大概如下。1. 新增退款单记录boolean save = s