在使用nohup命令后台训练pytorch模型时,关闭ssh窗口导致的训练任务失败解决方法

本文主要是介绍在使用nohup命令后台训练pytorch模型时,关闭ssh窗口导致的训练任务失败解决方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

下班前使用终端通过SSH登陆服务器,用nohup命令后台训练了一个pytorch模型。第二天来公司上班发现模型训练终止,报如下问题。

WARNING:torch.distributed.elastic.agent.server.api:Received 1 death signal, shutting down workers
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 2478002 closing signal SIGHUP
WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 2478003 closing signal SIGHUP

一查原来是因为SSH终端与服务器之间建立的是临时的交互会话,如果一段时间没有交互,或者关闭窗口,会话就结束,那么会话内部的进程也终止,所以训练任务就结束了。

知识点补充:

1、 会话与进程

命令行的典型使用方式是,打开一个终端窗口(terminal window,以下简称"窗口"),在里面输入命令。用户与计算机的这种临时的交互,称为一次"会话"(session) 。

会话的一个重要特点是,窗口与其中启动的进程是连在一起的。打开窗口,会话开始;关闭窗口,会话结束,会话内部的进程也会随之终止,不管有没有运行完。

一个典型的例子就是,SSH 登录远程计算机,打开一个远程窗口执行命令。这时,网络突然断线,再次登录的时候,是找不回上一次执行的命令的。因为上一次 SSH 会话已经终止了,里面的进程也随之消失了。

为了解决这个问题,会话与窗口可以"解绑":窗口关闭时,会话并不终止,而是继续运行,等到以后需要的时候,再让会话"绑定"其他窗口。

2、如何保持SSH会话不结束

How to Keep SSH Session Alive

如何保持 SSH 会话不中断? - 知乎

我们使用Linux终端的方法来让SSH会话保持足够长的时间,足够保证我们的训练任务进程完成。

2.1 Linux client 配置

对于 Linux client ,我们在home目录下修改 ~/.ssh/config 文件(如果没有就创建)

vim  ~/.ssh/config

下面是配置

Host *
ServerAliveInterval 120
ServerAliveCountMax 720
  • Host:配置仅对 “Host” 关键字后面列出的主机生效。由于使用了通配符 (*),因此它们适用于所有主机
  • ServerAliveInterval:设置超时间隔(以秒为单位),如果没有从 server 接收到数据,SSH 将通过加密通道发送消息,请求 server 响应。默认值为 0,表示不会将这些消息发送到 server
  • ServerAliveCountMax:设置在 SSH 没有收到任何消息的情况下向 server 发送keepalive 消息的数量。如果达到了该阈值,SSH 将断开与 server 的连接,终止会话(默认值为 3)

表示 client 每 120s 向 server 发送 keepalive 消息,一共发送 720 次,也就是 120 * 720 = 86400 s(24小时),在这24小时内 SSH 会话会一直保持。

2.2 Linux server 配置

上面介绍的是 client 端的配置,我们接下来介绍 server 端的配置

修改 /etc/ssh/sshd_config 文件

sudo vi /etc/ssh/sshd_config
TCPKeepAlive yes
ClientAliveInterval 120 
ClientAliveCountMax 720

  • TCPKeepAlive:是否应该向 client 发送 TCP keepalive 信息
  • ClientAliveInterval:设置超时间隔(以秒为单位),如果没有从 client 接收到数据,SSH 将通过加密通道发送消息,请求 client 响应。默认值为 0,表示不会将这些消息发送到 client
  • ClientAliveCountMax:设置在 SSH 没有收到任何消息的情况下向 client 发送keepalive 消息的数量。如果达到了该阈值,SSH 将断开与 client 的连接,终止会话(默认值为 3)

与前面讲到的 Linux client 配置一样,server 将保持 SSH 会话24小时(120 * 720 = 86400s)

配置之后重启 SSH 服务

systemctl restart sshd

2.3 使用Tmux

https://www.cnblogs.com/gy77/p/16746769.html

https://www.ruanyifeng.com/blog/2019/10/tmux.html

# Mac安装 tmux
$ brew install tmux

这篇关于在使用nohup命令后台训练pytorch模型时,关闭ssh窗口导致的训练任务失败解决方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/185281

相关文章

C++使用栈实现括号匹配的代码详解

《C++使用栈实现括号匹配的代码详解》在编程中,括号匹配是一个常见问题,尤其是在处理数学表达式、编译器解析等任务时,栈是一种非常适合处理此类问题的数据结构,能够精确地管理括号的匹配问题,本文将通过C+... 目录引言问题描述代码讲解代码解析栈的状态表示测试总结引言在编程中,括号匹配是一个常见问题,尤其是在

Nginx设置连接超时并进行测试的方法步骤

《Nginx设置连接超时并进行测试的方法步骤》在高并发场景下,如果客户端与服务器的连接长时间未响应,会占用大量的系统资源,影响其他正常请求的处理效率,为了解决这个问题,可以通过设置Nginx的连接... 目录设置连接超时目的操作步骤测试连接超时测试方法:总结:设置连接超时目的设置客户端与服务器之间的连接

Java中String字符串使用避坑指南

《Java中String字符串使用避坑指南》Java中的String字符串是我们日常编程中用得最多的类之一,看似简单的String使用,却隐藏着不少“坑”,如果不注意,可能会导致性能问题、意外的错误容... 目录8个避坑点如下:1. 字符串的不可变性:每次修改都创建新对象2. 使用 == 比较字符串,陷阱满

Java判断多个时间段是否重合的方法小结

《Java判断多个时间段是否重合的方法小结》这篇文章主要为大家详细介绍了Java中判断多个时间段是否重合的方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录判断多个时间段是否有间隔判断时间段集合是否与某时间段重合判断多个时间段是否有间隔实体类内容public class D

Python使用国内镜像加速pip安装的方法讲解

《Python使用国内镜像加速pip安装的方法讲解》在Python开发中,pip是一个非常重要的工具,用于安装和管理Python的第三方库,然而,在国内使用pip安装依赖时,往往会因为网络问题而导致速... 目录一、pip 工具简介1. 什么是 pip?2. 什么是 -i 参数?二、国内镜像源的选择三、如何

使用C++实现链表元素的反转

《使用C++实现链表元素的反转》反转链表是链表操作中一个经典的问题,也是面试中常见的考题,本文将从思路到实现一步步地讲解如何实现链表的反转,帮助初学者理解这一操作,我们将使用C++代码演示具体实现,同... 目录问题定义思路分析代码实现带头节点的链表代码讲解其他实现方式时间和空间复杂度分析总结问题定义给定

IDEA编译报错“java: 常量字符串过长”的原因及解决方法

《IDEA编译报错“java:常量字符串过长”的原因及解决方法》今天在开发过程中,由于尝试将一个文件的Base64字符串设置为常量,结果导致IDEA编译的时候出现了如下报错java:常量字符串过长,... 目录一、问题描述二、问题原因2.1 理论角度2.2 源码角度三、解决方案解决方案①:StringBui

Linux使用nload监控网络流量的方法

《Linux使用nload监控网络流量的方法》Linux中的nload命令是一个用于实时监控网络流量的工具,它提供了传入和传出流量的可视化表示,帮助用户一目了然地了解网络活动,本文给大家介绍了Linu... 目录简介安装示例用法基础用法指定网络接口限制显示特定流量类型指定刷新率设置流量速率的显示单位监控多个

Java覆盖第三方jar包中的某一个类的实现方法

《Java覆盖第三方jar包中的某一个类的实现方法》在我们日常的开发中,经常需要使用第三方的jar包,有时候我们会发现第三方的jar包中的某一个类有问题,或者我们需要定制化修改其中的逻辑,那么应该如何... 目录一、需求描述二、示例描述三、操作步骤四、验证结果五、实现原理一、需求描述需求描述如下:需要在

JavaScript中的reduce方法执行过程、使用场景及进阶用法

《JavaScript中的reduce方法执行过程、使用场景及进阶用法》:本文主要介绍JavaScript中的reduce方法执行过程、使用场景及进阶用法的相关资料,reduce是JavaScri... 目录1. 什么是reduce2. reduce语法2.1 语法2.2 参数说明3. reduce执行过程