Python 全栈系列242 踩坑记录:租用算力机完成任务

2024-05-10 13:20

本文主要是介绍Python 全栈系列242 踩坑记录:租用算力机完成任务,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

说明

记一次用算力机分布式完成任务的坑。

内容

1 背景

很早的时候,做了一个实体识别模型。这个模型可以识别常见的PER、ORG、LOC和TIME几种类型实体。

后来,因为主要只用来做PER、ORG的识别,于是我根据业务数据,重新训练了模型。

再后来,因为在输入和输出端存在问题,于是我做了函数链的封装。输入的问题例如:字符串存在非utf8字符,输出的问题例如主体识别会多一个字,或者过短的实体。总之,函数链封装之后,看起来是一个整体。能适应当时业务的问题。

然后,因为业务上的需求,需要最快速度处理完900万篇文档。

顺带的,我把数据存了clickhouse,计算平均长度是3k。
在这里插入图片描述

2 过程

2.1 nginx反向代理

一开始采用在本地部署nginx反向代理,然后租用算力机启动多个服务来进行分摊。这样只要填写租用算力机的IP:端口就可以横向拓展算力了。

实操时,一方面要不断修改nginx的配置,重启,会浪费很多手工。另外发现,由于租用机的网络会有抖动(总体来说带宽大,但不稳),而当前设计每次处理耗时较长,一旦出错时间就全部浪费了。

2.2 租用机本地服务+任务

租用了算力机,然后把本地文件同步过去。然后在租用的机器上启动3个服务,然后通过脚本均匀分配任务执行。最后将结果回传,写入。

过程中的第一个坑是文件传送。文件整体大小是25G, 按UCS的方式切分数据,只有一个block(0.0.0), 其下有874个brick。在规划上,是启动3台机器,每台机器3个服务,共9条线进行处理。在拷贝时本来是可以通过命令只传送每台机器对应的数据的,但是一时间没有调好命令。时间又比较急,所以用了笨办法,将25G传到每台机器。然后就花了很多手工时间,也花了1个多小时传送数据。

# 命令语句例子
123rsync -rvltz -e 'ssh -p 46717'  --progress /home/data4T/news_data_1800w_batch2/left root@s9vyc6vwjag1.com:/root/andy/回传结果rsync -rvltz -e 'ssh -p 46717'  --progress root@s9vyc6vwjag1.com:/root/andy/right/ /home/data4T/news_data_1800w_batch2/right/

第二个坑就是启动服务,修改服务文件,然后写worker, player这种方式去手动的规划任务了。一方面真的浪费很多手工时间,另一方面也浪费了很多处理时间。原来的设计就是server模式的,这种方式更适合应对持续性的需求,这次任务属于一次性的,其实应该采取worker模式。从显存上看,server模式会一直维持显存,且可能不断增大,所以只能开3个进程。如果是worker模式,那么资源随用随放,我认为开5个worker都没有问题,所以模式的选择错误,又浪费了计算时间。

2.3 其他

还有一些坑。

原来的服务把出具处理和实体识别包在一起了,极大降低了显卡资源利用率。以后应当把资源耗用集中度也作为耦合设计的一个原则(原来只是考虑逻辑复杂性)。

使用文件的方式不可取。一方面是涉及到的手工操作太多,各种文件同步命令,非常浪费时间。最近正好部署了clickhouse,非常适合用于大文件的存取,这也对应了UCS设计中的brick操作,设计可以落地了。

使用数据库,可以规范数据格式。本次在读取pkl文件的时候碰到:ModuleNotFoundError: No module named 'pandas.core.indexes.numeric'错误。大概是因为租用机的pandas、pickle版本的问题。所以后来不得不在本地进行数据的集成,又浪费了很多手工操作。

最后在准备收集数据批量提交时,我稍微修改了一下模式:没有再回收文件到本地,而是存到了clickhouse。然后再按照brick从clickhouse中读取,分块存到postgres。

在存储数据的时候,我倒是又想到了一个问题,就是重复主键。如何避免主键的重复插入?

一种通用的方式是批量的使用主键查询,然后只插入差集。(这些在WMongo都实现了,只是新的库还需要重新适配开发一下)

本次的解决方案是用meta记录brick,按照brick进行批量的增删。

总结

如果再来一次,我会把文件传到一个算力机,然后建一个clickhouse,数据全部写进去。然后将任务写到队列中,按照brick作为基本单位。然后租用更多的算力机,每个算力机上启动n个worker。worker工作时到队列中获取brick,然后根据brick从clickhouse中取数。处理完成后,数据写到结果表。写表前根据brick判断,是否可以插入。

这样的话,估计手工的时间只需要2个小时,整体跑数时间应该短于6小时。

其他:

  • 1 可能会因为连接不稳,而导致处理中断。–不合适把租用机作为稳定的后端服务业源
  • 2 不要只考虑server模式,也要考虑worker模式。 e.g. streamlit --> 前端, tornado --> api, clickhouse,rabbitmq --> worker
  • 3 大量传输数据还是很费时的,传输25个G可能会要1个小时
  • 4 耦合设计:资源集中度、逻辑复杂性
  • 5 使用数据库,非常节约手工操作的时间
  • 6 使用clickhouse的整体感觉还不错
  • 7 不要小气,在执行任务的时候不妨再租一个算力机做中转(带宽大)
  • 8 可能需要使用anaconda搭建虚拟环境(不是所有算力机都允许启动镜像)

这篇关于Python 全栈系列242 踩坑记录:租用算力机完成任务的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/976559

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

python: 多模块(.py)中全局变量的导入

文章目录 global关键字可变类型和不可变类型数据的内存地址单模块(单个py文件)的全局变量示例总结 多模块(多个py文件)的全局变量from x import x导入全局变量示例 import x导入全局变量示例 总结 global关键字 global 的作用范围是模块(.py)级别: 当你在一个模块(文件)中使用 global 声明变量时,这个变量只在该模块的全局命名空

【Python编程】Linux创建虚拟环境并配置与notebook相连接

1.创建 使用 venv 创建虚拟环境。例如,在当前目录下创建一个名为 myenv 的虚拟环境: python3 -m venv myenv 2.激活 激活虚拟环境使其成为当前终端会话的活动环境。运行: source myenv/bin/activate 3.与notebook连接 在虚拟环境中,使用 pip 安装 Jupyter 和 ipykernel: pip instal

科研绘图系列:R语言扩展物种堆积图(Extended Stacked Barplot)

介绍 R语言的扩展物种堆积图是一种数据可视化工具,它不仅展示了物种的堆积结果,还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异,为研究者提供了一种有效的数据解读方式。 加载R包 knitr::opts_chunk$set(warning = F, message = F)library(tidyverse)library(phyl

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入(Embedding)方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节:嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以被看作是自然语言处理中的“翻译机”,它将文本中的单词或短语转换成计算机能够理解的数学形式,即向量。 正如翻译机将一种语言

【学习笔记】 陈强-机器学习-Python-Ch15 人工神经网络(1)sklearn

系列文章目录 监督学习:参数方法 【学习笔记】 陈强-机器学习-Python-Ch4 线性回归 【学习笔记】 陈强-机器学习-Python-Ch5 逻辑回归 【课后题练习】 陈强-机器学习-Python-Ch5 逻辑回归(SAheart.csv) 【学习笔记】 陈强-机器学习-Python-Ch6 多项逻辑回归 【学习笔记 及 课后题练习】 陈强-机器学习-Python-Ch7 判别分析 【学

nudepy,一个有趣的 Python 库!

更多资料获取 📚 个人网站:ipengtao.com 大家好,今天为大家分享一个有趣的 Python 库 - nudepy。 Github地址:https://github.com/hhatto/nude.py 在图像处理和计算机视觉应用中,检测图像中的不适当内容(例如裸露图像)是一个重要的任务。nudepy 是一个基于 Python 的库,专门用于检测图像中的不适当内容。该

Node.js学习记录(二)

目录 一、express 1、初识express 2、安装express 3、创建并启动web服务器 4、监听 GET&POST 请求、响应内容给客户端 5、获取URL中携带的查询参数 6、获取URL中动态参数 7、静态资源托管 二、工具nodemon 三、express路由 1、express中路由 2、路由的匹配 3、路由模块化 4、路由模块添加前缀 四、中间件

pip-tools:打造可重复、可控的 Python 开发环境,解决依赖关系,让代码更稳定

在 Python 开发中,管理依赖关系是一项繁琐且容易出错的任务。手动更新依赖版本、处理冲突、确保一致性等等,都可能让开发者感到头疼。而 pip-tools 为开发者提供了一套稳定可靠的解决方案。 什么是 pip-tools? pip-tools 是一组命令行工具,旨在简化 Python 依赖关系的管理,确保项目环境的稳定性和可重复性。它主要包含两个核心工具:pip-compile 和 pip