FTRL算法性能优化

2024-01-11 10:08
文章标签 算法 优化 性能 ftrl

本文主要是介绍FTRL算法性能优化,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原算法(Worker端):

1. 对1个mini-batch, 得到每个sample的非0特征值的feature-id,排序(ps-lite要求Key必须有序),去重

2. 以这组feature-id为Key, 从Server上Pull,得到对应的weights

3. 对每个sample[i], 对其所有非0特征值的feature-id对应的weight, 进行加和,得到sum_w[i]

4. 对每个sample[i]的sum_w[i],得到梯度delta[i] = sigmoid(sum_w[i]) - label[i]

5. 对每个sample[i], 扫描其所有feature-id, 设其对应的weight为weight[k],累加gradient[k] += delta[i]

6. 把所有gradient[k],Push给Server, 去更新weights


原实现:

3. 使用feature-id --> weight的map(unordered_map) ,即下面的weight[idx]

5. 使用feature-->gradient的map(unordered_map), 即下面的gradient[idx]

缺点:一个batch大小1000,每个sample个数平均2000, 1000*2000*8Byte=16MB, 在cache中放不下,频繁访问内存,造成速度慢;

原实现代码:

            for(int row = start; row < end; ++row){float wx = bias;int sample_size = train_data->fea_matrix[row].size();for(int j = 0; j < sample_size; ++j){idx = train_data->fea_matrix[row][j].fid;wx += weight[idx];}pctr = sigmoid(wx);float delta = pctr - train_data->label[row];for(int j = 0; j < keys_size; j++){gradient[(*keys)[j]] += delta;}}

优化实现:

1. 把所有sample的所有key, 放到struct数组里,struct字段:{key, sample-id}

2. 把struct数组(名字为sortedKS)按key从小到大排序

3. 把key单独放在一个数组(名字为keys)里,向Server去Pull Weights, 得到weights数组

4. 对sortedKS和keys进行类归并扫描操作,匹配中的,找到struct对应的sample-id,更新对应的weight:

    sum_w[sortedKS[soredKS_id].sample-id] += weights[keys_id]

5. 循环sum_w(长度为sample个数),  得到梯度delta[i] = sigmoid(sum_w[i]) - label[i]

6. 同步骤4,再次类归并扫描,匹配中的,累加对应的gradient: 

    gradient[keys_id] += delta[sortedKS[soredKS_id].sample-id]

优点:无Hash表;顺序扫描数组;sum_w和gradient只有几KB, 可以放入cache


这篇关于FTRL算法性能优化的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/594012

相关文章

openCV中KNN算法的实现

《openCV中KNN算法的实现》KNN算法是一种简单且常用的分类算法,本文主要介绍了openCV中KNN算法的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的... 目录KNN算法流程使用OpenCV实现KNNOpenCV 是一个开源的跨平台计算机视觉库,它提供了各

Python通过模块化开发优化代码的技巧分享

《Python通过模块化开发优化代码的技巧分享》模块化开发就是把代码拆成一个个“零件”,该封装封装,该拆分拆分,下面小编就来和大家简单聊聊python如何用模块化开发进行代码优化吧... 目录什么是模块化开发如何拆分代码改进版:拆分成模块让模块更强大:使用 __init__.py你一定会遇到的问题模www.

springboot+dubbo实现时间轮算法

《springboot+dubbo实现时间轮算法》时间轮是一种高效利用线程资源进行批量化调度的算法,本文主要介绍了springboot+dubbo实现时间轮算法,文中通过示例代码介绍的非常详细,对大家... 目录前言一、参数说明二、具体实现1、HashedwheelTimer2、createWheel3、n

SpringBoot首笔交易慢问题排查与优化方案

《SpringBoot首笔交易慢问题排查与优化方案》在我们的微服务项目中,遇到这样的问题:应用启动后,第一笔交易响应耗时高达4、5秒,而后续请求均能在毫秒级完成,这不仅触发监控告警,也极大影响了用户体... 目录问题背景排查步骤1. 日志分析2. 性能工具定位优化方案:提前预热各种资源1. Flowable

SpringBoot3实现Gzip压缩优化的技术指南

《SpringBoot3实现Gzip压缩优化的技术指南》随着Web应用的用户量和数据量增加,网络带宽和页面加载速度逐渐成为瓶颈,为了减少数据传输量,提高用户体验,我们可以使用Gzip压缩HTTP响应,... 目录1、简述2、配置2.1 添加依赖2.2 配置 Gzip 压缩3、服务端应用4、前端应用4.1 N

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

MyBatis 动态 SQL 优化之标签的实战与技巧(常见用法)

《MyBatis动态SQL优化之标签的实战与技巧(常见用法)》本文通过详细的示例和实际应用场景,介绍了如何有效利用这些标签来优化MyBatis配置,提升开发效率,确保SQL的高效执行和安全性,感... 目录动态SQL详解一、动态SQL的核心概念1.1 什么是动态SQL?1.2 动态SQL的优点1.3 动态S

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

一文详解SpringBoot响应压缩功能的配置与优化

《一文详解SpringBoot响应压缩功能的配置与优化》SpringBoot的响应压缩功能基于智能协商机制,需同时满足很多条件,本文主要为大家详细介绍了SpringBoot响应压缩功能的配置与优化,需... 目录一、核心工作机制1.1 自动协商触发条件1.2 压缩处理流程二、配置方案详解2.1 基础YAML

SpringBoot实现MD5加盐算法的示例代码

《SpringBoot实现MD5加盐算法的示例代码》加盐算法是一种用于增强密码安全性的技术,本文主要介绍了SpringBoot实现MD5加盐算法的示例代码,文中通过示例代码介绍的非常详细,对大家的学习... 目录一、什么是加盐算法二、如何实现加盐算法2.1 加盐算法代码实现2.2 注册页面中进行密码加盐2.