FTRL算法性能优化

2024-01-11 10:08

文章标签 算法优化性能 ftrl

本文主要是介绍FTRL算法性能优化，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

原算法（Worker端）：

1. 对1个mini-batch, 得到每个sample的非0特征值的feature-id，排序(ps-lite要求Key必须有序），去重

2. 以这组feature-id为Key, 从Server上Pull，得到对应的weights

3. 对每个sample[i], 对其所有非0特征值的feature-id对应的weight, 进行加和，得到sum_w[i]

4. 对每个sample[i]的sum_w[i]，得到梯度delta[i] = sigmoid(sum_w[i]) - label[i]

5. 对每个sample[i], 扫描其所有feature-id, 设其对应的weight为weight[k]，累加gradient[k] += delta[i]

6. 把所有gradient[k]，Push给Server, 去更新weights

原实现：

3. 使用feature-id --> weight的map(unordered_map) ，即下面的weight[idx]

5. 使用feature-->gradient的map(unordered_map), 即下面的gradient[idx]

缺点：一个batch大小1000，每个sample个数平均2000， 1000*2000*8Byte=16MB, 在cache中放不下，频繁访问内存，造成速度慢；

原实现代码：

            for(int row = start; row < end; ++row){float wx = bias;int sample_size = train_data->fea_matrix[row].size();for(int j = 0; j < sample_size; ++j){idx = train_data->fea_matrix[row][j].fid;wx += weight[idx];}pctr = sigmoid(wx);float delta = pctr - train_data->label[row];for(int j = 0; j < keys_size; j++){gradient[(*keys)[j]] += delta;}}

优化实现：

1. 把所有sample的所有key, 放到struct数组里，struct字段：{key, sample-id}

2. 把struct数组（名字为sortedKS)按key从小到大排序

3. 把key单独放在一个数组（名字为keys)里，向Server去Pull Weights, 得到weights数组

4. 对sortedKS和keys进行类归并扫描操作，匹配中的，找到struct对应的sample-id，更新对应的weight:

sum_w[sortedKS[soredKS_id].sample-id] += weights[keys_id]

5. 循环sum_w(长度为sample个数), 得到梯度delta[i] = sigmoid(sum_w[i]) - label[i]

6. 同步骤4，再次类归并扫描，匹配中的，累加对应的gradient:

gradient[keys_id] += delta[sortedKS[soredKS_id].sample-id]

优点：无Hash表；顺序扫描数组；sum_w和gradient只有几KB, 可以放入cache

这篇关于FTRL算法性能优化的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！