mmoe/Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

2023-12-30 16:59

文章标签 multi modeling learning mixture gate experts mmoe task relationships

本文主要是介绍mmoe/Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

文章目录

总结
细节
实验

总结

每个task分开emb，每个task分开attention

细节

现有的方法对任务间的relationship敏感

MTL

改进1: 不使用shared-bottom，使用单独的参数，但是加一个多个task参数之间的L2正则

在这里插入图片描述

shared-bottom，共用emb，每个任务上再套一个tower network。这种做法可以降低overfitting，但若task之间没关系则学习不好
$y_k = h^k(f(x))$

moe：每个task单独emb，最后的输出乘权重后相加，类似attention
$\sum_i^n g(x)_if_i(x)$

mmoe：每个task单独emb，单独attention

实验

数据集：uci census-income
评估指标：auc
baseline：shared-bottom, l2-constrained, cross-stitch, omoe, mmoe

这篇关于mmoe/Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/553477。 23002807@qq.com

相关文章

mysqld_multi在Linux服务器上运行多个MySQL实例

mysqld_multi在Linux服务器上运行多个MySQL实例

《mysqld_multi在Linux服务器上运行多个MySQL实例》在Linux系统上使用mysqld_multi来启动和管理多个MySQL实例是一种常见的做法,这种方式允许你在同一台机器上运行多个... 目录1. 安装mysql2. 配置文件示例配置文件3. 创建数据目录4. 启动和管理实例启动所有实例

阅读更多...

linux报错INFO:task xxxxxx:634 blocked for more than 120 seconds.三种解决方式

linux报错INFO:task xxxxxx:634 blocked for more than 120 seconds.三种解决方式

《linux报错INFO:taskxxxxxx:634blockedformorethan120seconds.三种解决方式》文章描述了一个Linux最小系统运行时出现的“hung_ta... 目录1.问题描述2.解决办法2.1 缩小文件系统缓存大小2.2 修改系统IO调度策略2.3 取消120秒时间限制3

阅读更多...

C# Task Cancellation使用总结

C# Task Cancellation使用总结

《C#TaskCancellation使用总结》本文主要介绍了在使用CancellationTokenSource取消任务时的行为,以及如何使用Task的ContinueWith方法来处理任务的延... 目录C# Task Cancellation总结1、调用cancellationTokenSource.

阅读更多...

2014 Multi-University Training Contest 8小记

2014 Multi-University Training Contest 8小记

1002 计算几何最大的速度才可能拥有无限的面积。最大的速度的点求凸包，凸包上的点（注意不是端点）才拥有无限的面积注意：凸包上如果有重点则不满足。另外最大的速度为0也不行的。 int cmp(double x){if(fabs(x) < 1e-8) return 0 ;if(x > 0) return 1 ;return -1 ;}struct poin

阅读更多...

2014 Multi-University Training Contest 7小记

2014 Multi-University Training Contest 7小记

1003 数学，先暴力再解方程。在b进制下是个2 ， 3 位数的大概是10000进制以上。这部分解方程 2-10000 直接暴力 typedef long long LL ;LL n ;int ok(int b){LL m = n ;int c ;while(m){c = m % b ;if(c == 3 || c == 4 || c == 5 ||

阅读更多...

2014 Multi-University Training Contest 6小记

2014 Multi-University Training Contest 6小记

1003 贪心对于111...10....000 这样的序列， a 为1的个数，b为0的个数，易得当 x= a / (a + b) 时 f最小。讲串分成若干段 1..10..0 , 1..10..0 , 要满足x非递减。对于 xi > xi+1 这样的合并即可。 const int maxn = 100008 ;struct Node{int

阅读更多...

UML- 统一建模语言（Unified Modeling Language）创建项目的序列图及类图

UML- 统一建模语言（Unified Modeling Language）创建项目的序列图及类图

陈科肇 ============= 1.主要模型在UML系统开发中有三个主要的模型：功能模型：从用户的角度展示系统的功能，包括用例图。对象模型：采用对象、属性、操作、关联等概念展示系统的结构和基础，包括类图、对象图、包图。动态模型：展现系统的内部行为。包括序列图、活动图、状态图。因为要创建个人空间项目并不是一个很大的项目，我这里只须关注两种图的创建就可以了，而在开始创建UML图

阅读更多...

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(3)

简单的Q-learning|小明的一维世界(1) 简单的Q-learning|小明的一维世界(2) 一维的加速度世界这个世界，小明只能控制自己的加速度，并且只能对加速度进行如下三种操作：增加1、减少1、或者不变。所以行动空间为： { u 1 = − 1 , u 2 = 0 , u 3 = 1 } \{u_1=-1, u_2=0, u_3=1\} {u1=−1,u2=0,u3=1}

阅读更多...

简单的Q-learning|小明的一维世界(2)

简单的Q-learning|小明的一维世界(2)

上篇介绍了小明的一维世界模型、Q-learning的状态空间、行动空间、奖励函数、Q-table、Q table更新公式、以及从Q值导出策略的公式等。最后给出最简单的一维位置世界的Q-learning例子，从给出其状态空间、行动空间、以及稠密与稀疏两种奖励函数的设置方式。下面将继续深入，GO！一维的速度世界这个世界，小明只能控制自己的速度，并且只能对速度进行如下三种操作：增加1、减

阅读更多...

兔子--Android Studio出现错误：Error:Execution failed for task ':myapp:dexDebug'. com.android.ide.common.pro

兔子--Android Studio出现错误：Error:Execution failed for task ':myapp:dexDebug'. com.android.ide.common.pro

重点在：finished with non-zero exit value 2．这里表明了有重复的内容存在。由于：Android Studio中引入包的方式有如下2种： compile 'com.android.support:support-v4:22.0.0' compile files('libs/support-v

阅读更多...