【区域脑图论文笔记】BrainNetCNN:第一个专门为脑网络连接体数据设计的深度学习框架

本文主要是介绍【区域脑图论文笔记】BrainNetCNN:第一个专门为脑网络连接体数据设计的深度学习框架,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

【区域脑图论文笔记】BrainNetCNN:第一个专门为脑网络连接体数据设计的深度学习框架

  • 信息概览与提炼
  • 采用的数据与结果
    • 数据集
    • 结果概览一眼
  • 重点图与方法概览
  • 核心与优劣总结
  • 模型与实验
    • 论文方法
      • E2E的理解
      • E2N的理解
      • N2G的理解
      • 三个卷积层设计的理解
    • 论文实验与讨论
  • 总结与思考
  • 实现的一些细节
  • 权重初始化
  • 推荐及下篇笔记

信息概览与提炼

在这里插入图片描述

  • 原名: BrainNetCNN: Convolutional neural networks for brain networks; towards predicting neurodevelopment
  • 论文链接: https://www.sciencedirect.com/science/article/abs/pii/S1053811916305237
  • 代码链接:
    • 官方提供:http://www.BrainNetCNN.cs.sfu.ca
    • https://github.com/furtherAdu/BrainNetCNN_Personality
    • https://github.com/jeremykawahara/ann4brains/blob/master/ann4brains
    • https://github.com/nicofarr/brainnetcnnVis_pytorch
  • 来源: NeuroImage
  • 任务: cognitive scores认知得分, motor scores运动得分, 图回归, 年龄预测
  • year: 2017
  • 数据格式: DTI(结构数据)
  • 数据集: 早产儿-DTI-温哥华BC115(年龄:为24至32周PMA,数量168, 115名主体)
  • 构图模式: 区域脑图,单模,同构图, 静态,全连接,有向,加权
  • 方法关键词: edge-based, 图结构学习,CNN,区域脑图,单模态
  • 主要贡献点总结: BrainNetCNN,这是第一个用于连接组数据的CNN回归器。设计了三种专门的卷积层类型,旨在利用加权大脑网络中固有的结构。
  • 其他辅助信息:BrainNetCNN的官方网站:https://brainnetcnn.cs.sfu.ca/About.html,包括模型的简介和软件等

采用的数据与结果

数据集

  1. 文章源话

    • 27 and 46 weeks gestational age
    • The data for this study is from a cohort of infants born very preterm, between 24 and 32 weeks PMA (postmenstrual age), and imaged at BC Children’s Hospital in Vancouver, Canada.
    • scans of 115 infants were used. Roughly half of the infants were scanned twice…for a total of 168 scans.
    • Using a neonatal atlas of anatomical regions from the University of North Carolina (UNC) School of Medicine at Chapel Hill
    • a weighted, undirected network was constructed from each scan
    • 90 x 90 symmetric adjacency matrix with zeros along the diagonal and is scaled to [0,1]
  2. 早产儿/婴幼儿年龄概念【医学概念知识拓展】

    • Gestational age (completed weeks): time elapsed between the first day of the last menstrual period and the day of delivery. If pregnancy was achieved using assisted reproductive technology, gestational age is calculated by adding 2 weeks to the conceptional age.
      孕龄(完整周数):末次月经第一天与分娩日之间的时间。如果妊娠是通过辅助生殖技术实现的,孕龄的计算方法是在受孕年龄上加2周。
    • Chronological age (days, weeks, months, or years): time elapsed from birth.
      实足年龄(日、周、月或年):从出生开始经过的时间。
    • Postmenstrual age (weeks): gestational age plus chronological age.
      经后年龄(周):胎龄加实际年龄。
    • Corrected age (weeks or months): chronological age reduced by the number of weeks born before 40 weeks of gestation; the term should be used only for children up to 3 years of age who were born preterm.
      校正年龄(周或月):实际年龄减去妊娠40周前出生的周数;该术语仅适用于3岁以下早产的儿童。
    • During the perinatal period neonatal hospital stay, “postmenstrual age” is preferred to describe the age of preterm infants. After the perinatal period, “corrected age” is the preferred term.
      在围产期新生儿住院期间,首选“经后年龄”来描述早产儿的年龄。在围产期之后,“校正年龄”是首选术语。
  3. 总结

    • 主体数目:115
    • 总图像数:168(约有一半的婴儿接受了两次扫描)
    • 主体年龄信息:24-32周(早产儿)
    • 模态类型:DTI
    • 图谱:UNC
    • 节点数:90
    • 连接矩阵信息:对称,对角线为0,归一化
    • 脑图:90节点,加权图,同构图,初始特征在边上,有向图(从代码和公式上来看)

结果概览一眼

这里先了解一下论文的总体结果(其他结果在下面的笔记)

  • 实验设置:3折交叉验证
  • 年龄任务:MAE为2.17周(或总年龄范围的11.1%),SDAE为1.59周。预测年龄和真实年龄之间的相关性为0.864。
    • 文章源话:💡 Using E2Enet-sml , we were able to accurately predict PMA, with an MAE of 2.17 weeks (or 11.1% of the total age range) and an SDAE of 1.59 weeks. The correlation between predicted and ground-truth age was 0.864. FC90net model performed slightly worse than E2Enet-sml, achieving an MAE of 2.29 weeks, SDAE of 1.65 weeks and a correlation of 0.858. Similarly, the E2Nnet-sml model slightly underperformed E2Enet-sml, achieving an MAE of 2.377, SDAE of 1.72 and a correlation of 0.843.
  • 认知和运动评分任务:认知和运动评分的预测值和真实值之间的平均差异在统计学上与零无显著差异(p值分别为0.6817和0.9731),两者的MAR均小于11.6%
    在这里插入图片描述

重点图与方法概览

在这里插入图片描述上面是BrainNetCNN论文的主题框架图

在这里插入图片描述
从图1可以看出BrainNetCNN主要包括三个卷积层,也就是E2E,E2N和N2G:

  • E2E层:Edge-to-edge Layer,也就是边到边层,也就是下图的a子图。
  • E2N层:Edge-to-Node Layer,也就是边到节点层,也就是下图的b子图。
  • N2G层:Node-to-Graph Layer,也就是节点到图层,也就是下图的c子图。
    在这里插入图片描述

由这三个卷积层最终依次更新边的特征(也就是连接矩阵中的元素特征),节点的特征,和整个脑图的特征,最后得到脑图的嵌入。

核心与优劣总结

核心与其理解

  1. 核心:BrainNetCNN的核心在于它是第一个专门为脑网络连接体数据设计的深度学习框架(16/17年)。与传统的深度学习框架相比(BrainNetCNN是跟基于图像的CNN框架对比),BrainNetCNN的E2E,E2N,N2G层的设计更有利于脑拓扑局部结构的学习,更具可解释性。
  2. 核心思想的理解:本质上就是把连接矩阵的每个元素当成节点间边的连接,也就是加权的全连接图。因此,BrainNetCNN其实考虑了连接矩阵的含义。也就是矩阵的每个元素相当于边。对于脑科学的任务来说,最终就是为了获取脑图的嵌入(对于区域脑图类型来说)。所以,BrainNetCNN在边特征的基础上思考应该怎么去获取整个脑图的嵌入。在BrainNetCNN中,其采用先将边特征聚合到节点层(E2N),在将节点层的特征聚合到图层(N2G),以此得到整个脑图的嵌入。在上面的理解中就包括了E2N和N2G层。E2E层可以理解为获取更高维/有效的边特征。

优势总结

  1. 第一个专门为脑网络连接体数据设计的深度学习框架,考虑了连接矩阵的含义,而不是把脑影像单纯的当成图像或者把连接矩阵当成图像来看。
  2. 采用了模拟损伤实验
  3. 采用了SMOTE过采样的方法来缓解样本量少带来的问题
  4. 可视化(注意对于脑科学论文来说,可视化是比较重要且必要的)的结果:可视化的机构发现对于预测年龄重要的连接在整个脑网络中的分布良好;对于运动和认知分数相关的重要连接与相关脑区相关。
  5. 开源

不足总结

  1. 单一数据集,单一模态,数据样本量少(但其实这也是很多脑科学的挑战之处)。
  2. 没有和比较当时经典的图像模型相比(文中只对比了FC30/90这些,感觉至少应该对比一下CNN😂),其实还是性能上有待考究的。与图像模型相比的话,脑网络模型的优势在于可解释性。
  3. 一些数据处理的细节其实在文本并没有给出,需要从源码看一下
  4. 虽然考虑了脑的拓扑结构,但模型的可解释性有待进一步优化。

模型与实验

这里笔记部分就不记载论文相关的背景及相关工作等的介绍了,主要介绍的是模型与实验部分以及相关笔者觉得比较重要的可视化结果。下面将帮助友友们理解一下E2E,E2N和N2G层。

论文方法

根据上述的总结与概述,BrainNetCNN的核心在于E2E,E2N和N2G三个层。所以理解这三个层的思想及公式,其实就可以理解BrainNetCNN。通过理解思路加上代码,应该没有问题了。
在这里插入图片描述
图来源于:Convolutional Neural Networks for Adjacency Matrices

PS:下面的图如果没有另外说明就是来源于Convolutional Neural Networks for Adjacency Matrices

E2E的理解

对应的论文公式:
在这里插入图片描述其中, A i , j A_{i,j} Ai,j为连接矩阵的第i行第j列的元素,也就是脑网路中节点i与节点j连接的边。比如像下图1这条边对应右边连接矩阵的A、B节点的矩阵元素。
在这里插入图片描述

A i , k ∣ k ∈ ∣ Ω ∣ A_{i,k}|k \in|\Omega| Ai,kk∣Ω∣就相当于下面动图中黄十字横着的那一行, A k , j ∣ k ∈ ∣ Ω ∣ A_{k,j}|k \in|\Omega| Ak,jk∣Ω∣就相当于下面动图中黄十字横着的那一列。

下图为边到边(E2E)卷积层更新边的计算过程,也就是计算给定边的相邻边的加权响应。
在这里插入图片描述
(左)输入连接矩阵,其中黄色十字部分为卷积,(右)输出连接矩阵,黄色代表左黄色十字的响应。

比如对于A节点和C节点这条边,通过卷积与AC这条边直接连接的边(粉色部分)就可以得到红色部分对应的AC矩阵元素,也就是新的AC边的特征表示。而橙色就代表对应的学习权重,也就是卷积层。
在这里插入图片描述
在这里插入图片描述除此之外,可以看到公式里面对 A i , k ∣ k ∈ ∣ Ω ∣ A_{i,k}|k \in|\Omega| Ai,kk∣Ω∣ A k , j ∣ k ∈ ∣ Ω ∣ A_{k,j}|k \in|\Omega| Ak,jk∣Ω∣使用的是不同的权重系数,因此,在BrainNetCNN中其把脑图看成一种有向图,也就是A节点到B节点和B节点到A节点的计算是不一致的。

对应的Pytorch代码:

class E2EBlock(torch.nn.Module):'''E2Eblock.'''def __init__(self, in_planes, planes,example,bias=False):super(E2EBlock, self).__init__()self.d = example.size(3)self.cnn1 = torch.nn.Conv2d(in_planes,planes,(1,self.d),bias=bias)self.cnn2 = torch.nn.Conv2d(in_planes,planes,(self.d,1),bias=bias)def forward(self, x):a = self.cnn1(x)b = self.cnn2(x)return torch.cat([a]*self.d,3)+torch.cat([b]*self.d,2)

E2N的理解

对应的论文公式:
在这里插入图片描述其中, a i a_{i} ai代表的其实就是节点 i。这里同样可以看到公式里面对 A i , k ∣ k ∈ ∣ Ω ∣ A_{i,k}|k \in|\Omega| Ai,kk∣Ω∣ A k , j ∣ k ∈ ∣ Ω ∣ A_{k,j}|k \in|\Omega| Ak,jk∣Ω∣使用的是不同的权重系数,因此,在BrainNetCNN中其把脑图看成一种有向图。

下面给出上面公式的动图计算过程:
下图为边到点(E2N)卷积层更新边的计算过程,也就是计算给定节点的相邻边上的加权响应。
在这里插入图片描述
(左)输入连接矩阵,其中黄色十字部分为卷积,(右)输出节点特征(一个元素代表一个节点),黄色代表节点,也就是左黄色十字的响应。

如果动图还不能理解,可以看这里的例子:
比如对于A节点,通过卷积与A节点直接连接的边(粉色部分)就可以得到红色部分对应的新的A节点的特征表示。橙色就代表对应的学习权重,也就是卷积层。
在这里插入图片描述
对应的Pytorch代码:

self.E2N = torch.nn.Conv2d(64,1,(1,self.d))

N2G的理解

对应的论文公式:
在这里插入图片描述其中, a a a代表的其实就是整个脑图的嵌入。

N2G层就像相当于GNN中的读出层,这里作者应用的是1D空间卷积。将所有节点特征加权卷积成整个图嵌入表示。
在这里插入图片描述简单粗略地理解:从上图来看就是把每个节点的特征维度映射为1维度,这样子就可以把所有的节点特征转化为1XN的脑嵌入了。

对应的Pytorch代码:

self.N2G = torch.nn.Conv2d(1,256,(self.d,1))

三个卷积层设计的理解

整体上看来的话,E2E,E2N,N2G这三层卷积的计算操作其实为了减少计算量,通过上面的操作就可以减少整个卷积层的计算机维度。要知道这里减少计算量的操作还是有效的。尤其是对于像脑科学这种数据量相对少的情况。BrainNetCNN的图像数也就168。过复杂的卷积计算不利于模型的学习。

论文实验与讨论

这里笔者我不会过多的去讨论这里的实验结果,一个是文中对比的模型是FC,另外一个是对于研究者来说更多的可能是这篇论文的研究思路。

在结果概览那里已经可以看到模型的最后结果了,所以对于结果细节感兴趣的可以去看一下论文。下面只罗列一些笔者比较感兴趣的论文讨论结论。

这里面向的是早产儿数据。
在这里插入图片描述论文指出,许多来自右额中回(MFG)的大脑连接(边缘)被选为运动和认知评分的积极结果的预测。左侧楔前叶(PCUN)、梭状回(FFG)、上级额回(SFGdor)和右侧舌回(LING)也是两个评分的重要连接的突出枢纽。对于运动评分,两个上级额回之间的连接显得特别重要。相比之下,左FFG和右LING之间的连接被强调为对于认知分数比对于运动分数相对更重要。

与发现对预测神经发育结果很重要的边缘集相比,发现对预测年龄很重要的边缘集在大脑网络中的分布要广泛得多(图6)。只有右LING和右FFG之间的联系似乎是一个特别强的预测因素。我们在下面讨论这些观察结果的可能解剖学原因。

与预测神经发育结果的边缘相比,发现对预测PMA重要的边缘在整个大脑网络中更为广泛。这是预期的,因为整个大脑在发育的早期阶段发育(即,许多连接随年龄变化)而运动或认知功能主要取决于特定的子网络。一个特别突出的对年龄有积极预测作用的联系是右LING和FFG之间的联系。这一结果与我们对健康早产儿发育的分析一致

总结与思考

BrainNetCNN的核心在于它是第一个专门为脑网络连接体数据设计的深度学习框架(16/17年)。与传统的深度学习框架相比(BrainNetCNN是跟基于图像的CNN框架对比),BrainNetCNN的E2E,E2N,N2G层的设计更有利于脑拓扑局部结构的学习,更具可解释性。

从BrainNetCNN的论文中可以看出它卷积层的设计其实还蛮有趣的,通过这样子的计算的确会大大减少计算量。

另外值得关注的一点就是它在E2E,E2N层的设计也可以看出它是把图当成有向图而不是无向图

另外这是脑科学考虑拓扑性的一个深度学习框架,有些思路是值得我们学习的:

  1. 根据脑网络的拓扑属性来设计框架
  2. 对于少数据量的情况下,应该如何控制模型的复杂度,使模型更能学习到数据本身的特征
  3. 对于脑科学领域来说,可解释性是必要的,进行相关的可视化分析也是必要的。
  4. 另外BrainNetCNN与后面BrainGNN系列的模型不同,它关注在于边上,也就是连接上,这对于功能数据来说是比较重要的。因为22年几篇Nature的文章之处信息交流才是重点,信息交流其实就可以看成边。但从GNN角度出发,就是丰富的特征组成有利于模型的学习。既然如此,也就是说节点特征+边特征>单一的特征。也就是最近两年来部分研究工作的做法了。

实现的一些细节

  • 官方的一些实现细节:

    模块权重初始化层数bias
    FC-caffeweight——"xavier”(lr_mult=1, decay_mult=1);bias——“constant”(value=0,lr_mult=2, decay_mult=0)F.dropout(F.leaky_relu(self.dense1(out),negative_slope=0.33),p=0.5)torch.nn.Linear——>(256,128,30,2)3True
    E2E-CONVweight——"xavier”(lr_mult=1, decay_mult=1);bias——“constant”(value=0,lr_mult=2, decay_mult=0)F.leaky_relu(self.e2econv1(x),negative_slope=0.33)E2EBlock(1,32,example,bias=True)-E2EBlock(32,64,example,bias=True)2True
    E2N-CONVweight——"xavier”(lr_mult=1, decay_mult=1);bias——“constant”(value=0,lr_mult=2, decay_mult=0)F.leaky_relu(self.E2N(out),negative_slope=0.33)torch.nn.Conv2d(64,1,(1,self.d))1True
    N2G-CONVweight——"xavier”(lr_mult=1, decay_mult=1);bias——“constant”(value=0,lr_mult=2, decay_mult=0)F.dropout(F.leaky_relu(self.N2G(out),negative_slope=0.33),p=0.5)torch.nn.Conv2d(1,256,(self.d,1))1True
    Pytorchxavier_uniform_(self.u_conv.weight, gain=1.0), torch.nn.init.constant_(self.g_conv.bias, 0)F.dropout(F.leaky_relu(self.N2G(out),negative_slope=0.33),p=0.5)
out = F.leaky_relu(self.e2econv1(x),negative_slope=0.33)
out = F.leaky_relu(self.e2econv2(out),negative_slope=0.33) 
out = F.leaky_relu(self.E2N(out),negative_slope=0.33)
out = F.dropout(F.leaky_relu(self.N2G(out),negative_slope=0.33),p=0.5)
out = out.view(out.size(0), -1)
out = F.dropout(F.leaky_relu(self.dense1(out),negative_slope=0.33),p=0.5)
out = F.dropout(F.leaky_relu(self.dense2(out),negative_slope=0.33),p=0.5)
out = F.leaky_relu(self.dense3(out),negative_slope=0.33)

权重初始化

  • Caffe 代码
from caffe import layers as L
from caffe import params as Pdef full_connect(bottom, num_output,weight_filler=dict(type="xavier"),bias_filler=dict(type="constant", value=0),param=[dict(lr_mult=1, decay_mult=1),  # weight learning rate parametersdict(lr_mult=2, decay_mult=0)]  # bias learning rate parameters):fc = L.InnerProduct(bottom, num_output=num_output,weight_filler=weight_filler,bias_filler=bias_filler,param=param)return fcdef e2n_conv(bottom, num_output, kernel_h, kernel_w,weight_filler=dict(type="xavier"),bias_filler=dict(type="constant", value=0),param=[dict(lr_mult=1, decay_mult=1),  # weight learning rate parametersdict(lr_mult=2, decay_mult=0)]  # bias learning rate parameters):"""Edge-to-Node convolution.This is implemented only as a 1 x d rather than combined with d x 1,since our tests did not show a consistent improvement with them combined."""# 1xL convolution.conv_1xd = L.Convolution(bottom, num_output=num_output, stride=1,kernel_h=1, kernel_w=kernel_w,weight_filler=weight_filler, bias_filler=bias_filler,param=param)return conv_1xddef e2e_conv(bottom, num_output, kernel_h, kernel_w,weight_filler=dict(type="xavier"),bias_filler=dict(type="constant", value=0),param=[dict(lr_mult=1, decay_mult=1),  # weight learning rate parametersdict(lr_mult=2, decay_mult=0)]  # bias learning rate parameters):"""Implementation of the e2e filter."""# kernel_h x 1 convolution.conv_dx1 = L.Convolution(bottom, num_output=num_output, stride=1,kernel_h=kernel_h, kernel_w=1,weight_filler=weight_filler, bias_filler=bias_filler,param=param)# 1 x kernel_w convolution.conv_1xd = L.Convolution(bottom, num_output=num_output, stride=1,kernel_h=1, kernel_w=kernel_w,weight_filler=weight_filler, bias_filler=bias_filler,param=param)# Concat all the responses together.# For dx1, produce a dxd matrix.concat_dx1_dxd = L.Concat(*[conv_dx1] * kernel_w, concat_param=dict(axis=2))# For 1xd, produce a dxd matrix.concat_1xd_dxd = L.Concat(*[conv_1xd] * kernel_h, concat_param=dict(axis=3))# Sum the dxd matrices together element-wise.sum_dxd = L.Eltwise(concat_dx1_dxd, concat_1xd_dxd, eltwise_param=dict(operation=P.Eltwise.SUM))return sum_dxd
  • Pytorch代码
class BrainNetCNN(torch.nn.Module):def __init__(self, example, num_classes=10):super(BrainNetCNN, self).__init__()self.in_planes = example.size(1)self.d = example.size(3)self.e2econv1 = E2EBlock(1,32,example,bias=True)self.e2econv2 = E2EBlock(32,64,example,bias=True)self.E2N = torch.nn.Conv2d(64,1,(1,self.d))self.N2G = torch.nn.Conv2d(1,256,(self.d,1))self.dense1 = torch.nn.Linear(256,128)self.dense2 = torch.nn.Linear(128,30)self.dense3 = torch.nn.Linear(30,2)def forward(self, x):out = F.leaky_relu(self.e2econv1(x),negative_slope=0.33)out = F.leaky_relu(self.e2econv2(out),negative_slope=0.33) out = F.leaky_relu(self.E2N(out),negative_slope=0.33)out = F.dropout(F.leaky_relu(self.N2G(out),negative_slope=0.33),p=0.5)out = out.view(out.size(0), -1)out = F.dropout(F.leaky_relu(self.dense1(out),negative_slope=0.33),p=0.5)out = F.dropout(F.leaky_relu(self.dense2(out),negative_slope=0.33),p=0.5)out = F.leaky_relu(self.dense3(out),negative_slope=0.33)return outnet = BrainNetCNN(trainset.X)if use_cuda:net = net.cuda()#net = torch.nn.DataParallel(net, device_ids=[0])cudnn.benchmark = Truedef init_weights_he(m):#https://keras.io/initializers/#he_uniformprint(m)if type(m) == torch.nn.Linear:fan_in = net.dense1.in_featureshe_lim = np.sqrt(6) / fan_inm.weight.data.uniform_(-he_lim,he_lim)
#        print(m.weight)net.apply(init_weights_he)

推荐及下篇笔记

  1. 本笔记推荐的阅读清单:

    • Convolutional Neural Networks for Adjacency Matrices:https://github.com/jeremykawahara/ann4brains?tab=readme-ov-file
    • 论文原文
  2. 下篇笔记:【区域脑图论文笔记】BrainNet:Inference of brain network topology using Machine Learning

这篇关于【区域脑图论文笔记】BrainNetCNN:第一个专门为脑网络连接体数据设计的深度学习框架的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/997792

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

不懂推荐算法也能设计推荐系统

本文以商业化应用推荐为例,告诉我们不懂推荐算法的产品,也能从产品侧出发, 设计出一款不错的推荐系统。 相信很多新手产品,看到算法二字,多是懵圈的。 什么排序算法、最短路径等都是相对传统的算法(注:传统是指科班出身的产品都会接触过)。但对于推荐算法,多数产品对着网上搜到的资源,都会无从下手。特别当某些推荐算法 和 “AI”扯上关系后,更是加大了理解的难度。 但,不了解推荐算法,就无法做推荐系

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06