论文翻译:2023_THLNet: two-stage heterogeneous lightweight network for monaural speech enhancement...

本文主要是介绍论文翻译:2023_THLNet: two-stage heterogeneous lightweight network for monaural speech enhancement...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

论文地址:THLNet: 用于单耳语音增强的两级异构轻量级网络

代码:https://github.com/dangf15/THLNet

引用格式:Dang F, Hu Q, Zhang P. THLNet: two-stage heterogeneous lightweight network for monaural speech enhancement[J]. arXiv preprint arXiv:2301.07939, 2023.

博客作者:凌逆战 (引用请注明出处)


摘要

  本文提出了一种用于单声道语音增强的两阶段异构轻量级网络。具体地,本文设计了一个两阶段的框架,包括粗粒度的全频带掩码估计阶段和细粒度的低频细化阶段。本文使用一种新的可学习复数矩形带宽(learnable complex-valued rectangular bandwidth,LCRB)滤波器组作为紧凑特征提取器,而不是使用手工设计的实值滤波器。此外,考虑到两阶段任务各自的特点,我们使用了异构结构,即U型子网络作为CoarseNet的主干,单尺度子网络作为FineNet的主干。在VoiceBank + DEMAND和DNS数据集上进行了实验。实验结果表明,所提方法在保持相对较小的模型尺寸和较低的计算复杂度的同时,性能优于当前最先进的方法。

索引项:语音增强,两阶段异构结构,轻量化模型,可学习复数矩形带宽滤波器组

1  引言

  语音增强(Speech enhancement, SE)是一种旨在通过去除噪声[1]来提高带噪语音质量和可懂度的语音处理方法。它通常用作自动语音识别、助听器和电信的前端任务。近年来,深度神经网络(deep neural networks, DNNs)在社会工程研究中的应用受到越来越多的关注。

  许多基于DNN的方法[2,3,4,5]在SE任务中取得了令人印象深刻的性能,但它们的性能提高伴随着模型开销的增加。因此,最先进的(SOTA)模型通常太大,无法部署在具有实际应用程序的设备上。最近提出了几种方法,通过使用紧凑的特征来解决这个问题。在RNNoise[6]和PercepNet[7]中,分别使用bark滤波器组和三角滤波器组对频谱进行压缩。这些滤波器组保留了对人类感知更重要的频域信息,有效降低了输入特征的维度,从而降低了神经网络模型的复杂性。基于PercepNet的DeepFilterNet[8]算法首先利用ERB尺度增益增强频谱包络,然后利用DeepFilter[9]进一步增强初步增强频谱的周期部分。然而,基于紧凑特征的工作通常使用专家手工设计的滤波器来导出紧凑的实值特征,没有利用相位信息。

  多阶段学习(multi-stage learning, MSL)遵循"分而治之"的思想,将一项困难的任务分解为多个简单的子问题,以增量方式获得更好的解,在许多领域表现出比单阶段方法更好的性能,如图像修复[10]和图像去噪[11]。最近,MSL也被应用于语音前端任务,取得了很好的结果[4,12,13]。虽然这些方法也将任务划分为更容易建模的子任务,并取得了良好的性能,但这些模型的每个阶段本质上都是在高维STFT特征上工作的,导致了大量的参数和计算工作量。

  在此背景下,本文研究对设计有效的轻量级SE框架有以下贡献:

  • 本文提出一种结合两阶段任务和轻量级方法的框架,能够以较低的模型开销实现与SOTA方法相当的性能。具体而言,本文设计了一个两阶段模型,包括粗粒度的全频带掩模估计阶段细粒度的低频细化阶段。本文使用一种新的可学习复数矩形带宽(LCRB)滤波器组作为紧凑特征提取器,而不是使用手工设计的实值滤波器。
  • 采用互补特征处理的思想,并考虑所提出的两阶段任务各自的特点,使用U型子网络作为CoarseNet的主干,使用单尺度子网络作为FineNet的主干
  • 为了验证所提方法的优越性,在两个公开测试集上将所提模型与单阶段backbone模型和其他SOTA系统进行了比较。实验结果表明,该模型在大大减少参数和计算量的情况下取得了与单阶段backbone模型相当的效果,并优于SOTA模型。

2  提出的算法

我们提出的系统示意图如图1所示。它由一个LCRB滤波器组和两个子网络组成。

图1:拟议系统概述

在第一阶段,CoarseNet将LCRB尺度下的紧凑特征作为输入,预测一个LCRB尺度下的复数掩码$\tilde{M} ^{LCRB}$。然后,将$\tilde{M} ^{LCRB}$通过LCBR滤波器组的band splitting module得到与原始频谱特征(记为$\tilde{M} ^{c}$)相同尺寸的Mask;

在第二阶段,我们使用FineNet进一步细化频谱的低频部分,将原始语音复数谱的低频部分和第一阶段的增强复数频谱的低频部分提供给FineNet。FineNet 输出的是低频部分的补偿复数掩码$\tilde{M} ^{f}$。最终的估计$\tilde{S} ^{f}$是通过将预测补偿与CoarseNet输出$\tilde{S} ^{c}$相加得到的。

2.1  LCRB滤波器组

  采用一种新型的LCRB滤波器组提取压缩特征。LCRB滤波器组 是 压缩FFT频谱以获取紧凑高效特征 的 band merging module 和用于将压缩后的特征恢复为FFT频谱 的band splitting module组成。

频带合并模块(BM,band merging module)中,首先将FFT频谱$X\in R^{2*F*T}$划分为P个子频带,其中每个子频带$X_p$包含G = F/P个频点,通过频带合并操作将每个子频带中的频点数量压缩为1:

$$公式1:\begin{gathered}
X_p=X[:, G *(p-1)+1: G * p,:], p=1 \cdots P \\
X_p^{\prime}=L C R B_{\text {merge }}\left(X_p\right), p=1 \cdots P
\end{gathered}$$

其中$X_p\in R^{2*G*T}$和$X'_p\in R^{2*1*T}$。将$P$个压缩子带特征$X'_p$连接在一起后,得到一个紧凑特征$X_{LCRB}\in R^{2*P*T}$,作为CoarseNet编码器的输入。

频带分隔模块(BS,band splitting module)是 band merging module的逆运算。band splitting module 将粗糙网络解码器预测的$\tilde{M} ^{LCRB}$ scale mask 恢复为傅里叶频谱掩码$\tilde{M} ^{c}$。将每个子带掩码的频点数扩展为G:

$$公式2:\begin{gathered}
\widetilde{M}_p^{L C R B}=\widetilde{M}^{L C R B}[:, p,:], p=1 \cdots P \\
\widetilde{M}_p^c=L C R B_{s p l i t}\left(\widetilde{M}_p^{L C R B}\right), p=1 \cdots P
\end{gathered}$$

其中$\tilde{M} ^{LCRB}\in R^{2*P*T}$,$\tilde{M}_p ^{LCRB}\in R^{2*1*T}$和$\tilde{M}_p ^c\in R^{2*G*T}$。将P子带掩模$\tilde{M}_p ^c$级联后,得到最终的傅里叶频谱掩模$\tilde{M} ^c$。

  我们利用PyTorch[14]来实现我们的模块。使用复数分组Conv1d来实现LCRB滤波器组。LCRB滤波器组的band merging模块如图2所示。由于LCRB滤波器组的band splitting module和band merging module具有相同的结构,只需要修改group real (imag) Conv1d的输入输出通道数。

图2:LCRB滤波器组带合并模块示意图

2.2  互补特征处理

  现有的多阶段语音增强方法通常在每个阶段使用相同的结构,大致可以分为两类:1)U型结构和 2) Single-scale 结构。U型网络[4,15,16]首先逐步将输入映射到低分辨率表示,然后逐步应用逆映射来恢复原始分辨率。尽管这些模型有效地编码了多尺度信息,但由于反复使用下采样操作,它们往往会牺牲空间细节。相比之下,在单尺度特征管道上操作的方法在生成具有精细谐波结构的谱方面是可靠的[5,17]。然而,由于有限的感受野或难以对长序列进行建模,它们的输出在语义上不太鲁棒。这表明了上述架构设计选择的内在局限性,它们只能生成空间准确或上下文可靠的输出,而不能同时生成两者。受上述问题的启发,本文采用互补特征处理的思想,并考虑了所提出的两阶段任务各自的特点,U型子网络用于CoarseNet,单尺度子网络用于FineNet

  图3(a)和(b)分别是我们使用的U型子网络和单尺度子网络。对于U型子网络,我们将由U型编解码器和多个两路LSTM块组成的DPCRN[15]修改为轻量级版本作为backbone网络。对于单尺度子网络,将DPT-FSNet[5](简称DFNet)修改为轻量级版本作为backbone,该网络由一个单尺度扩张卷积编解码器和多个双路径transformer块组成。

图3 (a) U型子网示意图。(b)单尺度子网络

2.3  损失函数

我们联合训练CoarseNet和FineNet,总损失如下:

$$公式3:L=L_c+\lambda L_f$$

其中λ为两种损失之间的加权系数,定义CoarseNet和FineNet的损失函数Lc、Lf为:

$$公式4:\begin{matrix}
L_c=\alpha L_c^{RI}+(1-\alpha)L_c^{Mag}\\
L_f=\alpha L_f^{RI}+(1-\alpha)L_f^{Mag}
\end{matrix}$$

其中$k$取$\{c, f\}$的值(即阶段标签)。根据经验,我们发现$\alpha= 0.5$和$\lambda= 1$足以满足我们的评估。

3  实验

3.1  数据集

  使用小规模和大规模数据集来评估所提出的模型。对于小规模数据集,我们使用了在SE研究中广泛使用的VoiceBank+ DEMAND数据集[18]。该数据集包含预混合的带噪语音和配对的纯净语音。纯净语音数据集是从VoiceBank语料库[19]中选择的,其中训练集包含来自28个说话人的11572条话语,测试集包含来自2个说话人的872条话语。对于噪声集,训练集包含40种不同的噪声条件,10种类型的噪声(8种来自需求[20],2种人为生成),信噪比分别为0、5、10和15 dB。测试集包含20种不同的噪声条件,其中5种类型的未见噪声来自DEMAND数据库,信噪比分别为2.5,7.5,12.5,17.5 dB。

  对于大规模数据集,我们使用DNS数据集[21]。DNS数据集包含来自2150个说话人的500多个小时的纯净剪辑和来自150个类的180多个小时的噪音剪辑。在训练阶段,通过动态混合来模拟噪声-纯净对。具体来说,在每个训练周期开始之前,将50%的纯净语音与[22]提供的随机选择的房间脉冲响应(RIR)混合。通过将纯净的语音(其中50%是混响)和信噪比在-5到20 dB之间的随机噪声混合,我们生成了语音-噪声混合物。为了进行评估,我们使用了第3次DNS挑战的盲测试集,包括有和没有混响的600段音频录音。

3.2  实验步骤

  所有话语都以16khz采样,并分块到4秒以保持训练稳定性。该算法采用32 ms的Hanning窗,相邻帧重叠率为50%,并采用512点FFT(快速傅里叶变换)。我们移除了频谱中的直流分量,得到了256-D(维数)的谱特征用于模型输入。输入CoarseNet的紧凑特征的箱子数P和输入FineNet的低频特征的箱子数Q分别设置为32和128。

DPCRN:我们使用[15]中的配置来重新实现DPCRN,作为单阶段Ushaped网络的基线,称为DPCRN(base)。对于改进的轻量级版本(记为DPCRN),编码器中卷积层的通道数为64,64,64,在频率和时间维度上分别设置核大小和步长为(5,2)、(3,2)、(3,2)和(2,1)、(2,1)、(1,1),双路径LSTM的隐藏大小为64。

DFNet:我们使用[5]中的配置重新实现DFNet,并进行一些修改以满足因果设置,作为单阶段、单尺度网络的基线,称为DFNet(base)。使用了因果卷积、GRU和注意力。此外,在inter transformer模块(建模子带时间信息)中,删除了注意力,只保留了GRU。对于修改后的轻量级版本(记为DFNet),与DFNet(base)的区别在于T-F频谱的特征图C的数量被设置为48,并删除了编解码器中的密集连接。

  在训练阶段,对所提出的模型进行100个epoch的训练。我们使用Adam[23]作为优化器,并使用最大l2范数为5的梯度裁剪来避免梯度爆炸。初始学习率(LR)设置为0.0004,然后每两个周期衰减0.98倍。本文的目标是设计轻量级的实时在线模型,其中模型中的所有操作(如卷积和LSTM)都是因果关系。

3.3  评估度量

  对于VoiceBank+DEMAND数据集,使用宽带PESQ(记为WB-PESQ)、STOI、CSIG、CBAK和COVL作为评估指标。对于DNS数据集,采用DNSMOS P. 835[24]预测的主观结果。将3个预测得分分别记为nOVL、nSIG、nBAK,分别预测语音失真的总体主观得分、语音失真的质量得分和去噪的质量得分。

4  评估结果

4.1  烧蚀分析

表1:VoiceBank+DEMAND数据集上的消融分析结果

表2:DNS数据集的消融分析结果

  表1和表2分别给出了在VoiceBank+DEMAND数据集和DNS数据集上的消融实验结果。将这些模型分为3类:1)单阶段模型,即DFNet(base)和DPCRN(base);2)两阶段同质模型,即2DFNet和2DPCRN;3)两阶段异构模型,即DFNet+DPCRN和DPCRN+DFNet。每个阶段的子模型进一步分为单尺度子网络和U型子网络,简称S和U,如表2所示。从表1和表2可以得到以下观察结果。

  • 通过比较2DFNet/2DPCRN和DFNet(base)/DPCRN (base)可以看出,将任务分解为两个阶段并使用两个结构相同的轻量级子网络,在使用相同拓扑结构的单阶段模型上的性能下降是可以接受的,但大大减少了乘累加操作的数量。
  • 通过比较DFNet+DPCRN/DPCRN+DFNet和2DFNet/ 2DPCRN,可以看出使用异构子网络的两个阶段的性能比使用同构子网络的两个阶段有明显的提高。
  • 通过对比DFNet+DPCRN/DPCRN+DFNet和DFNet(base) /DPCRN(base)可知,当两阶段模型使用异构子网络时,可以取得与最佳单阶段基线模型(DFNet(base))相当的性能,但大大减少了乘累加操作的次数。

  表现最好的两阶段模型是DPCRN+DFNet,这可能是因为第一阶段模型建模的是粗粒度的全频带信息,即主要需要建模整个频谱的上下文信息,这使得DPCRN更适合UNet结构的多尺度特性。第二阶段主要发挥细粒度低频频谱恢复的作用,使用不涉及下采样(即不失真谐波信息)的单尺度子网络DFNet更为合适。与DFNet(base)相比,DPCRN+DFNet在客观指标WB-PESQ、STOI、SI-SDR和主观指标nSIG、nBAK、nOVL上均取得了相当的分数,而参数数量(Params)和mac分别是DFNet(base)的75.3%和19.3%。

4.2  与其他SOTA因果方法的比较

  表3显示了我们提出的模型与其他SOTA因果系统在VoiceBank+DEMAND数据集上的比较。从表中可以看出,在这些先进的因果系统中,THLNet在WB-PESQ、STOI、CSIG、CBAK和COVL中得分最高,参数和mac相对较小。

表3:VoiceBank+DEMAND数据集上与其他最先进的因果系统的比较

5  讨论

图4:使用所提出模型的增强结果的说明。

(a)干净的发音的语谱图。(b)嘈杂的声音

(c) CoarseNet的增强表达。(d) THLNet增强的话语

  从图4可以看出,CoarseNet可以有效地抑制噪声成分,并恢复数频谱高频部分的主要几何结构。例如,CoarseNet在背景噪声条件下取得了良好的性能,如图4 (b)和(c)中红色标记区域所示,并恢复了频谱高频部分的主要几何结构,如图4 (a)和(c)中黄色标记区域所示。但是,CoarseNet在处理频谱低频部分谐波结构细节方面表现较差。幸运的是,FineNet可以有效地恢复低频谐波结构,如图4 (c)和(d)中的绿色标记区域所示。通过使用CoarseNet和FineNet两阶段处理,得到了质量相当好的语音。

6  结论

  本文提出THLNet,一种用于单声道语音增强的两阶段异构轻量级网络。该网络由一个LCRB滤波器组和两个基于掩码的子网络CoarseNet和FineNet组成,分别负责粗粒度的全频带掩码估计和细粒度的低频细化。我们使用一种新颖的LCRB滤波器组作为紧凑特征提取器。进一步,考虑到所提两阶段任务的不同特点,使用异构结构,即Ushaped子网络(DPCRN)作为CoarseNet的主干,使用单尺度子网络(DFNet)作为FineNet的主干,进一步提升了所提算法的性能。在VoiceBank + DEMAND数据集上的实验结果表明,该方法优于当前SOTA方法,同时保持了相对较小的模型大小和较低的计算复杂度。

7  参考文献

[1] Philipos C Loizou, Speech enhancement: theory and practice, CRC press, 2013.

[2] Ke Tan and DeLiang Wang, “Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 380–390, 2019.

[3] Alexandre D´efossez, Gabriel Synnaeve, and Yossi Adi, “Real Time Speech Enhancement in the Waveform Domain,” in Proc. Interspeech 2020, 2020, pp. 3291–3295.

[4] Andong Li, Wenzhe Liu, Chengshi Zheng, Cunhang Fan, and Xiaodong Li, “Two heads are better than one: A two-stage  complex spectral mapping approach for monaural speech enhancement,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 29, pp. 1829–1843, 2021.

[5] Feng Dang, Hangting Chen, and Pengyuan Zhang, “Dpt-fsnet: Dual-path transformer based full-band and sub-band fusion  network for speech enhancement,” in ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 6857–6861.

[6] Jean-Marc Valin, “A hybrid dsp/deep learning approach to realtime full-band speech enhancement,” in 2018 IEEE 20th international workshop on multimedia signal processing (MMSP). IEEE, 2018, pp. 1–5.

[7] Jean-Marc Valin, Umut Isik, Neerad Phansalkar, Ritwik Giri, Karim Helwani, and Arvindh Krishnaswamy, “A PerceptuallyMotivated Approach for Low-Complexity, Real-Time Enhancement of Fullband Speech,” in Proc. Interspeech 2020, 2020, pp. 2482–2486.

[8] Hendrik Schroter, Alberto N Escalante-B, Tobias Rosenkranz,  and Andreas Maier, “Deepfilternet: A low complexity speech  enhancement framework for full-band audio based on deep filtering,” in ICASSP 2022-2022 IEEE International Conference  on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 7407–7411.

[9] Wolfgang Mack and Emanuel AP Habets, “Deep filtering: Signal extraction and reconstruction using complex timefrequency filters,” IEEE Signal Processing Letters, vol. 27, pp. 61–65, 2019.

[10] Mohamed Abbas Hedjazi and Yakup Genc, “Efficient textureaware multi-gan for image inpainting,” Knowledge-Based Systems, vol. 217, pp. 106789, 2021.

[11] Xia Li, Jianlong Wu, Zhouchen Lin, Hong Liu, and Hongbin Zha, “Recurrent squeeze-and-excitation context aggregation  net for single image deraining,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 254– 269.

[12] Tian Gao, Jun Du, Li-Rong Dai, and Chin-Hui Lee, “SNRBased Progressive Learning of Deep Neural Network for Speech Enhancement,” in Proc. Interspeech 2016, 2016, pp. 3713–3717.

[13] Xiang Hao, Xiangdong Su, Shixue Wen, Zhiyu Wang, Yiqian Pan, Feilong Bao, and Wei Chen, “Masking and inpainting: A two-stage speech enhancement approach for low snr and  non-stationary noise,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 6959–6963.

[14] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, and Adam Lerer, “Automatic differentiation  in pytorch,” 2017.

[15] Xiaohuai Le, Hongsheng Chen, Kai Chen, and Jing Lu, “Dpcrn: Dual-path convolution recurrent network  for single channel speech enhancement,” arXiv preprint  arXiv:2107.05429, 2021.

[16] Shubo Lv, Yihui Fu, Mengtao Xing, Jiayao Sun, Lei Xie, Jun Huang, Yannan Wang, and Tao Yu, “S-dccrn: Super wide  band dccrn with learnable complex feature for speech enhancement,” in ICASSP 2022-2022 IEEE International Conference  on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 7767–7771.

[17] Xiang Hao, Xiangdong Su, Radu Horaud, and Xiaofei Li, “Fullsubnet: A full-band and sub-band fusion model for realtime single-channel speech enhancement,” in ICASSP 2021- 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp. 6633–6637.

[18] Cassia Valentini-Botinhao, Xin Wang, Shinji Takaki, and Junichi Yamagishi, “Investigating rnn-based speech enhancement methods for noise-robust text-to-speech.,” in SSW, 2016,  pp. 146–152.

[19] Christophe Veaux, Junichi Yamagishi, and Simon King, “The  voice bank corpus: Design, collection and data analysis of a  large regional accent speech database,” in 2013 international  conference oriental COCOSDA held jointly with 2013 conference on Asian spoken language research and evaluation (OCOCOSDA/CASLRE). IEEE, 2013, pp. 1–4.

[20] Joachim Thiemann, Nobutaka Ito, and Emmanuel Vincent, “The diverse environments multi-channel acoustic noise  database (demand): A database of multichannel environmental noise recordings,” in Proceedings of Meetings on Acoustics ICA2013. Acoustical Society of America, 2013, vol. 19, p. 035081.

[21] Chandan K.A. Reddy, Vishak Gopal, Ross Cutler, et al., “The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Testing Framework, and Challenge Results,” in Proc. Interspeech 2020, 2020, pp. 2492–2496.

[22] Chandan KA Reddy, Dubey, et al., “Icassp 2021 deep noise  suppression challenge,” in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp. 6623–6627.

[23] Diederik P Kingma and Jimmy Ba, “Adam: A method for  stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014.

[24] Chandan KA Reddy, Vishak Gopal, and Ross Cutler, “Dnsmos p. 835: A non-intrusive perceptual objective speech quality metric to evaluate noise suppressors,” in ICASSP 2022- 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 886–890.

[25] Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, and Lei Xie, “DCCRN: Deep Complex Convolution Recurrent Network for PhaseAware Speech Enhancement,” in Proc. Interspeech 2020, 2020, pp. 2472–2476.

[26] Jun Chen, Zilin Wang, Deyi Tuo, Zhiyong Wu, Shiyin Kang,  and Helen Meng, “Fullsubnet+: Channel attention fullsubnet with complex spectrograms for speech enhancement,” in ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 7857–7861.

这篇关于论文翻译:2023_THLNet: two-stage heterogeneous lightweight network for monaural speech enhancement...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/704468

相关文章

poj 2349 Arctic Network uva 10369(prim or kruscal最小生成树)

题目很麻烦,因为不熟悉最小生成树的算法调试了好久。 感觉网上的题目解释都没说得很清楚,不适合新手。自己写一个。 题意:给你点的坐标,然后两点间可以有两种方式来通信:第一种是卫星通信,第二种是无线电通信。 卫星通信:任何两个有卫星频道的点间都可以直接建立连接,与点间的距离无关; 无线电通信:两个点之间的距离不能超过D,无线电收发器的功率越大,D越大,越昂贵。 计算无线电收发器D

AI hospital 论文Idea

一、Benchmarking Large Language Models on Communicative Medical Coaching: A Dataset and a Novel System论文地址含代码 大多数现有模型和工具主要迎合以患者为中心的服务。这项工作深入探讨了LLMs在提高医疗专业人员的沟通能力。目标是构建一个模拟实践环境,人类医生(即医学学习者)可以在其中与患者代理进行医学

论文翻译:arxiv-2024 Benchmark Data Contamination of Large Language Models: A Survey

Benchmark Data Contamination of Large Language Models: A Survey https://arxiv.org/abs/2406.04244 大规模语言模型的基准数据污染:一项综述 文章目录 大规模语言模型的基准数据污染:一项综述摘要1 引言 摘要 大规模语言模型(LLMs),如GPT-4、Claude-3和Gemini的快

论文阅读笔记: Segment Anything

文章目录 Segment Anything摘要引言任务模型数据引擎数据集负责任的人工智能 Segment Anything Model图像编码器提示编码器mask解码器解决歧义损失和训练 Segment Anything 论文地址: https://arxiv.org/abs/2304.02643 代码地址:https://github.com/facebookresear

CSP 2023 提高级第一轮 CSP-S 2023初试题 完善程序第二题解析 未完

一、题目阅读 (最大值之和)给定整数序列 a0,⋯,an−1,求该序列所有非空连续子序列的最大值之和。上述参数满足 1≤n≤105 和 1≤ai≤108。 一个序列的非空连续子序列可以用两个下标 ll 和 rr(其中0≤l≤r<n0≤l≤r<n)表示,对应的序列为 al,al+1,⋯,ar​。两个非空连续子序列不同,当且仅当下标不同。 例如,当原序列为 [1,2,1,2] 时,要计算子序列 [

论文翻译:ICLR-2024 PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS https://openreview.net/forum?id=KS8mIvetg2 验证测试集污染在黑盒语言模型中 文章目录 验证测试集污染在黑盒语言模型中摘要1 引言 摘要 大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已

OmniGlue论文详解(特征匹配)

OmniGlue论文详解(特征匹配) 摘要1. 引言2. 相关工作2.1. 广义局部特征匹配2.2. 稀疏可学习匹配2.3. 半稠密可学习匹配2.4. 与其他图像表示匹配 3. OmniGlue3.1. 模型概述3.2. OmniGlue 细节3.2.1. 特征提取3.2.2. 利用DINOv2构建图形。3.2.3. 信息传播与新的指导3.2.4. 匹配层和损失函数3.2.5. 与Super

BERT 论文逐段精读【论文精读】

BERT: 近 3 年 NLP 最火 CV: 大数据集上的训练好的 NN 模型,提升 CV 任务的性能 —— ImageNet 的 CNN 模型 NLP: BERT 简化了 NLP 任务的训练,提升了 NLP 任务的性能 BERT 如何站在巨人的肩膀上的?使用了哪些 NLP 已有的技术和思想?哪些是 BERT 的创新? 1标题 + 作者 BERT: Pre-trainin

HNU-2023电路与电子学-实验3

写在前面: 一、实验目的 1.了解简易模型机的内部结构和工作原理。 2.分析模型机的功能,设计 8 重 3-1 多路复用器。 3.分析模型机的功能,设计 8 重 2-1 多路复用器。 4.分析模型机的工作原理,设计模型机控制信号产生逻辑。 二、实验内容 1.用 VERILOG 语言设计模型机的 8 重 3-1 多路复用器; 2.用 VERILOG 语言设计模型机的 8 重 2-1 多

[论文笔记]LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

引言 今天带来第一篇量化论文LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale笔记。 为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。 大语言模型已被广泛采用,但推理时需要大量的GPU内存。我们开发了一种Int8矩阵乘法的过程,用于Transformer中的前馈和注意力投影层,这可以将推理所需