paraformer专题

Funsound语音识别技术之 基于paraformer的自定义命令(唤醒)词识别

免费语音识别转写(优于讯飞):www.funsound.cn 前言 Paraformer在声学后验上通过greedy search得到语音识别结果,对于自定义命令(唤醒)词识别,肯定还得走asr模型。对此我们可以在paraformer上为每个命令词构建模板进行命令匹配,最终结果远远优于科大讯飞语音控制sdk结果。 思路 大致思路如图,例如给”前翻页“命令制作模板,只需分析在解码后的声学后验

基于Paraformer的alpha-token强制对齐

1. 基本原理 CIF 作为Parafoemr的核心模块,用于预测字数和生成声学向量,从而实现了单轮非自回归解码。其中字数的预测主要通过encoder输出系数alpha的累计得分,满足通关阈值β=1.0即可产生一个token,其中alpha曲线在一定程度上呈现着vad效果,或者依次进行断句。 2. alpha-token 强制对齐 cif的时间戳对齐采用peak(通关方式)得到,这里我们