语音信号处理2:数字滤波器 Digital Filters

2024-09-01 00:32

本文主要是介绍语音信号处理2:数字滤波器 Digital Filters,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

参考:
The Scientist and Engineer’s Guide to Digital Signal Processing
Multimedia Signal Processing: Theory and Applications in Speech, Music and Communications

Classification

欲知细节,先识大体,看看数字滤波器都有哪些种类吧。
The Scientist and Engineer’s Guide to Digital Signal Processing 中是这样划分的:
filters classification
解释一下上面这张图:
首先,滤波器根据其用途被分为了三类:用在时域中、用在频域中和自定义。当信息被编码在信号的波形中时,使用时域的滤波器去进行诸如平滑、去偏置或整形等处理。而当信息被包含在信号的幅值、频率或者相位中时,使用频域的滤波器去提取某个频段以进行分析。自定义滤波器则用来做一些更加特殊而精巧的处理,比如反卷积(deconvolution)。
而根据滤波器的实现方式又有两种划分:通过卷积实现 或者 通过递归实现。通过卷积实现的滤波器就是FIR滤波器,通过递归实现的滤波器就是IIR滤波器。

The use of a digital filter can be broken into three categories: time domain, frequency domain and custom. As previously described, time domain filters are used when the information is encoded in the shape of the signal’s waveform. Time domain filtering is used for such actions as: smoothing, DC removal, waveform shaping, etc. In contrast, frequency domain filters are used when the information is contained in the amplitude, frequency, and phase of the component sinusoids. The goal of these filters is to separate one band of frequencies from another. Custom filters are used when a special action is required by the filter, something more elaborate than the four basic responses (high-pass, low-pass, band-pass and band-reject).
Digital filters can be implemented in two ways, by convolution (also called finite impulse response or FIR) and by recursion (also called infinite impulse response or IIR).

Multimedia Signal Processing: Theory and Applications in Speech, Music and Communications 中的划分方法则是这样的:

Depending on the form of the filter equation and the structure of implementation, filters may be broadly classified into the following classes:
(1)Linear filters versus nonlinear filters.
(2)Time-invariant filters versus time-varying filters.
(3)Adaptive filters versus non-adaptive filters.
(4)Recursive versus non-recursive filters.
(5)Direct-form, cascade-form, parallel-form and lattice structures.

前3点略去不表,第4点其实也就是根据实现方式来划分为FIR和IIR两种,第5点讲的是滤波器的结构,有直接型、级联型、并行型和lattice型。

最常用的分类还是分为FIR和IIR。

BTW,总结一下各种名称:
FIR滤波器,又名非递归滤波器(non-recursive filter)、全零点滤波器(all-zero filter)、前馈滤波器( feed-forward filter)或者滑动平均滤波器(moving average filter,MA filter,通常见于统计信号处理相关的文献中 )。
IIR滤波器,又名递归滤波器(recursive filter)、极点-零点滤波器(pole-zero filter)、反馈滤波器(feedback filter)或者自回归移动平均滤波器(auto-regressive-moving-average filter,ARMA filter,通常见于统计信号处理相关的文献中 )。还有一个比较常见的名词——双二阶滤波器(biquad filter)指的是二阶的IIR滤波器。

Alternative Methods for Description of Filters

要想学习某个东西,肯定要知道如何去描述它。那么如何描述一个滤波器?有四种方式:

1.时域,输入信号与输出信号的关系,差分方程
举个栗子:某个一阶滤波器
y ( m ) = a y ( m − 1 ) + x ( m ) y(m) = ay(m-1)+x(m) y(m)=ay(m1)+x(m)
其中,y(m)是滤波器输出,x(m)是滤波器输入,a是滤波器系数。

2.冲激响应形式,用滤波器对冲激信号的响应来描述
上面栗子中的滤波器 to a discrete-time impulse input at at m=0 又可以表示为
y ( m ) = a m y(m) = a^m y(m)=am

Impulse response is useful because: (i) any signal can be viewed as the sum of a number of shifted and scaled impulses, hence the response a linear filter to a signal is the sum of the responses to all the impulses that constitute the signal, (ii) an impulse input contains all frequencies with equal energy, and hence it excites a filter at all frequencies and (iii) impulse response and frequency response are Fourier transform pairs.

3.传递函数形式,零点和极点
还是上面的栗子:
H ( z ) = 1 / ( 1 − a z − 1 ) H(z)=1/(1-az^{-1}) H(z)=1/(1az1)

4.频率响应形式

The frequency response of a filter can be obtained by taking the Fourier transform of the impulse response of the filter, or by simple substitution of the frequency variable ejw for the z variable z=ejw in the z-transfer function as H(z=ejw) = Y(ejw)/X(ejw).

另外一些不错的资料:
Introduction to Digital Filters,Stanford的Julius Orion Smith写的online book
Introduction to Signal and System, University of Colorado Colorado Springs 的ECE2610课程,Lecture Notes写得不错

这篇关于语音信号处理2:数字滤波器 Digital Filters的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1125437

相关文章

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

usaco 1.2 Name That Number(数字字母转化)

巧妙的利用code[b[0]-'A'] 将字符ABC...Z转换为数字 需要注意的是重新开一个数组 c [ ] 存储字符串 应人为的在末尾附上 ‘ \ 0 ’ 详见代码: /*ID: who jayLANG: C++TASK: namenum*/#include<stdio.h>#include<string.h>int main(){FILE *fin = fopen (

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出

AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出 在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时

基于人工智能的智能家居语音控制系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 随着物联网(IoT)和人工智能技术的发展,智能家居语音控制系统已经成为现代家庭的一部分。通过语音控制设备,用户可以轻松实现对灯光、空调、门锁等家电的控制,提升生活的便捷性和舒适性。本文将介绍如何构建一个基于人工智能的智能家居语音控制系统,包括环境准备

AIGC6: 走进腾讯数字盛会

图中是一个程序员,去参加一个技术盛会。AI大潮下,五颜六色,各种不确定。 背景 AI对各行各业的冲击越来越大,身处职场的我也能清晰的感受到。 我所在的行业为全球客服外包行业。 业务模式为: 为国际跨境公司提供不同地区不同语言的客服外包解决方案,除了人力,还有软件系统。 软件系统主要是提供了客服跟客人的渠道沟通和工单管理,内部管理跟甲方的合同对接,绩效评估,BI数据透视。 客服跟客人

LLM系列 | 38:解读阿里开源语音多模态模型Qwen2-Audio

引言 模型概述 模型架构 训练方法 性能评估 实战演示 总结 引言 金山挂月窥禅径,沙鸟听经恋法门。 小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖铁观音的小男孩,今天这篇小作文主要是介绍阿里巴巴的语音多模态大模型Qwen2-Audio。近日,阿里巴巴Qwen团队发布了最新的大规模音频-语言模型Qwen2-Audio及其技术报告。该模型在音频理解和多模态交互

NC 把数字翻译成字符串

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 描述 有一种将字母编码成数字的方式:‘a’->1, ‘b->2’, … , ‘z->26’。 现在给一串数字,返回有多少种可能的译码结果 import java.u

【阅读文献】一个使用大语言模型的端到端语音概要

摘要 ssum框架(Speech Summarization)为了 从说话人的语音提出对应的文本二题出。 ssum面临的挑战: 控制长语音的输入捕捉 the intricate cross-mdoel mapping 在长语音输入和短文本之间。 ssum端到端模型框架 使用 Q-Former 作为 语音和文本的中介连接 ,并且使用LLMs去从语音特征正确地产生文本。 采取 multi-st