开源模型应用落地-语音转文本-openai-STT服务-AIGC应用探索（四）

本文主要是介绍开源模型应用落地-语音转文本-openai-STT服务-AIGC应用探索（四），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、前言

语音转文本技术具有重要价值。它能提高信息记录和处理的效率，使人们可以快速将语音内容转换为可编辑、可存储的文本形式，方便后续查阅和分析。在教育领域，可帮助学生更好地记录课堂重点；在办公场景中，能简化会议记录工作。同时，该技术也为残障人士提供了便利，让他们能更方便地与外界交流。此外，对于媒体行业、客服行业等都有着广泛的应用，极大地提升了工作流程和服务质量。

本文将介绍OpenAI付费的语音识别服务。这个服务可以帮助用户将语音转换成文本,为用户提供方便实用的语音转文本服务。

二、术语介绍

2.1. 语音转文本

也称为语音识别或自动语音识别 (ASR)是一种将语音音频转换为文字的技术。它利用计算机程序和算法来监听语音输入,并将其转换为可读的文字输出。

2.2. Whisper（付费版本）

Whisper是一个通用语音识别模型。它是在大型多样化音频数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言鉴别。

目前,开源版本的Whisper和通过Openai API提供的版本没有区别。但是,通过Openai API,提供了优化的推理过程,这使得通过API运行Whisper的速度要快于其他方式。

具体参见： https://platform.openai.com/docs/models/whisper

三、构建环境

3.1.基础环境

操作系统：centos7
Tesla V100-SXM2-32GB CUDA Version: 12.2

3.2.安装虚拟环境

conda create -n whisper  python=3.10
conda activate whisper
pip install openai

四、技术实现

4.1. 准备测试音频文件

先搞个测试音频：英语诗歌朗诵:Freedom 珍惜自由_Mp3免费下载-在线听力 - 听力课堂

4.2. Openai调用方式

4.2.1.Transcriptions

# -*- coding: utf-8 -*-
import os
from openai import OpenAIos.environ["OPENAI_API_KEY"] = 'sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'    #你的Open AI Keyif __name__ == '__main__':input_path = "C:\\Downloads\\freedom.mp3"client = OpenAI()audio_file = open(input_path, "rb")transcription = client.audio.transcriptions.create(model="whisper-1",file=audio_file)print(transcription.text)

调用结果：

结论：

Openai生成的文本和官方提供的文本有一些差异（我也没有听过测试音频，不敢保证官方提供的文本是否百分百正确，或者模型生成的才是正解，你们来动手实践一下，看看谁更准确呢？），对比如下：

注意：

文件上传目前限制为25 MB，支持以下输入文件类型：mp3、mp4、mpeg、mpga、m4a、wav和webm。

4.2.2.Translations

# -*- coding: utf-8 -*-
import os
from openai import OpenAIos.environ["OPENAI_API_KEY"] = 'sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'    #你的Open AI Keyif __name__ == '__main__':input_path = "C:\\Downloads\\freedom.mp3"client = OpenAI()audio_file = open(input_path, "rb")translation = client.audio.translations.create(model="whisper-1",file=audio_file)print(translation.text)

调用结果：

执行结果与实现方式一一致

4.3. 传统调用方式

# -*- coding: utf-8 -*-
import requestsurl = "https://api.openai.com/v1/audio/transcriptions"
OPENAI_API_KEY = 'sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx'    #你的Open AI Keyif __name__ == '__main__':input_path = "C:\\Downloads\\freedom.mp3"headers = {"Authorization": f"Bearer {OPENAI_API_KEY}"}files = {'file': ('freedom.mp3', open(input_path, 'rb'), 'application/octet-stream')}params = {'model': 'whisper-1'}with open(input_path, 'rb') as file:response = requests.post(url, files={'file': file}, data=params, headers=headers)if response.status_code == 200:print("Audio transcription successful!")print(response.json())else:print("Audio transcription failed.")print(response.text)

调用结果：

执行结果与实现方式一一致

PS：

1. 实现方式三不需要安装openai库，更轻便，通用性更好

2. 切换url（https://api.openai.com/v1/audio/transcriptions）可以实现音频翻译的功能

4.4. CURL调用方式

Transcriptions

curl --request POST \--url https://api.openai.com/v1/audio/transcriptions \--header "Authorization: Bearer $OPENAI_API_KEY" \--header 'Content-Type: multipart/form-data' \--form file=@/path/to/file/audio.mp3 \--form model=whisper-1

Translations

curl --request POST \--url https://api.openai.com/v1/audio/translations \--header "Authorization: Bearer $OPENAI_API_KEY" \--header 'Content-Type: multipart/form-data' \--form file=@/path/to/file/german.mp3 \--form model=whisper-1

五、附带说明

**5.1. 方式一的Transcriptions和方式二的***Translations的区别*

Transcriptions：将音频转录为音频所使用的任何语言。
Translations：将音频翻译并转录成英文。与Transcriptions差异是Translations的输出不是原始输入语言，而是翻译成英文文本。

**5.2. 方式三出现“Could not parse multipart form”问题**

解决方法：把请求头的"Content-Type": "multipart/form-data" 声明去掉

这篇关于开源模型应用落地-语音转文本-openai-STT服务-AIGC应用探索（四）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

开源模型应用落地-语音转文本-openai-STT服务-AIGC应用探索（四）

一、前言

二、术语介绍

2.1. 语音转文本

2.2. Whisper（付费版本）

三、构建环境

3.1.基础环境

3.2.安装虚拟环境

四、技术实现

4.1. 准备测试音频文件

4.2. Openai调用方式

4.2.1.Transcriptions

4.2.2.Translations

4.3. 传统调用方式

4.4. CURL调用方式

五、附带说明

**5.1. 方式一的Transcriptions和方式二的***Translations的区别*

**5.2. 方式三出现“Could not parse multipart form”问题**

相关文章

Python中re模块结合正则表达式的实际应用案例

Java MQTT实战应用

Linux中SSH服务配置的全面指南

java向微信服务号发送消息的完整步骤实例

Python中图片与PDF识别文本(OCR)的全面指南

CSS中的Static、Relative、Absolute、Fixed、Sticky的应用与详细对比

SpringBoot3应用中集成和使用Spring Retry的实践记录

苹果macOS 26 Tahoe主题功能大升级:可定制图标/高亮文本/文件夹颜色

Python实现精准提取 PDF中的文本,表格与图片

SpringBoot服务获取Pod当前IP的两种方案

开源模型应用落地-语音转文本-openai-STT服务-AIGC应用探索（四）

一、前言

二、术语介绍

2.1. 语音转文本

2.2. Whisper（付费版本）

三、构建环境

3.1.基础环境

3.2.安装虚拟环境

四、技术实现

4.1. 准备测试音频文件

4.2. Openai调用方式

4.2.1.Transcriptions

4.2.2.Translations

4.3. 传统调用方式

4.4. CURL调用方式

五、附带说明

5.1. 方式一的​Transcriptions​和方式二的Translations的区别

5.2. 方式三出现“Could not parse multipart form”问题

相关文章

**5.1. 方式一的Transcriptions和方式二的***Translations的区别*

**5.2. 方式三出现“Could not parse multipart form”问题**