语音识别技术分析:语音变成文字其实没有那么神秘

 新闻资讯     |      2022-06-28 00:26
本文摘要:详细给大家讲解一下语音怎么逆文字的吧。期望这个讲解能让所有同学看懂。 首先,我们告诉声音实质上是一种波。 少见的mp3、wmv等格式都是传输格式,必需转换成非传输的纯波形文件来处置,比如WindowsPCM文件,也就是又称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。 右图是一个波形的示例。 在开始语音辨识之前,有时必须把首尾端的静音手术,减少对先前步骤导致的阻碍。这个静音手术的操作者一般称作VAD,必须中用信号处理的一些技术。

博亚体育app下载

详细给大家讲解一下语音怎么逆文字的吧。期望这个讲解能让所有同学看懂。  首先,我们告诉声音实质上是一种波。

少见的mp3、wmv等格式都是传输格式,必需转换成非传输的纯波形文件来处置,比如WindowsPCM文件,也就是又称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。

右图是一个波形的示例。  在开始语音辨识之前,有时必须把首尾端的静音手术,减少对先前步骤导致的阻碍。这个静音手术的操作者一般称作VAD,必须中用信号处理的一些技术。  要对声音展开分析,必须对声音分帧,也就是把声音缝合成部分段部分段,每小段称作一帧。

分帧操作者一般不是非常简单的缝合,而是用于移动窗函数来构建,这里不概述。帧与帧之间一般是有交错的,就像右图这样:  图中,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交错。我们称作以帧宽25ms、帧后移10ms分帧。

最新平台

图中,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交错。我们称作以帧宽25ms、帧后移10ms分帧。  分帧后,语音就变为了很多小段。

但波形在时域上完全没叙述能力,因此必需将波形不作转换。少见的一种转换方法是萃取MFCC特征,根据人耳的生理特性,把每一帧波形变为一个多维向量,可以非常简单地解读为这个向量包括了这帧语音的内容信息。

这个过程叫作声学特征提取。实际应用于中,这一步有很多细节,声学特征也好比有MFCC这一种,明确这里不谈。


本文关键词:最新平台,语音,识别,技术,分析,变成,文字,其实,没有

本文来源:博亚体育app下载-www.jizhouhongyu.com