亚洲激情av一区二区三区,国产高清国产精品国产k

24小時聯(lián)系電話:18217114652、13661815404

中文

您當(dāng)前的位置：: 首頁>; 電子資訊>; 公司新聞>; 嵌入式媒體處理中的語...

公司新聞

嵌入式媒體處理中的語音處理模型

2021-06-29

嵌入式媒體處理中的語音處理模型

語音和音頻處理都處理可聽數(shù)據(jù)，盡管語音處理的頻率范圍是 20 Hz 到 4 kHz，而音頻處理的頻率范圍是 20 Hz 到 20 kHz。語音和音頻處理之間有一個主要區(qū)別：語音壓縮機制基于人類聲帶，而音頻壓縮機制基于人耳系統(tǒng)。

語音處理是數(shù)字信號處理的一個子集。人類聲道的某些特性與一些數(shù)學(xué)技術(shù)一起使用來實現(xiàn)語音信號的壓縮，以便通過 VoIP 和蜂窩網(wǎng)絡(luò)傳輸數(shù)據(jù)。

語音處理大致分為：

語音編碼：通過刪除數(shù)據(jù)中的冗余來壓縮語音以減少數(shù)據(jù)大小以用于存儲和流式傳輸。

語音識別：算法識別口語單詞并將其轉(zhuǎn)換為文本的能力。

說話人驗證/識別：用于銀行業(yè)的安全應(yīng)用，以確定說話人的身份。

語音增強：用于消除噪音和增加增益，使錄制的語音更清晰。

語音合成：人工生成人類語音以進行文本到語音的轉(zhuǎn)換。

從語音處理的角度剖析人類聲帶

人耳對 50 Hz 至 4 KHz 之間的能量信號最為敏感。語音信號由聲音序列組成。當(dāng)空氣被擠出肺部時，聲道的聲學(xué)激發(fā)產(chǎn)生聲音/語音信號。肺在言語產(chǎn)生過程中充當(dāng)供氣設(shè)備。聲帶（如下圖所示）實際上是改變聲門面積的兩層膜。當(dāng)我們呼吸時，聲帶保持打開狀態(tài)，但當(dāng)我們說話時，它們會打開和關(guān)閉。

當(dāng)空氣被擠出肺部時，聲帶附近的氣壓就會升高。一旦氣壓達到某個閾值，聲帶/褶皺就會打開，空氣流過它們會導(dǎo)致膜振動。聲帶振動的頻率取決于聲帶的長度和聲帶的張力。該頻率稱為基頻或音調(diào)頻率，它定義了人類的音調(diào)。統(tǒng)計發(fā)現(xiàn)人類的基頻在以下范圍內(nèi)：

男士 50 Hz 至 200 Hz

150 Hz 至 300 Hz 女性和

兒童 200 Hz 至 400 Hz

人類的語音可以大致分為三種類型的聲音：

濁音：當(dāng)空氣從肺部流過聲道時，聲帶振動產(chǎn)生的聲音，例如 a、b、m、n 等。濁音帶有低頻成分。在濁音產(chǎn)生期間，聲帶大部分時間是閉合的。

清音：聲帶不振動的清音?？諝馔ㄟ^聲道的持續(xù)流動會產(chǎn)生清音，例如 shh、sss、f 等。清音帶有高頻分量。在清音產(chǎn)生期間，聲帶大部分時間是開放的。

其他聲音：這些聲音可以分類為：

鼻音：聲帶與鼻道在聲學(xué)上耦合，即通過鼻孔和嘴唇發(fā)出的聲音，例如 m、n、ing 等。

爆破音：這些聲音是聲道前部閉合處附近壓力的積累和突然釋放的結(jié)果，例如 p、t、b 等

聲道的橫截面積根據(jù)我們打算產(chǎn)生的聲音而變化。共振峰頻率可以定義為能量高度集中的頻率。統(tǒng)計上，已經(jīng)觀察到對于每 kHz 大約有一個共振峰頻率。因此，我們可以在 4 KHz 的人類語音頻率范圍內(nèi)觀察到總共 3-4 個共振峰頻率。

由于人類語音的帶寬為 0 到 4 KHz，我們基于奈奎斯特準則以 8 KHz 對語音信號進行采樣以避免混疊。

語音制作模型

根據(jù)語音信號（濁音或清音）的內(nèi)容，語音信號包括一系列脈沖（對于濁音）或隨機噪聲（對于清音）。這個信號頻譜在聲道中移動。聲道充當(dāng)頻譜整形濾波器，即聲道的頻率響應(yīng)被施加到傳入語音信號上。聲道的形狀和大小決定了頻率響應(yīng)，從而決定了人聲的差異。

開發(fā)準確的語音生成模型需要開發(fā)基于語音過濾器的人類語音生成機制模型。假定激發(fā)源和聲道是相互獨立的。因此，它們都是單獨建模的。為了對聲道進行建模，假設(shè)聲道在 10 毫秒的時間段內(nèi)具有定義的特征。因此，每 10 毫秒一次，聲道配置會發(fā)生變化，從而產(chǎn)生新的聲道參數(shù)（即共振/共振峰頻率）

要建立準確的語音生成模型，必須建立基于語音濾波器的模型。該模型必須準確地表示以下內(nèi)容：

人類語言產(chǎn)生機制的激發(fā)技術(shù)。

唇鼻發(fā)聲過程。

聲道的復(fù)雜操作。

濁音和

無聲的講話。

S(z) = E(z) * G(z) * A*V(z) * R(z)

在哪里：

S(z) => 模型輸出的語音

E(z) => 激勵模型

G(z) => 聲門模型

A => 增益因子

V(z) => 聲帶模型

R(z) => 輻射模型

激勵模型：模型的激勵函數(shù)的輸出將根據(jù)產(chǎn)生的語音的特征而變化。

在濁音過程中，激勵將由一系列脈沖組成，每個脈沖以基音周期的間隔間隔開。

在清音過程中，激勵將是白噪聲/隨機噪聲類型的信號。

聲門模型：聲門模型專門用于人類語音的濁音部分。聲門流在語音識別和語音合成機制中區(qū)分說話者。

增益系數(shù)：聲音的能量取決于增益系數(shù)。通常，濁音的能量比清音的能量大許多倍。

聲道模型：一連串無損管（短而圓柱形）構(gòu)成聲道的基礎(chǔ)/模型（如下圖 4所示），每個管都有自己的共振頻率。無損管的設(shè)計因人而異。共振頻率取決于管子的形狀，因此不同人的聲音也不同。

上述聲道模型通常用于低比特率語音編解碼器、語音識別系統(tǒng)、說話人認證/識別系統(tǒng)以及語音合成器。為每一幀語音導(dǎo)出聲道模型的系數(shù)是必不可少的。用于導(dǎo)出語音編解碼器中聲道模型系數(shù)的典型技術(shù)是線性預(yù)測編碼 (LPC)。LPC 聲碼器可以實現(xiàn) 1.2 到 4.8 kbps 的比特率，因此被歸類為低質(zhì)量、中等復(fù)雜度和低比特率算法。

使用 LPC，我們可以從過去的語音樣本中導(dǎo)出當(dāng)前的語音樣本值。

在時域中，語音方程可以粗略表示如下：

當(dāng)前語音樣本 = [（系數(shù) X 過去的語音樣本）+ 增益修正的激勵]

概括

語音信號的特性取決于人類語音產(chǎn)生系統(tǒng)。語音生成模型源自人類語音生成系統(tǒng)的基本原理。

因此，了解人類語音生成系統(tǒng)的特征對于設(shè)計語音壓縮、語音合成和語音識別技術(shù)的算法至關(guān)重要。語音生成模型用于將模擬語音轉(zhuǎn)換為數(shù)字形式，以通過電話應(yīng)用程序（蜂窩電話、有線電話和互聯(lián)網(wǎng)上的 VoIP 流）、文本到語音轉(zhuǎn)換、語音編碼以通過壓縮有效利用帶寬將語音信號降低比特率以在相同帶寬內(nèi)容納更多用戶。

上一篇：基礎(chǔ)知識：什么是工業(yè)物聯(lián)網(wǎng)？: 下一篇：您的系統(tǒng)是否需要 RTC 模塊電路？

啊啊啊流水了啊操逼污污,与妇女日逼视频,亚洲国产日韩欧美一区二区,k8经典网在线观看电影

公司新聞

嵌入式媒體處理中的語音處理模型

相關(guān)新聞

電子資訊

最新新聞