Bản dịch giấy: 2022_Phase-AwareDeepSpeechEnhancement:It'sAllAboutTheFrameLength

In lại Tác giả: Tôi là chú chim nhỏ Thời gian cập nhật: 2023-02-08 22:31:21

Mục lục.

bản tóm tắt
1 Giới thiệu
2 Kiến thức sơ bộ
3 Khung mạng nơ-ron
3.1 Mạng con biên độ
3.2 Mạng con pha
3.3 Quá trình đào tạo
4 thí nghiệm
4.1 Dữ liệu và chi tiết đào tạo
5 Kết quả và thảo luận
6 Kết luận
7 đóng góp
8 tài liệu tham khảo

bản tóm tắt

　　Mặc dù xử lý giọng nói nhận biết pha đã nhận được sự chú ý ngày càng tăng trong những năm gần đây, hầu hết các phương pháp STFT băng hẹp với độ dài khung khoảng 32 ms cho thấy tác động khá hạn chế của pha đối với hiệu suất tổng thể. Trong khi đó, các phương pháp dựa trên mạng thần kinh sâu (DNN) hiện đại, chẳng hạn như Conv-TasNet, hoàn toàn sửa đổi biên độ và pha, mang lại hiệu suất tuyệt vời trên các khung hình rất ngắn (2 ms).

　　Lấy cảm hứng từ quan sát này, bài viết này nghiên cứu một cách có hệ thống vai trò của pha và biên độ trong việc tăng cường giọng nói DNN với các độ dài khung khác nhau. Kết quả cho thấy mạng nơ-ron nhận biết pha có thể tận dụng tối đa nghiên cứu trước đây về tái tạo giọng nói thuần túy cho thấy khi sử dụng khung ngắn, phổ pha trở nên quan trọng hơn, trong khi phổ biên độ trở nên ít quan trọng hơn. Các thử nghiệm cho thấy rằng khi biên độ và pha được ước tính đồng thời, các khung hình ngắn hơn có thể cải thiện đáng kể hiệu suất của DNN với ước tính pha rõ ràng. Ngược lại, nếu chỉ xử lý biên độ và không ước tính pha thì có thể đạt được hiệu suất tốt nhất với khung 32 ms. Ước tính pha dựa trên DNN được hưởng lợi từ việc sử dụng các khung ngắn hơn và nên sử dụng độ dài khung khoảng 4 ms cho các phương pháp tăng cường giọng nói nhận biết pha dựa trên mạng thần kinh.

Thuật ngữ chỉ mục: Tăng cường giọng nói, mạng lưới thần kinh, độ dài khung hình, nhận biết pha.

1 Giới thiệu

　　Tăng cường giọng nói kênh đơn thường được thực hiện trong miền tần số thời gian, để có được biểu diễn tần số thời gian, có thể áp dụng một phép biến đổi với nhiều tham số rảnh như biến đổi Fourier thời gian ngắn (STFT). Các tham số này (tức là độ dài khung, dịch khung và chức năng cửa sổ, xem Phần 2) phải được chọn một cách thích hợp. Tuy nhiên, không chỉ bản thân tín hiệu phải được xem xét mà cả thuật toán được áp dụng cho biểu diễn tần số thời gian; việc lựa chọn các tham số STFT sẽ mang lại biểu diễn hữu ích nhất cho thuật toán hiện tại [1].

　　Bài viết này tập trung vào việc lựa chọn độ dài khung hình cho các thuật toán tăng cường giọng nói dựa trên mạng nơ-ron sâu (DNN), đặc biệt là các phương pháp nhận biết pha. Biểu diễn STFT rất phức tạp và thường được chia thành phổ biên độ và phổ pha. Sự liên quan của phổ pha với các nhiệm vụ tăng cường giọng nói là một chủ đề tranh luận. Theo truyền thống, nó được coi là không quan trọng do các nghiên cứu thực nghiệm [2] và kết quả lý thuyết [3]. Tuy nhiên, các nghiên cứu gần đây đã chỉ ra rằng pha đó mang thông tin liên quan đến lời nói [4], [5]. Được thúc đẩy bởi những kết quả nghiên cứu này, việc xử lý giọng nói nhận biết pha đã được hồi sinh ở một mức độ nhất định và nhiều phương pháp xử lý giọng nói nhận biết pha đã được đề xuất, chẳng hạn như [6]-[10].

　　Trong những năm gần đây, mạng lưới thần kinh sâu đã nhanh chóng trở thành công cụ được lựa chọn trong nhiều lĩnh vực, bao gồm cả xử lý âm thanh và giọng nói. Do đó, nhiều phương pháp tăng cường giọng nói và tách nguồn âm thanh nhận biết pha gần đây sử dụng mạng nơ-ron sâu để ước tính trực tiếp phổ pha [11]–[13] hoặc để ước tính đạo hàm pha và tái tạo lại pha từ chúng [14], [15] . Các phương pháp dựa trên DNN khác bao gồm hoạt động trực tiếp trên phổ phức tạp mà không chia nó thành biên độ và pha [16]–[18] hoặc chỉ xem xét pha để cải thiện ước tính biên độ [19].

　　Một số tác giả đã thực hiện một cách tiếp cận khác, thay thế hoàn toàn các biểu diễn dựa trên STFT bằng các cơ chế mã hóa-giải mã đã học, thường dẫn đến các biểu diễn số thực [20]–[22]. Một khía cạnh thú vị của các phương pháp mã hóa-giải mã này là chúng cho thấy hiệu suất rất tốt khi sử dụng các khung hình rất ngắn khoảng 2 ms, thậm chí chỉ ngắn tới 0,125 ms [21]. Điều này trái ngược hoàn toàn với các phương pháp dựa trên STFT, thường sử dụng độ dài khung hình khoảng 20 ms đến 60 ms. Lưu ý rằng mặc dù các phương pháp mã hóa-giải mã đã học ban đầu được đề xuất để tách nguồn nhưng chúng cũng cho thấy hiệu suất tốt trong các nhiệm vụ nâng cao giọng nói [23], [24].

　　Sau khi phát hành mô hình Conv-TasNet bộ mã hóa-giải mã đã học được [20], một số tác giả đã đề xuất các phần mở rộng và phân tích. Trong số các kết quả khác, người ta đã chứng minh rằng các yếu tố ảnh hưởng chính đến hiệu suất của ConvTasNet là việc sử dụng các khung ngắn và chức năng mất thời gian thay vì bộ mã hóa-giải mã đã học [25], [26]. Các nghiên cứu cũng chỉ ra rằng khi thay thế bộ mã hóa đã học bằng STFT, bộ tính năng đầu vào tối ưu phụ thuộc vào độ dài khung được chọn [26], [27]; đối với các khung dài hơn (25 ms đến 64 ms), phổ biên độ hoạt động rất tốt, trong khi các khung ngắn hơn (2 ms đến 4 ms) chỉ hiển thị hiệu suất tốt hơn khi lấy toàn bộ phổ phức làm đầu vào (ở dạng phần thực và phần ảo được nối). Quan sát này đặc biệt quan trọng vì nó có nghĩa là có thể xử lý giọng nói nhận biết pha (dù là ước tính pha rõ ràng hay ẩn) với các độ dài khung khác nhau so với xử lý chỉ biên độ.

　　Mặc dù bài báo [24] đã nghiên cứu tác động của việc lựa chọn hàm mất mát đối với các phép đo cảm nhận trong DNN tăng cường giọng nói nhận biết pha, nhưng chúng tôi không biết về phân tích như vậy đối với việc lựa chọn độ dài khung hình. Nghiên cứu trước đây không liên quan đến DNN đã chỉ ra rằng tầm quan trọng của pha đối với các tác vụ liên quan đến giọng nói thay đổi khi lựa chọn tham số STFT. Đặc biệt, có thể thu được kết quả rất tốt chỉ từ phổ pha mà không cần sử dụng độ dài khung thông thường (tương ứng với khoảng 20 ms đến 40 ms), sử dụng các khung ngắn hơn [28], [29] hoặc sử dụng các khung được rút ngắn một cách hiệu quả [4] Tái tạo tín hiệu . Kết quả tương tự đã được quan sát thấy đối với các khung hình điển hình dài hơn [28], [30]. Tuy nhiên, do các khung hình dài gây ra độ trễ thuật toán có thể bị cấm đối với nhiều thiết bị xử lý giọng nói thời gian thực nên chúng tôi đã chọn tập trung vào các khung hình ngắn vì những lý do thực tế. Hình 1, sao chép từ [28], cho thấy sự đóng góp của pha và biên độ vào khả năng hiểu giọng nói thuần túy được tái tạo thay đổi như thế nào theo chiều dài khung. Người ta quan sát thấy rằng khi các khung hình trở nên ngắn hơn, pha trở nên quan trọng hơn, trong khi biên độ dần mất đi sự liên quan. Tuy nhiên, xin lưu ý rằng những phát hiện này dựa trên một số thử nghiệm tái tạo tín hiệu nhân tạo trên dữ liệu oracle - liệu chúng có áp dụng cho việc tăng cường giọng nói thực tế, tách nguồn, v.v. hay không vẫn chưa rõ ràng.

Hình 1: Trích dẫn kết quả được sao chép từ [28], được hiển thị ở đây nhằm mục đích minh họa.

Khi tái tạo lại giọng nói từ phổ biên độ hoặc phổ pha (thay thế các thành phần khác bằng nhiễu), độ rõ của tín hiệu giọng nói thu được phụ thuộc phần lớn vào việc lựa chọn độ dài khung. Sơ đồ đầy đủ và thông tin chi tiết có thể được tìm thấy trong [28, Hình 2].

　　Độ dài khung hình điển hình trong xử lý giọng nói (khoảng 32 ms) có thể được coi là gần như cố định, nhưng vẫn đủ dài để bao trùm chu kỳ cơ bản của nhiều âm thanh hữu thanh (chu kỳ cơ bản là từ 2 ms đến 12,5 ms) [31]. Những cân nhắc này áp dụng cho phổ biên độ nhưng không nhất thiết áp dụng cho phổ pha. Trên thực tế, có vẻ như sự không liên quan của phổ pha một phần là do sự lựa chọn độ dài khung hình trong thí nghiệm.

　　Dựa trên các kết quả và quan sát trước đó, câu hỏi mà bài viết này cố gắng trả lời là: Độ dài khung hình nào có lợi nhất cho DNN nâng cao giọng nói nhận biết pha dựa trên STFT? Lấy mạng lưới thần kinh sâu với ước tính pha rõ ràng làm ví dụ, hiệu suất ở các độ dài khung hình khác nhau sẽ được phân tích và so sánh. Để hiểu rõ hơn, bài viết này cũng cố gắng mô tả sự đóng góp tương đối của biên độ và phổ pha ở mỗi độ dài khung hình và chỉ ra rằng những quan sát ở trên về tầm quan trọng của pha trong các khung ngắn cũng có liên quan và hữu ích trong bối cảnh tăng cường giọng nói.

2 Kiến thức sơ bộ

　　Chia tín hiệu miền thời gian $x(n)$ thành các khung chồng chéo có độ dài $M$ và độ dịch chuyển $H$, tính STFT của nó, áp dụng hàm cửa sổ $w(n)$ cho mỗi khung, sau đó rời rạc hóa biến đổi Fourier ( DFT), chuyển đổi nó sang miền tần số. Giả sử rằng DFT điểm $M$ một phía được sử dụng, thì thu được phổ phức $x\in C^{K*L}$, được định nghĩa là.

$$Câu 1: X_{k,l}=\sum_{n=0}^{M-1}x(lH+n)w(n)e^{-j2\pi \frac{kn}{M}}$$ 。

Trong đó $k$ là chỉ số tần số, $l$ là chỉ số khung, $K=\frac{M}{2}+1$ là số điểm tần số và $L$ là số lượng khung thời gian. Trừ khi có quy định khác, chúng tôi luôn xem xét toàn bộ phổ và do đó bỏ qua chỉ số bên dưới. Để thuận tiện, chúng tôi cũng xác định tỷ lệ trùng lặp $R=\frac{MH}{M}$. Vì $M$ là số lượng mẫu trong một khung hình, nên chúng tôi xác định $M_t=\frac{M}{f_s}$ (trong đó $f_s$ là tần số lấy mẫu) là độ dài khung hình vật lý tính bằng giây. Từ thời điểm này trở đi, thuật ngữ độ dài khung sẽ đề cập đến $M_t$.

　　Phổ phức có thể được biểu diễn dưới dạng phổ biên độ $|X|$ và phổ pha $\phi X$ trong tọa độ cực:

$$Công thức 2: X=|X|e^{j\phi X}$$.

Trong bối cảnh nâng cao giọng nói, chúng tôi xem xét mô hình tiếng ồn bổ sung.

$$Công thức 3: X=S+V$$.

Trong số đó, $S$ và $V$ lần lượt là tín hiệu giọng nói thuần túy và thành phần nhiễu phụ gia. Cho một tín hiệu nhiễu $ Tín hiệu sạch $\hat{s}$.

3 Khung mạng nơ-ron

　　Kiến trúc DNN được đề xuất trong bài viết này là sự điều chỉnh của mô hình được đề xuất trong [12] để phân tách và tăng cường giọng nói nghe nhìn, bao gồm các mạng con biên độ và pha được ghép nối. Mặc dù chúng tôi không xem xét đầu vào âm thanh và video ở đây, nhưng mô hình này tương đối đơn giản và cho phép ước tính rõ ràng biên độ và pha, điều này rất quan trọng đối với các thử nghiệm của chúng tôi. Các phần liên quan đến truyền phát video bị bỏ qua và mô hình được điều chỉnh cho phù hợp. Mạng kết quả được hiển thị trong Hình 2 và được mô tả bên dưới.

Hình 2: Tổng quan về kiến trúc mạng được đề xuất, dựa trên mô hình nghe nhìn của [12], mặc dù chỉ sử dụng tín hiệu nhiễu tiếng nói làm đầu vào.

Khối tích chập cơ bản được hiển thị trong Hình 3. Lưu ý rằng đầu vào của mạng con pha bao gồm biên độ ước tính cũng như cosin và sin của pha nhiễu, được hiển thị ở đây dưới dạng một đầu vào duy nhất để đơn giản.

　　Cả hai mạng con đều triển khai mạng thần kinh tích chập bằng cách sử dụng các lớp tích chập có thể phân tách theo chiều sâu một chiều [32] dọc theo trục thời gian (trong thiết lập này, các điểm tần số khác nhau ở đầu vào được coi là kênh). Cả hai mạng đều bao gồm nhiều khối dư giống hệt nhau; khối xây dựng cơ bản bao gồm lớp kích hoạt trước (ReLU), lớp chuẩn hóa hàng loạt và lớp chập, đầu ra của lớp này được thêm vào đầu vào của khối (xem hình 3) .

Hình 3 Khối tích chập dư cơ bản, bao gồm kích hoạt trước ReLU, lớp chuẩn hóa hàng loạt và lớp tích chập có thể phân tách theo độ sâu một chiều.

3.1 Mạng con biên độ

　　Mạng con biên độ lấy các tính năng video phổ biên độ nhiễu $| làm đầu vào). Phổ biên độ nhiễu được thực hiện thông qua chuỗi gồm 15 khối chập, mỗi khối có 1536 kênh đầu vào/đầu ra. Các lớp tuyến tính cho đầu vào và đầu ra giúp mô hình hóa mối quan hệ giữa các tần số và chiếu dữ liệu vào các kích thước chính xác. Áp dụng hàm kích hoạt sigmoid cho đầu ra, tạo ra mặt nạ thực có giá trị trong [0,1]. Mặt nạ thực được nhân với đầu vào để thu được ước tính biên độ $|\hat{S}|$.

3.2 Mạng con pha

　　Đầu vào của mạng con pha là một tầng $|\hat{S}|$, $cos(\phi X)$ và $sin(\phi X)$ dọc theo trục tần số. Nó được đưa vào lớp đầu vào tuyến tính, theo sau là 6 khối tích chập với 1024 kênh và lớp đầu ra tuyến tính. Đầu ra của lớp tuyến tính được xem như là sự kết hợp của cosin và sin của phần dư pha, được thêm vào đầu vào tương ứng của chúng. Các ước tính thu được được $L_2$ được chuẩn hóa để đảm bảo rằng đầu ra cosin và sin nhất quán với nhau (tức là chúng biểu thị một vectơ đơn vị trong mặt phẳng phức).

3.3 Quá trình đào tạo

　　So với phương pháp học nhiều giai đoạn được đề xuất trong [12], chúng tôi chỉ huấn luyện mạng trên toàn bộ tập huấn luyện bao gồm các cặp mẫu giọng nói ồn và sạch với các tỷ lệ tín hiệu trên tạp âm (SNR) khác nhau (xem Phần 4.1 để biết thêm chi tiết ). Bài viết này áp dụng hàm mất miền thời gian, cụ thể là tỷ lệ tín hiệu bất biến thang âm trên biến dạng (SI-SDR) [33], thay vì hàm mất miền tần số được đề xuất trong [12]. Suy hao SISDR đã được chứng minh là mang lại kết quả vượt trội khi ước tính cả phổ biên độ và phổ pha [26].

4 thí nghiệm

　　Thử nghiệm chính mà chúng tôi tiến hành là so sánh hiệu suất của mô hình này ở các độ dài khung STFT khác nhau $M$, cả về mặt đo lường cảm nhận và khách quan. Vì các mô hình mà chúng tôi xem xét bao gồm các ước tính rõ ràng về pha và biên độ, nên chúng tôi cũng có thể phân tích và định lượng sự đóng góp tương đối của ước tính biên độ và pha, một lần nữa dưới dạng hàm của độ dài khung. Phân tích này được thực hiện theo cách tương tự như các thí nghiệm nhận thức trong [4], [28], [29], mặc dù ở đây chúng tôi sử dụng các ước tính về biên độ và pha của giọng nói rõ ràng thay vì tín hiệu miền thời gian sạch hoặc nhiễu. Đối với mỗi độ dài khung, chúng tôi tạo ra ba ước tính về tín hiệu giọng nói thuần túy: đầu ra thực tế của mạng và hai tín hiệu tổng hợp bao gồm biên độ và pha nhiễu ước tính và ngược lại:

$$公式4：\hat{s} =iSTFT\{|\widehat{S}| \mathrm{e}^{\mathrm{j} \widehat{\phi__S}\}$$ .

$$公式5：\widehat{s} _{\mathrm{mag}} =iSTFT\{|\widehat{S}| \mathrm{e}^{\mathrm{j} \phi_X}\}$$ .

$$公式6：\widehat{s__{\mathrm{ph}} =iSTFT\{|X| \mathrm{e}^{\mathrm{j} \widehat{\phi__S}\}$$ .

　　Để so sánh công bằng thì chúng ta phải giữ số lượng tham số DNN không đổi. Trong trường hợp kiến trúc mạng mà chúng ta đang xem xét, số lượng tham số phụ thuộc vào số điểm tần số $K$. Do đó, chúng tôi hoàn thiện các khung bằng 0 trước khi áp dụng DFT sao cho K = 257, tương ứng với khung dài nhất mà chúng tôi đã xem xét ($M_t$ = 32 ms) tại $f_s$ = 16kHz. Trong tất cả các thử nghiệm, chúng tôi sử dụng cửa sổ Hann căn bậc hai với tỷ lệ chồng chéo R = 50%. Cửa sổ tương tự được sử dụng cho STFT thuận và nghịch.

4.1 Dữ liệu và chi tiết đào tạo

　　Trong quá trình đào tạo, chúng tôi sử dụng giọng nói và tiếng ồn rõ ràng từ bộ dữ liệu Giảm tiếng ồn sâu (DNS) năm 2020 [34], với SNR$\in ${- 5,0,…, 10} dB. Mỗi độ dài giọng nói là 2 giây và tập dữ liệu chứa tổng cộng 100 giờ lời nói, 80% trong số đó được sử dụng để đào tạo và 20% còn lại được sử dụng để xác minh. Tất cả các mô hình đều được đào tạo bằng trình tối ưu hóa Adam với kích thước lô là 32 và tốc độ học tập là $10^{-4}$. Nếu tổn thất xác thực không giảm trong vòng 10 lần lặp thì quá trình đào tạo sẽ dừng lại.

　　Việc đánh giá được thực hiện trên hai bộ kiểm tra: Bộ kiểm tra không có tiếng vang tổng hợp DNS, bao gồm 150 bài phát biểu được trích đoạn, mỗi bài phát biểu 10 giây, tỷ lệ tín hiệu trên tạp âm $\in ${0,1,..., 20}dB và một bộ kiểm tra tự xác định khác, bao gồm giọng nói thuần túy từ kho ngữ liệu WSJ [35] và nhiễu từ tập dữ liệu CHiME3 [36], với tỷ lệ tín hiệu trên nhiễu hỗn hợp $\in ${−10, −5, …, 20} dB. Bộ bài kiểm tra có tổng cộng 672 bài tóm tắt. Tất cả dữ liệu huấn luyện và đánh giá được lấy mẫu ở tần số $f_s$ = 16kHz.

5 Kết quả và thảo luận

Bảng 1: Kết quả đánh giá trên bộ kiểm tra DNS.

Những cải tiến trong POLQA và ESTOI (wrt dành cho tín hiệu đầu vào nhiễu) ở các độ dài khung khác nhau được hiển thị cho từng tín hiệu được tái tạo (ví dụ: phương trình (4) đến (6)).

Kết quả tốt nhất và số giây kết thúc trong mỗi cột được in đậm.

　　Kết quả đánh giá trên bộ kiểm tra DNS được thể hiện trong Bảng 1. Mặc dù độ rõ ràng (theo ESTOI) không bị ảnh hưởng đáng kể bởi việc lựa chọn độ dài khung hình, chúng tôi thấy tác động đáng kể đến chất lượng giọng nói (POLQA), được hưởng lợi từ việc giảm độ dài khung hình cho đến khi đạt mức tối đa ở $M_t$ = 4 ms giá trị, bắt đầu giảm sau đó, nhưng vẫn đạt giá trị tương đối cao cho các khung hình rất ngắn từ 1 ms đến 2 ms. Đối với POLQA và ESTOI, các ước tính dựa trên biên độ và dựa trên pha ($\hat{s} _{mag}$ và $\hat{s} _{ph}$ tương ứng) hiển thị một bức tranh thú vị: ở mức $M_t ở mức $ = 32 mili giây, $\hat{s__{mag}$ đạt giá trị tương tự như $\hat{s}$, trong khi ước tính dựa trên giai đoạn $\hat{s__{ph}$ ít nhất quán hơn với đầu vào tiếng ồn Có rất ít cải thiện về điều đó. Điều này dần dần thay đổi khi độ dài khung hình giảm: các ước tính dựa trên biên độ sẽ giảm chất lượng và tính dễ hiểu, trong khi điều ngược lại đúng với các ước tính dựa trên pha.

Hình 4: Kết quả đánh giá trên bộ thử nghiệm WSJ/CHiME (xem Phần 4.1).

Hình này cho thấy mức cải thiện trung bình dưới dạng hàm của độ dài khung hình đối với POLQA, ESTOI và SI-SDR ở tất cả các tỷ lệ tín hiệu trên nhiễu.

Dải lỗi đại diện cho khoảng tin cậy 95%. Các khung ngắn có lợi cho chất lượng ước tính giọng nói được đo bằng POLQA.

Hơn nữa, các biện pháp tái thiết dựa trên pha và dựa trên biên độ khác nhau cho thấy hành vi bổ sung gợi nhớ đến hành vi được quan sát thấy trong các thí nghiệm tiên tri trước đó (xem Hình 1).

　　Như được hiển thị trong Hình 4, việc đánh giá trên bộ dữ liệu WSJ/CHiME lớn hơn cho thấy xu hướng tương tự đối với POLQA, ESTOI và SI-SDR. Trong khi ESTOI và SI-SDR gần như giữ nguyên về độ dài khung hình, POLQA rõ ràng được hưởng lợi từ các khung hình ngắn hơn. Tương tự như vậy, có thể thấy hành vi bổ sung của các ước tính dựa trên biên độ và dựa trên pha. Hành vi này rất giống với nghiên cứu dựa trên oracle ban đầu [28], [29]. Trên thực tế, có sự tương đồng đáng chú ý giữa kết quả ΔESTOI và Hình 1, mặc dù điểm mà tại đó ước tính dựa trên pha trở nên tốt hơn có chút thay đổi.

　　Sự cải thiện của POLQA đạt mức tối đa ở Mt = 4 ms, trong đó ước tính dựa trên pha cũng đạt mức tối đa. Khi số lượng khung hình ngắn hơn, hiệu suất sẽ giảm ở cả ba chỉ số. Nhìn chung, những cải tiến trong ESTOI và SI-SDR dường như không phụ thuộc nhiều vào độ dài khung hình, mặc dù hành vi bổ sung ở trên cũng có thể được quan sát rõ ràng. Tuy nhiên, trong cài đặt nhận biết pha này, chất lượng giọng nói (POLQA) có xu hướng tăng lên khi khung hình ngày càng ngắn hơn. Chúng tôi gán sự phụ thuộc này vào sự đóng góp tương đối của phổ pha và biên độ cũng như sự tương tác giữa chúng. Trong khi ước tính dựa trên biên độ cho thấy sự suy giảm về chất lượng đối với các khung hình ngắn thì sự đóng góp của phổ pha sẽ cải thiện hiệu suất tổng thể, dẫn đến kết quả vượt trội.

　　Vì kết quả trong Hình 4 là kết quả trung bình ở tất cả các tỷ lệ tín hiệu trên tạp âm nên chúng tôi cung cấp thông tin chi tiết hơn nữa trong Hình 5 bằng cách hiển thị sự cải thiện POLQA ở các tỷ lệ tín hiệu trên tạp âm khác nhau cho hai độ dài khung hình đã chọn (4 mili giây, 16 mili giây) . học hỏi. Ngoài hiệu suất tổng thể tốt hơn cho các khung ngắn hơn và ước tính pha không quan trọng cho các khung dài hơn (xem Hình 4), chất lượng của các ước tính dựa trên biên độ và pha còn phụ thuộc nhiều hơn vào tỷ lệ tín hiệu trên nhiễu. Đặc biệt, ở tỷ lệ tín hiệu trên nhiễu thấp (<0 dB), ước tính dựa trên pha thực sự tốt hơn ước tính dựa trên biên độ, cho thấy rằng ước tính pha đặc biệt có lợi trong điều kiện nhiễu khó khăn, theo nghiên cứu nhận thức trước đây [37]. Điều này cũng chuyển sang trường hợp ước tính chung (tức là $\hat{s}$), trong đó chênh lệch ΔPOLQA giữa các độ dài khung hình rõ ràng hơn ở tỷ lệ tín hiệu trên nhiễu thấp.

Hình 5: Mức cải thiện POLQA trung bình trên bộ thử nghiệm WSJ/CHiME M_t$\in ${4,16}ms, được hiển thị dưới dạng hàm của tỷ lệ tín hiệu trên nhiễu đầu vào.

6 Kết luận

Trong công trình này, chúng tôi trình bày một nghiên cứu về ảnh hưởng của độ dài khung hình đến việc tăng cường giọng nói nhận biết pha STFT dựa trên DNN. Kết quả cho thấy bằng cách sử dụng các khung hình tương đối ngắn (4 ms), hiệu suất được cải thiện đáng kể so với các khung hình dài hơn thường được sử dụng trong xử lý dựa trên STFT. Hơn nữa, bằng cách ước tính rõ ràng pha và biên độ, chúng tôi có thể chỉ ra rằng sự cải thiện hiệu suất này có liên quan đến sự đóng góp riêng biệt của ước tính biên độ và pha, vốn phụ thuộc nhiều vào độ dài khung. Điều này phản ánh những hiểu biết sâu sắc từ các thử nghiệm trước đây về dữ liệu oracle, đồng thời lần đầu tiên cho thấy hiện tượng này có thể được khai thác để cải thiện kết quả nâng cao giọng nói.

7 đóng góp

Công trình này được hỗ trợ bởi khoản tài trợ từ Deutsche Forschungsgemeinschaft (DFG, Quỹ nghiên cứu Đức) - số dự án 247465126. Chúng tôi xin cảm ơn J. Berger và Rohde & Schwarz swiss squal AG vì đã hỗ trợ POLQA.

8 tài liệu tham khảo

[1] T. Virtanen, E. Vincent và S. Gannot, “Xử lý thời gian-tần số: Tính chất phổ,” trong Phân tách nguồn âm thanh và Nâng cao giọng nói, John Wiley & Sons, Ltd, 2018, trang 15–29.

[2] D. Wang và J. Lim, “Sự không quan trọng của pha trong việc tăng cường giọng nói,” IEEE Trans. on Acoustics, Speech, and Signal Processing, tập 30, số 4, trang 679–681, tháng 8 năm 1982. ∆POLQA ∆ESTOI ∆SI-SDR (dB) ∆POLQA 。

[3] Y. Ephraim và D. Malah, “Nâng cao giọng nói bằng cách sử dụng bộ ước lượng biên độ phổ thời gian ngắn có lỗi bình phương trung bình tối thiểu,” IEEE Trans. on Acoustics, Speech, and Signal Processing, tập 32, số 6, trang 1109–1121, tháng 12 năm 1984.

[4] K. Paliwal, K. W´ojcicki, và B. Shannon, “Tầm quan trọng của pha trong việc tăng cường giọng nói,” Giao tiếp giọng nói, tập 53, số 4, trang 465–494, tháng 4 năm 2011.

[5] T. Gerkmann, M. Krawczyk-Becker và J. Le Roux, “Xử lý pha để tăng cường giọng nói kênh đơn: Lịch sử và những tiến bộ gần đây”, Tạp chí xử lý tín hiệu IEEE, tập 32, số 2, trang 55–66, tháng 3 năm 2015.

[6] J. Le Roux và E. Vincent, “Lọc Wiener nhất quán để tách nguồn âm thanh”, Thư xử lý tín hiệu IEEE, tập 20, số 3, trang 217–220, tháng 3 năm 2013.

[7] T. Gerkmann, “Nâng cao tối ưu MMSE của các hệ số giọng nói phức tạp với kiến thức trước không chắc chắn về pha giọng nói sạch,” trong Hội nghị quốc tế IEEE năm 2014 về âm thanh, giọng nói, quy trình tín hiệu. (ICASSP), tháng 5 năm 2014.

[8] ——, “Ước tính Bayesian của Hệ số phổ giọng nói sạch khi biết trước pha”, IEEE Trans. Signal Process., tập 62, số 16, trang 4199–4208, tháng 8 năm 2014.

[9] M. Krawczyk và T. Gerkmann, “Tái tạo pha STFT trong giọng nói để cải thiện giọng nói kênh đơn”, IEEE/ACM Trans. Audio Speech Lang. Process., tập 22, số 12, trang 1931–1940, tháng 12 năm 2014.

[10] P. Mowlaee và J. Kulmer, “Ước tính pha hài hòa trong việc tăng cường giọng nói kênh đơn bằng cách sử dụng phân tích pha và thông tin SNR,” IEEE/ACM Trans. về xử lý âm thanh, giọng nói và ngôn ngữ, tập 23, số 9, trang 1521–1532, tháng 9 năm 2015.

[11] N. Takahashi, P. Agrawal, N. Goswami và Y. Mitsufuji, “PhaseNet： Mô hình hóa pha rời rạc với mạng nơ-ron sâu để tách nguồn âm thanh,” trong Interspeech 2018, ngày 2 tháng 9 năm 2018.

[12] T. Afouras, JS Chung và A. Zisserman, “The Conversation： Deep Audio-Visual Speech Enhancement,” trong Interspeech 2018, ngày 2 tháng 9 năm 2018.

[13] J. Le Roux, G. Wichern, S. Watanabe, A. Sarroff và JR Hershey, “Phaset and Friends： Leveraging Discrete Representations for Source Separation,” Tạp chí IEEE về các chủ đề được chọn trong xử lý tín hiệu, tập 13, số 2, trang 370–382, tháng 5 năm 2019.

[14] N. Zheng và X.-L. Zhang, “Tăng cường giọng nói nhận biết pha dựa trên mạng nơ-ron sâu”, IEEE/ACM Trans. về xử lý âm thanh, giọng nói và ngôn ngữ, tập 27, số 1, trang 63–76, tháng 1 năm 2019.

[15] Y. Masuyama, K. Yatabe, Y. Koizumi, Y. Oikawa và N. Harada, “Tái tạo pha dựa trên việc mở gói pha tuần hoàn bằng mạng nơ-ron sâu”, trong Hội nghị quốc tế IEEE năm 2020 về âm thanh, quá trình tín hiệu giọng nói (ICASSP), tháng 5 năm 2020.

[16] DS Williamson, Y. Wang và D. Wang, “Mặt nạ tỷ lệ phức hợp để tăng cường độ và pha chung,” trong Hội nghị quốc tế IEEE năm 2016 về âm thanh, quá trình tín hiệu giọng nói (ICASSP), tháng 3 năm 2016.

[17] K. Tan và D. Wang, “Học ánh xạ phổ phức hợp bằng mạng hồi quy tích chập có cổng để tăng cường giọng nói đơn âm”, IEEE/ACM Trans. về xử lý âm thanh, giọng nói và ngôn ngữ, tập 28, trang 380–390, 2020.

[18] Y. Hu, Y. Liu, S. Lv, M. Xing, S. Zhang, Y. Fu, J. Wu, B. Zhang và L. Xie, “DCCRN： Mạng hồi quy tích chập phức hợp sâu để tăng cường giọng nói nhận biết pha,” trong Interspeech 2020, ngày 25 tháng 10 năm 2020.

[19] H. Erdogan, JR Hershey, S. Watanabe và J. Le Roux, “Phân tách giọng nói nhạy pha và tăng cường nhận dạng bằng cách sử dụng mạng nơ-ron hồi quy sâu,” trong Hội nghị quốc tế IEEE năm 2015 về âm thanh, quá trình tín hiệu giọng nói (ICASSP), tháng 4 năm 2015.

[20] Y. Luo và N. Mesgarani, “Conv-TasNet： Vượt qua che giấu thời gian-tần số lý tưởng để tách giọng nói,” IEEE/ACM Trans. on Audio, Speech, and Language Processing, tập 27, số 8, trang 1256–1266, tháng 8 năm 2019.

[21] Y. Luo, Z. Chen và T. Yoshioka, “Dual-Path Rnn： Efficient Long Sequence Modeling for Time-Domain Single-Channel Speech Separation,” trong Hội nghị quốc tế IEEE năm 2020 về âm thanh, quá trình tín hiệu giọng nói (ICASSP), tháng 5 năm 2020.

[22] C. Subakan, M. Ravanelli, S. Cornell, M. Bronzi và J. Zhong, “Attention Is All You Need In Speech Separation,” trong Hội nghị quốc tế IEEE năm 2021 về âm thanh, quá trình tín hiệu giọng nói (ICASSP), tháng 6 năm 2021.

[23] Y. Koyama, T. Vuong, S. Uhlich và B. Raj, “Khám phá hàm mất mát tốt nhất để tăng cường giọng nói có độ trễ thấp dựa trên DNN với mạng tích chập thời gian”, ngày 20 tháng 8 năm 2020. arXiv： 2005.11611 [cs, eess]. 。

[24] Z.-Q. Wang, G. Wichern và J. Le Roux, “Về sự bù trừ giữa độ lớn và pha trong tách giọng nói”, IEEE Signal Processing Letters, tập 28, trang 2018–2022, 2021.

[25] D. Ditter và T. Gerkmann, “Một ngân hàng bộ lọc gammatone đa pha để tách giọng nói qua Tasnet,” trong Hội nghị quốc tế IEEE năm 2020 về âm thanh, giọng nói, quy trình tín hiệu. (ICASSP), tháng 5 năm 2020.

[26] J. Heitkaemper, D. Jakobeit, C. Boeddeker, L. Drude và R. Haeb-Umbach, “Giải mã TasNet: Một cách tiếp cận phân tích”, trong Hội nghị quốc tế IEEE năm 2020 về âm thanh, quá trình tín hiệu giọng nói (ICASSP), tháng 5 năm 2020.

[27] M. Pariente, S. Cornell, A. Deleforge và E. Vincent, “Thiết kế ngân hàng lọc để tách giọng nói đầu cuối đến đầu cuối”, trong Hội nghị quốc tế IEEE năm 2020 về âm thanh, giọng nói, quy trình tín hiệu (ICASSP), tháng 5 năm 2020.

[28] M. Kazama, S. Gotoh, M. Tohyama và T. Houtgast, “Về ý nghĩa của pha trong phổ Fourier ngắn hạn đối với khả năng hiểu lời nói,” Tạp chí của Hiệp hội Âm học Hoa Kỳ, tập 127, số 3, trang 1432–1439, 2010.

[29] T. Peer và T. Gerkmann, “Dự đoán khả năng hiểu của lời nói được tái tạo từ độ lớn hoặc pha của nó,” trong Giao tiếp lời nói; Hội nghị ITG lần thứ 14, Kiel (trực tuyến), tháng 9 năm 2021.

[30] L. Alsteris và K. Paliwal, “Tầm quan trọng của hình dạng cửa sổ đối với việc tái tạo pha duy nhất của giọng nói,” trong Hội nghị quốc tế IEEE năm 2004 về âm học, giọng nói và xử lý tín hiệu, tập 1, tháng 5 năm 2004.

[31] KK Paliwal, JG Lyons và KK W´ojcicki, “Ưu tiên khoảng thời gian cửa sổ 20-40 ms trong phân tích giọng nói,” trong Hội nghị quốc tế lần thứ 4 về hệ thống xử lý tín hiệu và truyền thông năm 2010, 2010. 。

[32] F. Chollet, “Xception： Học sâu với các phép tích chập có thể tách biệt theo chiều sâu,” trong Hội nghị IEEE năm 2017 về Thị giác máy tính và Nhận dạng mẫu (CVPR), Honolulu, HI, tháng 7 năm 2017.

[33] J. Le Roux, S. Wisdom, H. Erdogan và JR Hershey, “SDR – Nửa vời hay hoàn thiện?” Trong Hội nghị quốc tế IEEE năm 2019 về âm thanh, giọng nói, quy trình tín hiệu (ICASSP), tháng 5 năm 2019.

[34] CK Reddy, V. Gopal, R. Cutler, E. Beyrami, R. Cheng, H. Dubey, S. Matusevych, R. Aichner, A. Aazami, S. Braun, P. Rana, S. Srinivasan và J. Gehrke, “Thử thách giảm tiếng ồn sâu INTERSPEECH 2020: Bộ dữ liệu, Khung thử nghiệm chủ quan và Kết quả thử thách,” trong Interspeech 2020, ngày 25 tháng 10 năm 2020.

[35] DB Paul và JM Baker, “Thiết kế cho kho dữ liệu CSR dựa trên tạp chí phố Wall,” trong Biên bản Hội thảo về Ngôn ngữ nói và Tự nhiên - HLT '91, Harriman, New York, 1992.

[36] J. Barker, R. Marxer, E. Vincent và S. Watanabe, “Thử thách phân tách và nhận dạng giọng nói 'CHiME' thứ ba: Bộ dữ liệu, nhiệm vụ và đường cơ sở,” trong Hội thảo IEEE năm 2015 về Nhận dạng và Hiểu giọng nói Tự động (ASRU), 2015. 。

[37] M. Krawczyk-Becker và T. Gerkmann, “Đánh giá chất lượng nhận thức của việc tăng cường giọng nói kênh đơn nhận biết pha,” Tạp chí của Hiệp hội Âm học Hoa Kỳ, tập 140, số 4, EL364–EL369, tháng 10 năm 2016.

。

Tác giả: Ling Nizhan hoan nghênh mọi hình thức tái bản nhưng vui lòng ghi rõ nguồn. Giới hạn ở trình độ của riêng tôi, nếu có bất kỳ cách diễn đạt nào không phù hợp trong bài viết hoặc mã, vui lòng khai sáng cho tôi. Bài viết này không nhằm mục đích thương mại, nó chỉ nhằm mục đích tự học. Sẽ có các liên kết tham khảo ở cuối bài viết. Tôi có thể sao chép lời của tác giả gốc nếu bạn thấy phiền, tôi sẽ sửa đổi hoặc xóa nó.

Cuối cùng, bài viết này về dịch giấy: 2022_Phase-AwareDeepSpeechEnhancement:It'sAllAboutTheFrameLength kết thúc tại đây. Nếu bạn muốn biết thêm về dịch giấy: 2022_Phase-AwareDeepSpeechEnhancement:It'sAllAboutTheFrameLength, vui lòng tìm kiếm các bài viết của CFSDN hoặc tiếp tục duyệt các bài viết liên quan, tôi hy vọng bạn sẽ ủng hộ blog của tôi trong tương lai! .