Mục từ này đã đạt chất lượng ở mức sản phẩm bước đầu của Đề án Biên soạn Bách khoa toàn thư Việt Nam giai đoạn 1
Khôi phục âm thanh

Khôi phục âm thanh (tiếng Anh Audio Restoration) là khôi phục độ rõ ràng của âm thanh bằng kỹ thuật loại bỏ những tạp âm (cg. nhiễu) và sửa chữa những điểm không hoàn hảo có trong bản ghi âm làm cho trải nghiệm của người nghe trở nên tốt hơn.

Những tạp âm thường bao gồm nhiễu xung (impulse noise), tiếng rít, rè của băng đĩa, tiếng rung, tiếng ồn cơ học từ microphone và bộ khuếch đại âm thanh, v.v. Âm thanh có chứa tạp âm được biểu diễn trong miền thời gian theo công thức sau:

                                xt= st+ nt

Trong đó xtChữ được viết xuống dưới là âm thanh quan sát được, st là âm thanh mong muốn (âm thanh cần khôi phục), nt là tín hiệu tạp âm.

Khôi phục âm thanh hay còn gọi là “làm sạch âm thanh” là một nhiệm vụ hậu kỳ để chỉnh sửa âm thanh chứa tạp âm bằng nhiều cách khác nhau nhằm thu được tín hiệu đầu ra càng giống với tín hiệu mong muốn s_t càng tốt. Nói cách khác, mục tiêu của khôi phục âm thanh là thay đổi tỷ lệ trước và sau của tín hiệu trên nhiễu

                                SNR= 20log10(S/N)

với S là biên độ tín hiệu mong muốn, N là tổng hợp năng lượng các loại nhiễu không mong muốn trộn lẫn trong tín hiệu, SNR (Signal-to-Noise Ratio) được tính bằng đơn vị đề-xi-ben (dB) và giá trị càng cao thường sẽ càng tốt cho trải nghiệm của người nghe do biên độ của tín hiệu mong muốn vượt trội hơn so với nhiễu.

Các tình huống cần khôi phục âm thanh[sửa]

Có hai tình huống trong thực tế cần khôi phục âm thanh, đó là:

  • Khôi phục những bản ghi âm cũ từ đĩa CD (Compact Disk) hay băng từ (Digital Audio Tape - DAT) đã bị suy giảm chất lượng theo thời gian do xuất hiện vết xước trên băng ghi âm/đĩa từ, hay do sự tác động của việc phát đi phát lại nhiều lần. Chúng xuất hiện những tạp âm như tiếng nhấp, tiếng lách tách hay tiếng rè rè che khuất đi âm thanh chính.
  • Khôi phục những bản ghi âm kỹ thuật số có chất lượng tín hiệu âm thanh không tốt. Nguyên nhân thường do những hạn chế của phương tiện ghi âm như xuất hiện tiếng ồn rè trong microphone và bộ khuếch đại, hoặc âm thanh bị suy giảm chất lượng trong quá trình truyền dẫn. Khôi phục âm thanh còn được thực hiện để nâng cao chất lượng âm thanh bị suy giảm do quá trình mã hóa/giải mã, mất mát gói tin trên đường truyền internet, viễn thông, điện thoại, và các thiết bị trợ thính.

Các kĩ thuật khôi phục âm thanh[sửa]

Phương pháp thủ công[sửa]

Là phương pháp xử lý bằng tay tại các studio với sự trợ giúp của các phần mềm xử lý âm thanh chuyên dụng như Izotope, Adobe Audition, Audacity, v.v. Âm thanh được khôi phục bằng các thao tác cắt bỏ những phần không tốt quan sát thấy trên phổ âm thanh để loại bỏ những âm thanh không mong muốn rời rạc, và bù đắp những phần thiếu hụt để có âm thanh tốt hơn. Việc khôi phục âm thanh thủ công đòi hỏi các kỹ sư âm thanh có kinh nghiệm, tay nghề cao và thường tốn rất nhiều thời gian.

Các bộ lọc[sửa]

Có thể dùng các bộ lọc tuyến tính, lọc Wiener, lọc Kalman, v.v. để loại bỏ các tạp âm có dải tần số khá riêng biệt. Chẳng hạn tiếng rít do vết xước của băng đĩa có thể loại bỏ bằng bộ lọc tần số cao (high frequency filter), bộ lọc trung vị có thể loại bỏ nhiễu xung. Tuy nhiên không một bộ lọc nào có thể loại bỏ được tất cả các loại tạp âm có trong âm thanh nên phương pháp này thường được dùng cho từng loại tiếng ồn riêng biệt khi nhận biết được dải tần số của chúng.

Phương pháp dựa trên mô hình xác suất thống kê[sửa]

Các phương pháp xử lý tín hiệu dựa trên mô hình xác suất thống kê (statistical signal processing) đã được chứng minh có thể phát hiện và loại bỏ những tạp âm, đồng thời khôi phục tín hiệu âm thanh mong muốn bằng các thuật toán phức tạp. Khác với các bộ lọc, mô hình thống kê có thể mô hình hóa và xử lý nhiều dạng tạp âm khác nhau ngay cả khi các tạp âm có phổ trùng khớp (overlap) với phổ của tín hiệu mong muốn.

  • Các mô hình nội suy Gaussian (Gaussian Autoregressive - AR), nội suy trung bình (Autoregressive Moving Average - ARMA), và nội suy thay đổi theo thời gian (Time-Varying Autoregression - TVAR) xử lý hiệu quả đối với các tạp âm có dạng phân bố Gaussian (Gaussian impulses) như tiếng rít, tiếng click.
  • Các mô hình thống kê tiên tiến khác được sử dụng để loại bỏ và phục hồi âm thanh đối với những tạp âm có dạng phi Gaussian (non-Gaussian impulses) như: mô hình Bayesian cùng với thuật toán tối đa hóa kỳ vọng (EM- Expectation Maximization) dùng để nội suy tín hiệu âm thanh mong muốn, mô hình chuỗi Markov (MCMC - Markov chain Monte Carlo), mô hình hồi quy Gabor (Gabor regression) được dùng để nội suy và phát hiện tín hiệu tạp âm phi Gaussian như tiếng thở của người nói, quãng ngắt âm, v.v., mô hình dựa trên tính chất thưa thớt (sparsity) của tín hiệu.
Tập tin:Khôi phục tín hiệu.png
Kết quả khôi phục tín hiệu bằng phương pháp thống kê, từ trái qua phải: tín hiệu chứa tạp âm, tín hiệu sau khi được khôi phục bằng mô hình xác suất thống kê.

Phương pháp dựa trên mạng neuron học sâu DNN[sửa]

Với những tiến bộ nhanh chóng và vượt bậc trong thời gian gần đây của phương pháp học sâu trên mạng nơ-ron (Deep Neural Network - DNN), DNN đã và đang được sử dụng rộng rãi trong lĩnh vực xử lý tín hiệu nói chung cũng như khôi phục âm thanh nói riêng. Trong khôi phục âm thanh, DNN được áp dụng chủ yếu cho các tình huống mà những phương pháp xử lý tín hiệu truyền thống gặp khó khăn như khôi phục dải tần số cao (upsampling), khôi phục cả đoạn âm thanh bị mất mát. Đặc điểm chung của phương pháp dựa trên DNN là cần một lượng dữ liệu lớn để huấn luyện mô hình.

Đánh giá hiệu quả khôi phục âm thanh[sửa]

Để chuẩn hóa trải nghiệm người nghe và đánh giá chất lượng âm thanh, cộng đồng xử lý âm thanh trên thế giới sử dụng một số độ đo tiêu chuẩn sau:

  • SNR (signal-to-noiseratio) đo tỷ lệ năng lượng tín hiệu âm thanh trên tín hiệu nhiễu theo công thức (2), giá trị càng cao càng cho thấy biên độ trung bình của nhiễu nhỏ so với tín hiệu mong muốn.
  • PEAQ (Perceptual Evaluation of Audio Quality) là độ đo đánh giá chất lượng âm thanh mô phỏng theo cảm nhận tri giác của con người. Đây là độ đo được hiệp hội truyền thông quốc tế ITU (The International Telecommunication Union) khuyến nghị sử dụng từ năm 1999.
  • PEMO-Q là độ đo đánh giá khác có tính đến cảm nhận thính giác của con người. PEMO-Q tính toán độ tương đồng về tri giác (Perceptual Similarity Measure - PSM) khi nghe tín hiệu sạch và tín hiệu được khôi phục.

Lịch sử phát triển[sửa]

Việc áp dụng các kỹ thuật xử lý tín hiệu kỹ thuật số (Digital Signal Processing - DSP) cho âm thanh đã được nghiên cứu từ những năm 1960, 1970.

Sự ra đời của đĩa CD năm 1984 đã mở ra chiến dịch phát hành lại các bản ghi âm analog trước đó. Thực trạng nhiều bản thu âm analog gốc đã bị giảm chất lượng, cùng với nhu cầu phát hành lại các bản thu âm analog ở dạng kỹ thuật số mới đã thúc đẩy việc nghiên cứu phát triển các phương pháp DSP để khôi phục âm thanh. Các hệ thống khôi phục âm thanh thương mại đầu tiên ra đời từ các công ty như CEDAR Audio Ltd. ở Anh, Sonic Solutions ở Mỹ cung cấp hệ thống khôi phục âm thanh chuyên dụng cho các phòng thu, công ty truyền thông, phát thanh truyền hình và các xưởng phim trên toàn thế giới. Lần đầu tiên những tiếng lách cách, tiếng rít,… có thể bị loại bỏ gần như hoàn toàn khỏi các bản ghi âm analog hay băng từ và tái phát hành trên các đĩa CD với chất lượng tốt hơn.

Đến những năm 1990, với sự ra đời của các định dạng âm thanh kỹ thuật số khác, cùng với sự phổ biến của máy tính cá nhân và điện thoại thông minh, các ứng dụng của khôi phục âm thanh ngày càng trở nên phổ biến đối với các bản ghi âm từ internet và bản tự ghi âm cá nhân. Các hệ thống khôi phục âm thanh và giảm tiếng ồn được tích hợp trong card âm thanh của máy tính và các hệ thống HIFI. Đây được coi là giai đoạn đầu tiên trong lịch sử khôi phục âm thanh.

Giai đoạn thứ hai trong lịch sử khôi phục âm thanh bắt đầu vào cuối những năm 1990, các phương pháp thống kê được nghiên cứu sử dụng nhằm khôi phục được những lỗi phức tạp hơn, đạt được độ trung thực cao hơn so với âm thanh được ghi ban đầu.

Trong những năm gần đây, cùng với sự bùng nổ của mạng nơ ron và phương pháp học sâu (deep learning), nhiều phương pháp dựa trên DNN đã được sử dụng để khôi phục các đoạn âm thanh bị mất, loại bỏ các loại nhiễu, tăng cường chất lượng âm thanh, mở rộng dải tần số âm thanh (bandwith expansion/ audio upsampling) để tăng trải nghiệm người nghe. Các phương pháp dựa trên DNN có thể khôi phục được tín hiệu bị mất mát hay tín hiệu có lỗi lớn hơn các phương pháp xử lý tín hiệu, tuy nhiên cần phải có lượng dữ liệu lớn để huấn luyện mạng nơ-ron ban đầu. Đây được coi là giai đoạn thứ ba trong lịch sử khôi phục âm thanh.

Khôi phục âm thanh được ứng dụng trong nhiều lĩnh vực khác nhau như: lưu trữ, truyền tải và truy xuất thông tin âm thanh, phát hiện âm thanh, xác thực âm thanh, nhận dạng và tổng hợp âm thanh.

Khôi phục âm thanh hiện nay được tích hợp trong nhiều phần mềm ghi âm và xử lý âm thanh như Adobe Audition, Audacity, Izotope, Tape Restore Live, Bitsonic Sound Recovery, v.v. Các kỹ thuật hiện đại vẫn đang tiếp tục được nghiên cứu phát triển bởi các công ty sở hữu các phần mềm về âm thanh, các nhóm nghiên cứu mạnh về âm thanh trên thế giới.

Việt Nam vốn có một kho tàng văn hóa dân gian phong phú, đa dạng hiện đang được lưu trữ tại các viện bảo tàng trong đó có một lượng lớn băng, đĩa các loại hình ca múa nhạc dân gian. Việc ứng dụng các kỹ thuật khôi phục âm thanh để nâng cao chất lượng các băng đĩa đó cho mục đích lưu trữ, bảo tồn và tái phát hành là rất cần thiết và có giá trị văn hóa lớn.

Ngoài ra, theo xu hướng chung trên thế giới, nhu cầu xử lý nâng cao chất lượng dữ liệu đa phương tiện trong đó có âm thanh ở Việt Nam cũng ngày càng gia tăng.

Tài liệu tham khảo[sửa]

  1. Godsill S.J., Rayner P.J.W., Cappé O., Digital Audio Restoration. In: Kahrs M., Brandenburg K. (eds) Applications of Digital Signal Processing to Audio and Acoustics. The International Series in Engineering and Computer Science, vol. 437. Springer, Boston, MA, 2002.
  2. Godsill S.J., Rayner P.J.W., Digital Audio Restoration: A Statistical Model-Based Approach. Springer, 1998.
  3. Moorer J. A., “DSP Restoration Techniques for Audio,” IEEE International Conference on Image Processing, San Antonio, TX, IV - 5-IV, 2007.
  4. Canazza S., De Poli G., Mian G. A., "Restoration of Audio Documents by Means of Extended Kalman Filter," in IEEE Transactions on Audio, Speech, and Language Processing, 18(6), 1107-1115, 2010.
  5. Maue D., Kush J. C. Advances in Audio Restoration. In: Khosrow-Pour, D.B.A., M. (Ed.), Encyclopedia of Information Science and Technology, Third Edition, 6064-6079. IGI Global, 2015.