Tổng hợp tiếng nói (hay Chuyển văn bản thành tiếng nói,tiếng Anh Speech Synthesis, Text-to-Speech) là quá trình nhân tạo sinh ra tiếng nói của con người.
Lĩnh vực này được biết đến với hai thuật ngữ có thể dùng thay thế cho nhau: (i) tổng hợp tiếng nói (Speech Synthesis): quá trình tạo ra tiếng nói tổng hợp và (ii) Chuyển đổi từ văn bản sang tiếng nói (Text-To-Speech TTS): quá trình chuyển từ dạng văn bản viết thành tiếng nói được sinh ra từ máy. Tiếng nói được sinh ra từ bộ tổng hợp tiếng nói (speech synthesizer) hoặc hệ thống chuyển văn bản thành tiếng nói (TTS system) có thể phát lên qua cạc âm thanh (sound card) của máy tính hoặc các thiết bị tổng hợp tiếng nói khác.
Phương pháp tổng hợp tiếng nói[sửa]
Tổng hợp tiếng nói trong những năm gần đây đã có nhiều những cải tiến vượt bậc khi các giọng tổng hợp hiện nay được đánh giá tương đương với giọng con người. Những bộ tổng hợp tiếng nói đầu tiên mô phỏng các thành phần của bộ máy phát âm của con người (từ các luồng khí đi vào/ra miệng, các chuyển động các khớp nối như hàm, lưỡi, răng, môi…) bằng các mô hình toán học. Mặc dù có thể coi đây là cách tự nhiên nhất để tạo ra giọng nói con người nhưng trong thực tế, giọng nói tạo ra từ những hệ thống như thế này có chất lượng không tốt, do độ phức tạp của các mô hình toán học cũng như các yếu tố cơ học.
Tiếng nói tổng hợp cũng có thể được tạo ra bằng cách ghép nối các đơn vị tiếng nói (như âm vị, tiếng) đã thu âm từ trước lại. Tiếng nói đầu ra của phương pháp này có chất lượng tốt vì đó chính là tiếng nói thu âm của con người. Tuy nhiên, trong thực tế, sự gián đoạn tại các điểm ghép nối có thể khiến cho âm thanh đầu ra không được liên tục, bị biến dạng, khó nghe mặc dù có thể đã sử dụng biện pháp và thuật toán làm trơn tín hiệu tại các điểm ghép nối. Bên cạnh đó, tập hợp các đơn vị luôn bị hạn chế về số lượng cũng như nội dung, ngữ cảnh nên tiếng nói tổng hợp nghe thô ráp, thiếu đi tính biểu cảm. Hệ thống này phù hợp với những ứng dụng có sử dụng tổng hợp tiếng nói trong phạm vi lĩnh vực hẹp, từ vựng giới hạn, hoặc cần lượng lớn dữ liệu theo nhiều ngữ cảnh khác nhau để có nhiều sự lựa chọn âm vị dài hơn nhằm tạo ra giọng nói chất lượng tốt.
Trong những năm gần đây, phương pháp được sử dụng nhiều và cho kết quả tốt cũng như ứng dụng hiệu quả trong thực tế là phương pháp tham số thống kê. Với phương pháp này, một bộ tổng hợp tiếng nói hiện đại nói có hai bước chính: (i) quá trình sinh ra các tham số âm học (như phổ, tần số…) của tiếng nói đầu vào sử dụng một mô hình học máy (như HMM) hoặc học sâu (DNN), và (ii) quá trình tái tạo tiếng nói sử dụng một bộ mã tiếng nói (vocoder) từ các đặc trưng âm học được sinh trong bước trước. Với phương pháp này, tiếng nói đầu ra mượt mà hơn, tuy chất lượng âm thanh chưa thực sự tốt do tiếng nói được tạo ra là hoàn toàn nhân tạo. Tuy nhiên, với phương pháp này, tiếng nói sinh ra có ngữ điệu và biểu cảm tốt hơn, tập dữ liệu huấn luyện cũng không cần lớn cũng có thể tổng hợp được đầu vào bất kỳ.
Phương pháp tổng hợp tiếng nói tốt nhất, có thể tạo ra tiếng nói đầu ra gần như giọng con người người, chính là sử dụng mô hình đầu cuối (end-to-end) kết hợp bộ mã tiếng nói theo mô hình wavenet. Phương pháp này mô phỏng tiếng nói tại mức thấp nhất có thể, mẫu tín hiệu (sample), thay vì tại mức âm vị như các bộ mã tiếng nói trước đó. Với phương pháp này, âm thanh được sinh ra rất mịn, có ngữ điệu và biểu cảm rất tốt và gần như không thể phân biệt chất lượng tiếng nói tổng hợp từ máy sinh ra với chất lượng tiếng nói thu âm của con người.
Ứng dụng[sửa]
Ứng dụng thực tế đầu tiên của bộ tổng hợp tiếng nói chính là việc hỗ trợ người khiếm thị đọc sách. Dù những ứng dụng ban đầu với chất lượng tiếng nói tổng hợp chưa tốt nhưng đã mang lại nhiều lợi ích cho những người khiếm thị so với những lựa chọn khác như dùng chữ nổi hay có người khác đọc cho nghe. Hiện nay, ứng dụng quan trọng và có thời gian sử dụng lâu nhất (cho tới giờ) chính là bộ đọc màn hình, giúp người khiếm thị định hướng trên hệ điều hànhvà sử dụng máy tính. Cũng có những ứng dụng khác hỗ trợ người khiếm thị như khi kết hợp với máy quét và phần mềm nhận dạng chữ giúp người khiếm thị có thể tiếp cận được với dạng thông tin được viết hoặc in ra. Những người khuyết tật khác như người mất khả năng đọc hay mất hoặc rối loạn khả năng nói cũng được hưởng lợi từ công nghệ này với các thiết bị hỗ trợ giao tiếp.
Ngày nay, công nghệ tổng hợp tiếng nói được sử dụng nhiều trong giáo dục, giải trí như giúp hỗ trợ việc học ngôn ngữ mới, hay tạo sách nói, đồ chơi có phát ra tiếng nói. Các hệ thống TTS cũng được sử dụng rộng rãi trong việc đọc tin nhắn, email, tin tức, truyện, bản tin thời tiết, thông tin về giao thông, hướng dẫn tại các nhà ga, sân bay hay thông báo tại bệnh viện, trường học.
Một trong những ứng dụng chính của tổng hợp tiếng nói ngày nay là tự động hoá tổng đài (call center), khi các thông tin dạng văn bản có thể được truy cập thông qua điện thoại. Khách hàng có thể trả hoá đơn tiền điện, đặt vé máy bay hay thực hiện giao dịch thông qua một hệ thống hội thoại tự động. tổng hợp tiếng nói cũng được sử dụng trong các hệ thông hỏi đáp hoặc tìm kiếm bằng tiếng nói. Hiện nay, các hệ thống tương tác người máy bằng tiếng nói điển hình và nổi tiếng có thể kể đến Google Assistant, Apple Siri, AOL, Nuance Nina, Samsung S-Voice... Trong các ứng dụng này, trợ lý ảo sẽ giúp người dùng thực hiện các yêu cầu hoặc dịch vụ thông qua giao diện hội thoại tiếng nói bao gồm cả việc xác thực, truy vấn thông tin, hay thực hiện các giao dịch.
Trong mấy năm gần đây, tổng hợp tiếng nói cho tiếng Việt đã được nghiên cứu và đưa vào ứng dụng. Trước đây, các sản phẩm nghiên cứu chủ yếu dựa trên phương pháp tổng hợp ghép nối như HoaSung (Viện MICA, Trường ĐHBK HN), V-Talk (Viện công nghẹ thông tin – VHLKH&CNQG) hoặc phương pháp tổng hợp tham số thống kê VOS (Tiếng nói phương Nam – Trường Đhọc kết hợpTN, ĐHQG TPHCM), VNspeak, VTed (Viện công nghẹ thông tin&TT, Trường ĐHBK HN). Hiện nay, có khá nhiều sản phẩm TTS đã được ứng dụng trong thực tế như Vbee, FPT.AI, Viettel, Zalo... Các sản phẩm này đều sử dụng những phương pháp tổng hợp tiếng nói mới nhất như học sâu DNN, mô hình đầu cuối End-to-End và Wavenet. Tiếng nói đầu ra của các sản phẩm này khá tự nhiên, có những giọng rất tự nhiên như giọng thu âm của con người. Công nghệ TTS đã được ứng dụng cho việc xây dựng tổng đài thông minh, báo nói (tích hợp trực tiếp trên đa số các báo điện tử phổ biến như Vietnamnet, Dantri…) hay ứng dụng để xây dựng các nội dung tiếng nói (clip, streamer…) chia sẻ trên các trang mạng xã hội hoặc trên mạng chia sẻ dữ liệu khác.
Tài liệu tham khảo[sửa]
- Dutoit Thierry. An Introduction to Text-to-speech Synthesis. Kluwer Academic Publishers, Norwell, MA, USA, 1997. ISBN 0-7923-4498-7.
- H. Ze, A. Senior and M. Schuster. Statistical parametric speech synthesis using deep neural networks.2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, 2013, pp.7962-7966.
- Shen, J., Pang, R., Weiss, R. J., et al.2017. Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions.2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
- Taylor Paul. Text-to-Speech Synthesis. Cambridge University Press, Cambridge, UK; NewYork, 1 edition edition, March 2009. ISBN 9780521899277.
- Thi Thu Trang Nguyen, Christophe D’Alessandro, Albert Rilliard, Tran Do Dat. HMM-based TTS for Hanoi Vietnamese: Issues in design and evaluation. Interspeech 2013, pp.2311-2315.25-29 August 2013. Lyon, France.