Sửa đổi Nhận dạng tiếng nói

Chú ý: Bạn chưa đăng nhập và địa chỉ IP của bạn sẽ hiển thị công khai khi lưu các sửa đổi.

Bạn có thể tham gia như người biên soạn chuyên nghiệp và lâu dài ở Bách khoa Toàn thư Việt Nam, bằng cách đăng ký và đăng nhập - IP của bạn sẽ không bị công khai và có thêm nhiều lợi ích khác.

Các sửa đổi có thể được lùi lại. Xin hãy kiểm tra phần so sánh bên dưới để xác nhận lại những gì bạn muốn làm, sau đó lưu thay đổi ở dưới để hoàn tất việc lùi lại sửa đổi.

Bản hiện tại Nội dung bạn nhập
Dòng 1: Dòng 1:
 
{{sơ}}[[File:Subvocal speech recognition.jpg|nhỏ|Một thí nghiệm thu âm tiếng nói để nhận dạng]]
 
{{sơ}}[[File:Subvocal speech recognition.jpg|nhỏ|Một thí nghiệm thu âm tiếng nói để nhận dạng]]
'''Nhận dạng tiếng nói''' (còn gọi là '''nhận dạng tiếng nói tự động'''; tiếng Anh ''speech recognition'', ''automatic speech recognition'') là quá trình biến đổi tín hiệu âm thanh thu được của người nói thành một chuỗi các từ có nội dung tương ứng dưới dạng văn bản, nhằm mở rộng thêm khả năng lưu trữ, tìm kiếm thông tin và khả năng tương tác với máy tính hoặc bất kỳ thiết bị nào có tương tác thông qua lời nói, ví dụ như với rô bốt.  
+
'''Nhận dạng tiếng nói''' (còn gọi là ''nhận dạng tiếng nói tự động''; tiếng Anh ''speech recognition'', ''automatic speech recognition'') là quá trình biến đổi tín hiệu âm thanh thu được của người nói thành một chuỗi các từ có nội dung tương ứng dưới dạng văn bản, nhằm mở rộng thêm khả năng lưu trữ, tìm kiếm thông tin và khả năng tương tác với máy tính hoặc bất kỳ thiết bị nào có tương tác thông qua lời nói, ví dụ như với rô bốt.  
  
Nhận dạng tiếng nói là một dạng bài toán trong lĩnh vực [[nhận dạng]] vì vậy cũng tồn tại những khó khăn tương tự như các bài toán nhận dạng khác. Những vấn đề cần giải quyết trong nhận dạng tiếng nói đặt ra ngay từ ban đầu là: vấn đề phụ thuộc người nói, tốc độ phát âm, hiện tượng đồng âm, kích thước của bộ từ vựng (từ điển), nhiễu và sự khác biệt giữa các ngôn ngữ nói.
+
Nhận dạng tiếng nói là một dạng bài toán trong lĩnh vực nhận dạng vì vậy cũng tồn tại những khó khăn tương tự như các bài toán nhận dạng khác. Những vấn đề cần giải quyết trong nhận dạng tiếng nói đặt ra ngay từ ban đầu là: vấn đề phụ thuộc người nói, tốc độ phát âm, hiện tượng đồng âm, kích thước của bộ từ vựng (từ điển), nhiễu và sự khác biệt giữa các ngôn ngữ nói.
  
 
Trong lịch sử phát triển, các hệ thống nhận dạng tiếng nói có thể được phân loại theo các tiêu chí khác nhau (và cũng phản ánh mức độ khó của bài toán được giải quyết bởi từng hệ thống):  
 
Trong lịch sử phát triển, các hệ thống nhận dạng tiếng nói có thể được phân loại theo các tiêu chí khác nhau (và cũng phản ánh mức độ khó của bài toán được giải quyết bởi từng hệ thống):  
*Phân loại theo cách phát âm: từ cô lập (''isolated words''), từ liên kết (''connected words''), tiếng nói liên tục (''continuous speech''), tiếng nói tự nhiên (''spontaneous speech'');
+
*Phân loại theo cách phát âm: từ cô lập (isolated words), từ liên kết (connected words), tiếng nói liên tục (continuous speech), tiếng nói tự nhiên (spontaneous speech);
*Phân loại theo dựa trên mô hình người nói: phụ thuộc người nói (''speaker dependent models''), độc lập người nói (''speaker independent models''), thích nghi người nói (''speaker adaptation models'');
+
*Phân loại theo dựa trên mô hình người nói: phụ thuộc người nói (speaker dependent models), độc lập người nói (speaker independent models), thích nghi người nói (speaker adaptation models);
 
*Nhận dạng tiếng nói với hệ thống từ vựng nhỏ (vài trăm từ) hoặc từ vựng lớn (hàng nghìn từ);
 
*Nhận dạng tiếng nói với hệ thống từ vựng nhỏ (vài trăm từ) hoặc từ vựng lớn (hàng nghìn từ);
 
*Nhận dạng tiếng nói trong môi trường nhiều hoặc ít nhiễu.  
 
*Nhận dạng tiếng nói trong môi trường nhiều hoặc ít nhiễu.  
==Nguyên lý==
 
Khi nói, không khí được đẩy từ phổi qua miệng và khoang mũi. Luồng không khí này bị cản trở và thay đổi do hoạt động của lưỡi và môi. Điều này tạo ra các co giãn của không khí, sóng âm, âm thanh. Những âm thanh tạo thành, tương ứng với nguyên âm và phụ âm, thường được gọi là âm vị. Các âm vị được kết hợp với nhau tạo thành từ. Mỗi âm vị được hình thành trong quá trình nói phụ thuộc vào ngữ cảnh của nó, tức là phụ thuộc vào âm vị đứng ngay trước và âm vị đứng ngay sau nó. Tuy nhiên, tiếng nói không chỉ là chuỗi các âm vị tạo thành từ và câu. Có nhiều thành phần của tiếng nói mang thông tin, ví dụ: phong cách nói thể hiện qua âm điệu, cao độ, âm lượng, ngữ điệu. Thông tin này đôi khi được gọi là thông tin phi từ vựng (''paralinguistic'') của tiếng nói và cũng được sử dụng trong nhiều phương pháp nhằm nâng cao độ chính xác của hệ thống nhận dạng.
 
  
Các thành phần chính của một hệ thống nhận dạng tiếng nói kinh điển bao gồm:
+
Khi nói, không khí được đẩy từ phổi qua miệng và khoang mũi. Luồng không khí này bị cản trở và thay đổi do hoạt động của lưỡi và môi. Điều này tạo ra các co giãn của không khí, sóng âm, âm thanh. Những âm thanh tạo thành, tương ứng với nguyên âm và phụ âm, thường được gọi là âm vị. Các âm vị được kết hợp với nhau tạo thành từ. Mỗi âm vị được hình thành trong quá trình nói phụ thuộc vào ngữ cảnh của nó, tức là phụ thuộc vào âm vị đứng ngay trước và âm vị đứng ngay sau nó. Tuy nhiên, tiếng nói không chỉ là chuỗi các âm vị tạo thành từ và câu. Có nhiều thành phần của tiếng nói mang thông tin, ví dụ: phong cách nói thể hiện qua âm điệu, cao độ, âm lượng, ngữ điệu. Thông tin này đôi khi được gọi là thông tin phi từ vựng (paralingustic) của tiếng nói và cũng được sử dụng trong nhiều phương pháp nhằm nâng cao độ chính xác của hệ thống nhận dạng.
#Tiền xử lý (''pre-processing''/''digital signal processing''). Tín hiệu tiếng nói (âm thanh) ở dạng liên tục (''analog'') được biến đổi về dạng tín hiệu số, cụ thể rút trích các tín hiệu nằm trong miền tần số mà tai người nghe được (0-10kHz), chia tín hiệu tiếng nói thành các khung có kích thước từ 10ms đến 30ms…  
+
 
#Trích xuất thuộc tính (''feature extraction'') hay tính toán đặc trưng. Bước trích xuất thuộc tính / đặc trưng nhằm tìm ra tập hợp các tham số của phát âm có tương quan âm thanh với tín hiệu tiếng nói. Các tham số này được tính toán thông qua phép biến đổi tín hiệu tiếng nói sang miền tần số bằng phép biến đổi Fourier rời rạc. Hai loại đặc trưng kinh điển được sử dụng phổ biến sau khi biến đổi Fourier là các hệ số đường bao phổ của tần số mel (''mel frequency cepstral coefficient'' - MFCC), mã dự báo tuyến tính (''perceptual linear prediction'' - PLP) và các dẫn xuất của nó.  
+
Các thành phần chính của một hệ thống nhận dạng kinh điển bao gồm:
#Mô hình hóa ngữ âm (''acoustic model''). Đây là thành phần cơ bản của hệ thống nhận dạng tiếng nói nhằm tạo ra mô hình âm thanh - miền tri thức phản ánh mối tương quan giữa thông tin âm thanh và ngữ âm. Mô hình ngữ âm đóng vai trò quan trọng xác định hiệu quả của hệ thống và gánh vác phần lớn tải tính toán. Quá trình huấn luyện sẽ tạo liên kết giữa các đơn vị cơ bản (âm vị) của tiếng nói và âm thanh quan sát. Việc huấn luyện hệ thống yêu cầu tạo ra một đại diện mẫu cho các thuộc tính của lớp bằng cách sử dụng một hoặc nhiều mẫu tương ứng với âm thanh tiếng nói của cùng một lớp. Nhiều mô hình có sẵn cho mô hình hóa âm thanh trong đó Mô hình Markov ẩn (HMM) được sử dụng và được chấp nhận rộng rãi vì đây là thuật toán hiệu quả cho huấn luyện và nhận dạng. Cũng có nhiều mô hình hoặc kỹ thuật khác để huấn luyện hệ thống như mạng nơ ron nhân tạo...  
+
#Tiền xử lý (pre-processing/digital signal processing). Tín hiệu tiếng nói (âm thanh) ở dạng liên tục (analog) được biến đổi về dạng tín hiệu số, cụ thể rút trích các tín hiệu nằm trong miền tần số mà tai người nghe được (0-10kHz), chia tín hiệu tiếng nói thành các khung có kích thước từ 10ms đến 30ms…  
#Mô hình ngôn ngữ (''language model''). Đây là một tập phân bố xác suất của các đơn vị (thường là từ) trên một tập văn bản cụ thể. Một cách tổng quát, mô hình ngôn ngữ cho phép xác định xác suất của một cụm từ hoặc một câu trong một ngôn ngữ, một thành phần quan trọng trong hệ thống nhận dạng từ vựng lớn, khi mà tại một thời điểm mô hình ngữ âm có thể xác định ra rất nhiều từ có cùng xác suất. Khi đó mô hình ngôn ngữ sẽ chỉ ra từ gần nhất thông qua xác suất của nó trong cả câu đầu ra. Mô hình ngôn ngữ không chỉ giúp bộ giải mã quyết định từ đầu ra đối với mỗi mẫu nhận dạng mà nó còn giúp chuẩn hóa về mặt ngữ pháp cho đầu ra của hệ thống nhận dạng. Mô hình ngôn ngữ có nhiều hướng tiếp cận, nhưng chủ yếu được xây dựng theo mô hình N-gram.  
+
#Trích xuất thuộc tính (Feature Extraction) hay tính toán đặc trưng. Bước trích xuất thuộc tính/đặc trưng nhằm tìm ra tập hợp các tham số của phát âm có tương quan âm thanh với tín hiệu tiếng nói. Các tham số này được tính toán thông qua phép biến đổi tín hiệu tiếng nói sang miền tần số bằng phép biến đổi Fourier rời rạc. Hai loại đặc trưng kinh điển được sử dụng phổ biến sau khi biến đổi Fourier là các hệ số đường bao phổ của tần số mel (Mel Frequency Cepstral Coefficient - MFCC), mã dự báo tuyến tính (Perceptual Linear Prediction - PLP) và các dẫn xuất của nó.  
#Mô hình nhận dạng là quá trình so sánh mẫu kiểm tra chưa biết với từng mẫu tham chiếu của lớp âm thanh và tính toán một mức độ tương tự giữa chúng. Quá trình tạo ra mẫu tham chiếu là quá trình học mẫu, hay quá trình huấn luyện. Mô hình phân loại kinh điển, phổ biến nhất và hiệu quả là [[mô hình Markov ẩn]] (HMM - ''hidden Markov model''). Mô hình này có thể kết hợp với các hàm trộn Gaus (GMM – ''Gaussian mixture model'') để tạo ra mô hình HMM-GMM, cũng như kết hợp với các mạng học sâu để tạo ra mô hình HMM-DNN…  
+
#Mô hình hóa ngữ âm (Acoustic Modeling). thành phần cơ bản của hệ thống nhận dạng tiếng nói nhằm tạo ra mô hình âm thanh - miền tri thức phản ánh mối tương quan giữa thông tin âm thanh và ngữ âm. Mô hình ngữ âm đóng vai trò quan trọng xác định hiệu quả của hệ thống và gánh vác phần lớn tải tính toán. Quá trình huấn luyện sẽ tạo liên kết giữa các đơn vị cơ bản (âm vị) của tiếng nói và âm thanh quan sát. Việc huấn luyện hệ thống yêu cầu tạo ra một đại diện mẫu cho các thuộc tính của lớp bằng cách sử dụng một hoặc nhiều mẫu tương ứng với âm thanh tiếng nói của cùng một lớp. Nhiều mô hình có sẵn cho mô hình hóa âm thanh trong đó Mô hình Markov ẩn (HMM) được sử dụng và được chấp nhận rộng rãi vì đây là thuật toán hiệu quả cho huấn luyện và nhận dạng. Cũng có nhiều mô hình hoặc kỹ thuật khác để huấn luyện hệ thống như mạng nơ ron nhân tạo...  
 +
#Mô hình ngôn ngữ (Language Model). một tập phân bố xác suất của các đơn vị (thường là từ) trên một tập văn bản cụ thể. Một cách tổng quát, mô hình ngôn ngữ cho phép xác định xác suất của một cụm từ hoặc một câu trong một ngôn ngữ, một thành phần quan trọng trong hệ thống nhận dạng từ vựng lớn, khi mà tại một thời điểm mô hình ngữ âm có thể xác định ra rất nhiều từ có cùng xác suất. Khi đó mô hình ngôn ngữ sẽ chỉ ra từ gần nhất thông qua xác suất của nó trong cả câu đầu ra. Mô hình ngôn ngữ không chỉ giúp bộ giải mã quyết định từ đầu ra đối với mỗi mẫu nhận dạng mà nó còn giúp chuẩn hóa về mặt ngữ pháp cho đầu ra của hệ thống nhận dạng. Mô hình ngôn ngữ có nhiều hướng tiếp cận, nhưng chủ yếu được xây dựng theo mô hình N-gram.  
 +
#Mô hình nhận dạng là quá trình so sánh mẫu kiểm tra chưa biết với từng mẫu tham chiếu của lớp âm thanh và tính toán một mức độ tương tự giữa chúng. Quá trình tạo ra mẫu tham chiếu là quá trình học mẫu, hay quá trình huấn luyện. Mô hình phân loại kinh điển, phổ biến nhất và hiệu quả là hình Markov ẩn (HMM - Hidden Markov Model). Mô hình này có thể kết hợp với các hàm trộn Gaus (GMM – Gausse Mixtured Model) để tạo ra mô hình HMM-GMM, cũng như kết hợp với các mạng học sâu để tạo ra mô hình HMM-DNN…  
  
 
Phần mô tả trên, nói về một hệ thống nhận dạng tiếng nói kinh điển hay truyền thống, tuy nhiên trong thời gian gần đây, khi các mạng học sâu chiếm ưu thế thì các mô hình ''End-to-End'' trong tiếng Anh đã nhanh chóng chiếm được ưu thế so với những mô hình truyền thống nói trên. Sở dĩ gọi là ''End-to-End'' do các tín hiệu tiếng nói được đưa trực tiếp làm đầu vào của hệ thống, quá trình trích chọn đặc trưng sẽ được tự học qua các mạng học sâu và chuyển tiếp tới các mạng nhận dạng trong cùng một hệ thống. Một trong những yêu cầu của các mạng học sâu là cần nhiều dữ liệu huấn luyện.   
 
Phần mô tả trên, nói về một hệ thống nhận dạng tiếng nói kinh điển hay truyền thống, tuy nhiên trong thời gian gần đây, khi các mạng học sâu chiếm ưu thế thì các mô hình ''End-to-End'' trong tiếng Anh đã nhanh chóng chiếm được ưu thế so với những mô hình truyền thống nói trên. Sở dĩ gọi là ''End-to-End'' do các tín hiệu tiếng nói được đưa trực tiếp làm đầu vào của hệ thống, quá trình trích chọn đặc trưng sẽ được tự học qua các mạng học sâu và chuyển tiếp tới các mạng nhận dạng trong cùng một hệ thống. Một trong những yêu cầu của các mạng học sâu là cần nhiều dữ liệu huấn luyện.   
Dòng 45: Dòng 45:
 
Giao tiếp bằng tiếng nói tự nhiên vẫn là mục tiêu đặt ra từ phía nghiên cứu, công nghệ và ứng dụng. Hiện tại, theo báo cáo từ Google, công nghệ nhận dạng tiếng nói đã đạt tới gần với khả năng của con người nhờ khả năng tính toán lớn kết hợp với dữ liệu lớn và các mô hình học sâu dựa trên những kiến trúc mạng nơ ron phức tạp. Tuy nhiên, các bài toán thực tế luôn rất đa dạng - nên vấn đề phát triển các hệ thống nhận dạng ứng dụng trong nhiều ngữ cảnh và lĩnh vực khác nhau vấn là thách thức cho các nhà nghiên cứu và công nghệ.  
 
Giao tiếp bằng tiếng nói tự nhiên vẫn là mục tiêu đặt ra từ phía nghiên cứu, công nghệ và ứng dụng. Hiện tại, theo báo cáo từ Google, công nghệ nhận dạng tiếng nói đã đạt tới gần với khả năng của con người nhờ khả năng tính toán lớn kết hợp với dữ liệu lớn và các mô hình học sâu dựa trên những kiến trúc mạng nơ ron phức tạp. Tuy nhiên, các bài toán thực tế luôn rất đa dạng - nên vấn đề phát triển các hệ thống nhận dạng ứng dụng trong nhiều ngữ cảnh và lĩnh vực khác nhau vấn là thách thức cho các nhà nghiên cứu và công nghệ.  
  
Các vấn đề liên quan đến nhận dạng tiếng Việt một cách có hệ thống hơn - mặc dù trước đó cũng đã có những nghiên cứu lẻ tẻ dưới dạng các luận án tiến sĩ, thạc sỹ ở trong hoặc ngoài nước - được bắt đầu khoảng những năm đầu 2000, thông qua một số đề tài nhà nước trong Chương trình Khoa học Công nghệ cấp Nhà nước KC.01. Hiện tại đã có một số ứng dụng cụ thể trong hỗ trợ tốc ký tại các cuộc họp, các hệ thống loa thông minh cho nhà thông minh, điều khiển thiết bị bằng tiếng Việt. Tuy nhiên, tiếng Việt vẫn nằm trong hệ thống nghèo tài nguyên để có thể áp dụng các công nghệ ngôn ngữ đã phát triển.
+
Các vấn đề lien quan đến nhận dạng tiếng Việt một cách có hệ thống hơn - mặc dù trước đó cũng đã có những nghiên cứu lẻ tẻ dưới dạng các luận án tiến sĩ, thạc sỹ ở trong hoặc ngoài nước - được bắt đầu khoảng những năm đầu 2000, thông qua một số đề tài nhà nước trong Chương trình Khoa học Công nghệ cấp Nhà nước KC.01. Hiện tại đã có một số ứng dụng cụ thể trong hỗ trợ tốc ký tại các cuộc họp, các hệ thống loa thông minh cho nhà thông minh, điều khiển thiết bị bằng tiếng Việt. Tuy nhiên, tiếng Việt vẫn nằm trong hệ thống nghèo tài nguyên để có thể áp dụng các công nghệ ngôn ngữ đã phát triển.  
  
 
==Tài liệu tham khảo==
 
==Tài liệu tham khảo==
Dòng 54: Dòng 54:
 
#Namrata Dave. “Feature Extraction Methods LPC, PLP and MFCC”. In Speech Recognition”, Volume 1, Issue VI, July 2013.  
 
#Namrata Dave. “Feature Extraction Methods LPC, PLP and MFCC”. In Speech Recognition”, Volume 1, Issue VI, July 2013.  
  
[[Thể loại:Nhận dạng]]
 
 
[[Thể loại:Công nghệ thông tin]]
 
[[Thể loại:Công nghệ thông tin]]

Lưu ý rằng tất cả các đóng góp của bạn tại Bách khoa Toàn thư Việt Nam sẽ được phát hành theo giấy phép Creative Commons Ghi công–Chia sẻ tương tự (xem thêm Bản quyền). Nếu bạn không muốn những gì mình viết ra sẽ có thể được bình duyệt và có thể bị sửa đổi, và không sẵn lòng cho phép phát hành lại, xin đừng nhấn nút “Lưu trang”. Đảm bảo rằng chính bạn là tác giả của những gì mình viết ra, hoặc chép nó từ một nguồn thuộc phạm vi công cộng hoặc tự do tương đương. ĐỪNG ĐĂNG NỘI DUNG CÓ BẢN QUYỀN MÀ CHƯA XIN PHÉP!

Hủy bỏ Trợ giúp sửa đổi (mở cửa sổ mới)

Bản mẫu dùng trong trang này: