Sửa đổi Nhận dạng tiếng nói

Chú ý: Bạn chưa đăng nhập và địa chỉ IP của bạn sẽ hiển thị công khai khi lưu các sửa đổi.

Bạn có thể tham gia như người biên soạn chuyên nghiệp và lâu dài ở Bách khoa Toàn thư Việt Nam, bằng cách đăng ký và đăng nhập - IP của bạn sẽ không bị công khai và có thêm nhiều lợi ích khác.

Các sửa đổi có thể được lùi lại. Xin hãy kiểm tra phần so sánh bên dưới để xác nhận lại những gì bạn muốn làm, sau đó lưu thay đổi ở dưới để hoàn tất việc lùi lại sửa đổi.

Bản hiện tại Nội dung bạn nhập
Dòng 12: Dòng 12:
 
Khi nói, không khí được đẩy từ phổi qua miệng và khoang mũi. Luồng không khí này bị cản trở và thay đổi do hoạt động của lưỡi và môi. Điều này tạo ra các co giãn của không khí, sóng âm, âm thanh. Những âm thanh tạo thành, tương ứng với nguyên âm và phụ âm, thường được gọi là âm vị. Các âm vị được kết hợp với nhau tạo thành từ. Mỗi âm vị được hình thành trong quá trình nói phụ thuộc vào ngữ cảnh của nó, tức là phụ thuộc vào âm vị đứng ngay trước và âm vị đứng ngay sau nó. Tuy nhiên, tiếng nói không chỉ là chuỗi các âm vị tạo thành từ và câu. Có nhiều thành phần của tiếng nói mang thông tin, ví dụ: phong cách nói thể hiện qua âm điệu, cao độ, âm lượng, ngữ điệu. Thông tin này đôi khi được gọi là thông tin phi từ vựng (''paralinguistic'') của tiếng nói và cũng được sử dụng trong nhiều phương pháp nhằm nâng cao độ chính xác của hệ thống nhận dạng.  
 
Khi nói, không khí được đẩy từ phổi qua miệng và khoang mũi. Luồng không khí này bị cản trở và thay đổi do hoạt động của lưỡi và môi. Điều này tạo ra các co giãn của không khí, sóng âm, âm thanh. Những âm thanh tạo thành, tương ứng với nguyên âm và phụ âm, thường được gọi là âm vị. Các âm vị được kết hợp với nhau tạo thành từ. Mỗi âm vị được hình thành trong quá trình nói phụ thuộc vào ngữ cảnh của nó, tức là phụ thuộc vào âm vị đứng ngay trước và âm vị đứng ngay sau nó. Tuy nhiên, tiếng nói không chỉ là chuỗi các âm vị tạo thành từ và câu. Có nhiều thành phần của tiếng nói mang thông tin, ví dụ: phong cách nói thể hiện qua âm điệu, cao độ, âm lượng, ngữ điệu. Thông tin này đôi khi được gọi là thông tin phi từ vựng (''paralinguistic'') của tiếng nói và cũng được sử dụng trong nhiều phương pháp nhằm nâng cao độ chính xác của hệ thống nhận dạng.  
  
Các thành phần chính của một hệ thống nhận dạng tiếng nói kinh điển bao gồm:
+
Các thành phần chính của một hệ thống nhận dạng kinh điển bao gồm:
 
#Tiền xử lý (''pre-processing''/''digital signal processing''). Tín hiệu tiếng nói (âm thanh) ở dạng liên tục (''analog'') được biến đổi về dạng tín hiệu số, cụ thể rút trích các tín hiệu nằm trong miền tần số mà tai người nghe được (0-10kHz), chia tín hiệu tiếng nói thành các khung có kích thước từ 10ms đến 30ms…  
 
#Tiền xử lý (''pre-processing''/''digital signal processing''). Tín hiệu tiếng nói (âm thanh) ở dạng liên tục (''analog'') được biến đổi về dạng tín hiệu số, cụ thể rút trích các tín hiệu nằm trong miền tần số mà tai người nghe được (0-10kHz), chia tín hiệu tiếng nói thành các khung có kích thước từ 10ms đến 30ms…  
 
#Trích xuất thuộc tính (''feature extraction'') hay tính toán đặc trưng. Bước trích xuất thuộc tính / đặc trưng nhằm tìm ra tập hợp các tham số của phát âm có tương quan âm thanh với tín hiệu tiếng nói. Các tham số này được tính toán thông qua phép biến đổi tín hiệu tiếng nói sang miền tần số bằng phép biến đổi Fourier rời rạc. Hai loại đặc trưng kinh điển được sử dụng phổ biến sau khi biến đổi Fourier là các hệ số đường bao phổ của tần số mel (''mel frequency cepstral coefficient'' - MFCC), mã dự báo tuyến tính (''perceptual linear prediction'' - PLP) và các dẫn xuất của nó.  
 
#Trích xuất thuộc tính (''feature extraction'') hay tính toán đặc trưng. Bước trích xuất thuộc tính / đặc trưng nhằm tìm ra tập hợp các tham số của phát âm có tương quan âm thanh với tín hiệu tiếng nói. Các tham số này được tính toán thông qua phép biến đổi tín hiệu tiếng nói sang miền tần số bằng phép biến đổi Fourier rời rạc. Hai loại đặc trưng kinh điển được sử dụng phổ biến sau khi biến đổi Fourier là các hệ số đường bao phổ của tần số mel (''mel frequency cepstral coefficient'' - MFCC), mã dự báo tuyến tính (''perceptual linear prediction'' - PLP) và các dẫn xuất của nó.  

Lưu ý rằng tất cả các đóng góp của bạn tại Bách khoa Toàn thư Việt Nam sẽ được phát hành theo giấy phép Creative Commons Ghi công–Chia sẻ tương tự (xem thêm Bản quyền). Nếu bạn không muốn những gì mình viết ra sẽ có thể được bình duyệt và có thể bị sửa đổi, và không sẵn lòng cho phép phát hành lại, xin đừng nhấn nút “Lưu trang”. Đảm bảo rằng chính bạn là tác giả của những gì mình viết ra, hoặc chép nó từ một nguồn thuộc phạm vi công cộng hoặc tự do tương đương. ĐỪNG ĐĂNG NỘI DUNG CÓ BẢN QUYỀN MÀ CHƯA XIN PHÉP!

Hủy bỏ Trợ giúp sửa đổi (mở cửa sổ mới)

Bản mẫu dùng trong trang này: