Sửa đổi Nhận dạng tiếng nói
Chú ý: Bạn chưa đăng nhập và địa chỉ IP của bạn sẽ hiển thị công khai khi lưu các sửa đổi.
Bạn có thể tham gia như người biên soạn chuyên nghiệp và lâu dài ở Bách khoa Toàn thư Việt Nam, bằng cách đăng ký và đăng nhập - IP của bạn sẽ không bị công khai và có thêm nhiều lợi ích khác.
Các sửa đổi có thể được lùi lại. Xin hãy kiểm tra phần so sánh bên dưới để xác nhận lại những gì bạn muốn làm, sau đó lưu thay đổi ở dưới để hoàn tất việc lùi lại sửa đổi.
Bản hiện tại | Nội dung bạn nhập | ||
Dòng 12: | Dòng 12: | ||
Khi nói, không khí được đẩy từ phổi qua miệng và khoang mũi. Luồng không khí này bị cản trở và thay đổi do hoạt động của lưỡi và môi. Điều này tạo ra các co giãn của không khí, sóng âm, âm thanh. Những âm thanh tạo thành, tương ứng với nguyên âm và phụ âm, thường được gọi là âm vị. Các âm vị được kết hợp với nhau tạo thành từ. Mỗi âm vị được hình thành trong quá trình nói phụ thuộc vào ngữ cảnh của nó, tức là phụ thuộc vào âm vị đứng ngay trước và âm vị đứng ngay sau nó. Tuy nhiên, tiếng nói không chỉ là chuỗi các âm vị tạo thành từ và câu. Có nhiều thành phần của tiếng nói mang thông tin, ví dụ: phong cách nói thể hiện qua âm điệu, cao độ, âm lượng, ngữ điệu. Thông tin này đôi khi được gọi là thông tin phi từ vựng (''paralinguistic'') của tiếng nói và cũng được sử dụng trong nhiều phương pháp nhằm nâng cao độ chính xác của hệ thống nhận dạng. | Khi nói, không khí được đẩy từ phổi qua miệng và khoang mũi. Luồng không khí này bị cản trở và thay đổi do hoạt động của lưỡi và môi. Điều này tạo ra các co giãn của không khí, sóng âm, âm thanh. Những âm thanh tạo thành, tương ứng với nguyên âm và phụ âm, thường được gọi là âm vị. Các âm vị được kết hợp với nhau tạo thành từ. Mỗi âm vị được hình thành trong quá trình nói phụ thuộc vào ngữ cảnh của nó, tức là phụ thuộc vào âm vị đứng ngay trước và âm vị đứng ngay sau nó. Tuy nhiên, tiếng nói không chỉ là chuỗi các âm vị tạo thành từ và câu. Có nhiều thành phần của tiếng nói mang thông tin, ví dụ: phong cách nói thể hiện qua âm điệu, cao độ, âm lượng, ngữ điệu. Thông tin này đôi khi được gọi là thông tin phi từ vựng (''paralinguistic'') của tiếng nói và cũng được sử dụng trong nhiều phương pháp nhằm nâng cao độ chính xác của hệ thống nhận dạng. | ||
− | Các thành phần chính của một hệ thống nhận dạng | + | Các thành phần chính của một hệ thống nhận dạng kinh điển bao gồm: |
#Tiền xử lý (''pre-processing''/''digital signal processing''). Tín hiệu tiếng nói (âm thanh) ở dạng liên tục (''analog'') được biến đổi về dạng tín hiệu số, cụ thể rút trích các tín hiệu nằm trong miền tần số mà tai người nghe được (0-10kHz), chia tín hiệu tiếng nói thành các khung có kích thước từ 10ms đến 30ms… | #Tiền xử lý (''pre-processing''/''digital signal processing''). Tín hiệu tiếng nói (âm thanh) ở dạng liên tục (''analog'') được biến đổi về dạng tín hiệu số, cụ thể rút trích các tín hiệu nằm trong miền tần số mà tai người nghe được (0-10kHz), chia tín hiệu tiếng nói thành các khung có kích thước từ 10ms đến 30ms… | ||
#Trích xuất thuộc tính (''feature extraction'') hay tính toán đặc trưng. Bước trích xuất thuộc tính / đặc trưng nhằm tìm ra tập hợp các tham số của phát âm có tương quan âm thanh với tín hiệu tiếng nói. Các tham số này được tính toán thông qua phép biến đổi tín hiệu tiếng nói sang miền tần số bằng phép biến đổi Fourier rời rạc. Hai loại đặc trưng kinh điển được sử dụng phổ biến sau khi biến đổi Fourier là các hệ số đường bao phổ của tần số mel (''mel frequency cepstral coefficient'' - MFCC), mã dự báo tuyến tính (''perceptual linear prediction'' - PLP) và các dẫn xuất của nó. | #Trích xuất thuộc tính (''feature extraction'') hay tính toán đặc trưng. Bước trích xuất thuộc tính / đặc trưng nhằm tìm ra tập hợp các tham số của phát âm có tương quan âm thanh với tín hiệu tiếng nói. Các tham số này được tính toán thông qua phép biến đổi tín hiệu tiếng nói sang miền tần số bằng phép biến đổi Fourier rời rạc. Hai loại đặc trưng kinh điển được sử dụng phổ biến sau khi biến đổi Fourier là các hệ số đường bao phổ của tần số mel (''mel frequency cepstral coefficient'' - MFCC), mã dự báo tuyến tính (''perceptual linear prediction'' - PLP) và các dẫn xuất của nó. |