Phân lớp âm thanh (tiếng Anh Audio Classification) là quá trình tự động phân loại một tín hiệu âm thanh vào một trong số các lớp dựa trên các đặc trưng trích xuất từ âm thanh (ví dụ như đặc trưng cao độ âm thanh, cường độ âm thanh, phổ âm thanh,…). Phân lớp âm thanh bao gồm trích chọn các đặc trưng liên quan của âm thanh, và sử dụng các đặc trưng này để phân loại âm thanh vào một lớp phù hợp nhất. Các thuật toán trích chọn đặc trưng âm thanh và thuật toán phân lớp phụ thuộc vào từng ứng dụng cụ thể. Nghiên cứu về phân lớp âm thanh bao gồm các nghiên cứu về xử lý tín hiệu, phân tích phổ, tâm lý âm học, các thuật toán phân cụm, các phương pháp học máy như mạng Nơ ron, mô hình Markov ẩn,…
Thành phần chính[sửa]
Sơ đồ khối một bộ phân lớp âm thanh bao gồm 2 thành phần chính:
Khối trích chọn đặc trưng âm thanh: Trích chọn đặc trưng là thao tác tham số hóa tín hiệu âm thanh quan trọng do tín hiệu âm thanh mang quá nhiều thông tin dư thừa, không liên quan. Vector đặc trưng được tính toán cho từng khung liên tiếp. Có rất nhiều loại đặc trưng như đặc trưng phổ, đặc trưng trên miền thời gian, đặc trưng cao độ. Các đặc trưng cần đảm bảo các yêu cầu sau: Có thể tính toán, ước lượng một cách tin cậy, ổn định từ tín hiệu âm thanh; liên quan đến yêu cầu phân lớp (mỗi yêu cầu phân lớp có một số đặc trưng phù hợp, liên quan khác nhau); đặc trưng cần ổn định, không biến đổi với các thay đổi bên trong phạm vi một lớp nhưng cần biến đổi giữa các lớp khác nhau.
Khối phân lớp: Phân lớp âm thanh là thao tác phân tích dữ liệu âm thanh nhằm rút trích các mô hình mô tả các lớp dữ liệu âm thanh hoặc dự đoán xu hướng dữ liệu âm thanh.
y = f (X) với y là nhãn (phần mô tả) của một lớp và X là dữ liệu
Quá trình gồm hai bước:
1. Bước học (giai đoạn huấn luyện): X trong tập huấn luyện, một trị y được cho trước với X, yêu cầu xác định f.
2. Bước phân lớp: Phân lớp dữ liệu mới nếu độ chính xác của bộ phân lớp được đánh giá là có thể chấp nhận được. Đánh giá f với (X’, y’) và X’ ≠ mọi X trong tập huấn luyện; nếu chấp nhận được thì dùng f để xác định y’’ cho X’’ (mới)
Con người có khả năng phân biệt âm thanh rất tốt. Không khó để nhận dạng giọng nói qua điện thoại hay nhận ra sự khác nhau giữa tiếng chuông điện thoại và tiếng chuông cửa. Tuy nhiên, khả năng nhận biết và phân biệt âm thanh suy giảm trong môi trường có nhiễu hoặc khi cần phân biệt các âm thanh tương tự nhau.
Hướng nghiên cứu[sửa]
Có hai hướng nghiên cứu chính về phân lớp âm thanh. Thứ nhất là các nghiên cứu về khả năng phân biệt âm thanh của con người nhằm hướng tới xây dựng các bộ phân lớp âm thanh tự động tiệm cận khả năng của con người. Các nghiên cứu hướng về âm thanh học tâm lý (psychological acoustics) và âm thanh học sinh lý (physiological acoustics) hơn là khoa học máy tính. Hướng nghiên cứu này được nghiên cứu phổ biến từ những năm 50, 60 của thế kỷ 20, cho đến nay các kết quả nghiên cứu cơ bản đã hoàn thiện và có thể sử dụng hiệu quả trong các ứng dụng của xử lý âm thanh như phân lớp âm thanh. Vì vậy, gần đây ít có các kết quả nghiên cứu mới theo hướng nghiên cứu này. Thứ hai là các nghiên cứu về các hệ thống xử lý âm thanh tự động bằng máy tính. Các nghiên cứu này thiên về khoa học máy tính, bao gồm các nghiên cứu về xử lý tín hiệu âm thanh, trích chọn đặc trưng âm thanh, học máy phục vụ cho phân lớp âm thanh. Đây là hướng nghiên cứu phổ biến trong những năm gần đây. Đặc biệt là các nghiên cứu về học máy ứng dụng trong phân lớp âm thanh.
Ứng dụng[sửa]
Các ứng dụng chủ yếu của phân lớp âm thanh bao gồm: nhận dạng nguồn âm (nhận dạng người nói, nhận dạng nhạc cụ); nhận dạng tiếng nói tự động; chuyển biên âm nhạc tự động; gán nhãn âm thanh; phân đoạn âm thanh; nhận dạng cảm xúc....
Cho đến hiện nay, các nghiên cứu cơ sở, nền tảng về xử lý âm thanh, trong đó có âm thanh học tâm lý, âm thanh học sinh lý, trích chọn đặc trưng âm thanh,… đã tương đối hoàn thiện. Tuy nhiên các nghiên cứu về các kỹ thuật học máy trong phân lớp âm thanh vẫn được tiếp tục nghiên cứu, phát triển trong thời gian gần đây và có triển vọng phát triển tiếp trong thời gian tới.
Các nghiên cứu nền tảng về phân lớp âm thanh ít được nghiên cứu ở Việt Nam. Tuy nhiên các nghiên cứu về các ứng dụng của phân lớp âm thanh tại Việt Nam khá đa dạng bao gồm nhận dạng tiếng nói tiếng Việt, nhận dạng người nói, gán nhãn tiếng nói tự động, nhận dạng cảm xúc trong tiếng nói. Tại Việt Nam cũng có một số nhóm nghiên cứu mạnh về các ứng dụng của phân lớp âm thanh (đặc biệt là nhận dạng tiếng nói), tiêu biểu là các nhóm nghiên cứu tại Viện nghiên cứu MICA, Đại học Bách Khoa Hà Nội, nhóm nghiên cứu tại Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Tài liệu tham khảo[sửa]
- Gelfand, Stanley A. Hearing: An introduction to psychological and physiological acoustics. CRC Press, 2016.
- Wever, Ernest Glen, and Merle Lawrence. Physiological acoustics. Princeton University Press, 2015.
- Burred, Juan José, and Alexander Lerch. "Hierarchical automatic audio signal classification", Journal of the Audio Engineering Society 52.7/8 (2004): 724-739.