Tìm kiếm âm thanh theo nội dung (hay Tra cứu âm thanh theo nội dung,tiếng Anh Content-based Audio Retrieval) là quá trình tìm kiếm tệp hay đoạn âm thanh trong cơ sở dữ liệu (cơ sở dữ liệu) lớn tương tự với đoạn âm thanh ở câu truy vấn. Việc tìm kiếm sẽ phân tích nội dung âm thanh thay cho việc tìm kiếm theo siêu dữ liệu như từ khóa, thẻ hay mô tả gắn với âm thanh đó.
Tại sao phải tìm kiếm âm thanh theo nội dung?[sửa]
Một lượng lớn dữ liệu âm thanh đã được thu thập và lưu trữ. Con người có khả năng phân biệt loại âm thanh là tiếng nói, âm nhạc hoặc tiếng động, phân biệt được tốc độ nhanh, chậm, phân biệt cảm xúc vui, buồn để so sánh mức độ tương tự với đoạn âm thanh khác. Trong khi đó, máy tính xem đoạn âm thanh như là chuỗi mẫu tín hiệu được mã hóa bởi 0, 1. Máy tính dễ dàng và nhanh chóng tìm kiếm tệp âm thanh theo tên hay các nhãn mô tả. Tuy nhiên, máy tính khó tìm ra được đoạn âm theo mong muốn của người dùng một khi không mô tả đầy đủ tệp âm thanh. Hơn nữa, kỹ thuật tìm kiếm theo tên và mô tả tệp không thể hỗ trợ câu truy vấn như “Hãy tìm đoạn âm thanh trong cơ sở dữ liệu tương tự như đoạn âm thanh trong câu truy vấn”. Để giải quyết vấn đề này cần phải sử dụng các kỹ thuật tìm kiếm âm thanh theo nội dung.
Kỹ thuật tìm kiếm âm thanh theo nội dung đơn giản nhất là thực hiện đối sánh mẫu với mẫu giữa câu truy vấn và đoạn âm thanh trong cơ sở dữ liệu. Tiếp cận này không hoạt động hiệu quả vì các tín hiệu âm thanh thay đổi, các đoạn âm thanh khác nhau có thể lấy mẫu theo tốc độ khác nhau và sử dụng các mức lượng tử hóa khác nhau (xt. Thu thập và biểu diễn âm thanh). Do vậy, kỹ thuật tìm kiếm âm thanh theo nội dung thường được sử dụng trên cơ sở tập các đặc trưng tách ra từ tín hiệu âm thanh như biên độ trung bình hay đặc trưng phân bổ tần số.
Thành phần chính[sửa]
Hệ thống tìm kiếm âm thanh theo nội dung tổng quát gồm ba thành mô đun chính: đầu vào, truy vấn và thu hồi
Mô đun đầu vào (Input Module)[sửa]
Có nhiệm vụ trích xuất đặc trưng các đối tượng trong cơ sở dữ liệu âm thanh. Mục tiêu của trích chọn đặc trưng là làm giảm khối lượng dữ liệu và tách các thông tin có ý nghĩa ra khỏi tín hiệu để tìm kiếm hiệu quả. Dữ liệuâm thanh thô (cg. âm thanh gốc) thường quá lớn để xử lý, vd. tín hiệu âm thanh có chất lượng CD tiêu chuẩn bao gồm 44.100 mẫu/s/kênh. Hơn nữa, nhiều thông tin như sóng hài và âm sắc không hiệu quả trong việc thu hồi một số loại tệp âm thanh. Kết quả của việc trích chọn đặc trưng là các mô tả số tham số (cg. đặc trưng) đại diện cho tín hiệu đầu vào. Các đặc trưng của tất cả các đối tượng trong cơ sở dữ liệu âm thanh được trích xuất một lần và được lưu trữ trong cơ sở dữ liệu đặc trưng
Mô đun truy vấn (Query Module).[sửa]
Người dùng tương tác với hệ thống tìm kiếm bằng cách tạo các câu truy vấn trong mô đun truy vấn (Query Module). Có nhiều loại truy vấn khác nhau. Thông thường, người dùng cung cấp truy vấn có chứa một hoặc nhiều đối tượng âm thanh quan tâm (cg. truy vấn theo ví dụ). Cách khác, người dùng thường tự tạo ra đoạn âm thanh (vd. hát hoặc huýt sáo một giai điệu) làm đối tượng truy vấn trong hệ thống tìm kiếm âm nhạc. Câu truy vấn yêu cầu hệ thống tìm các đối tượng trong cơ sở dữ liệu âm thanh có nội dung tương tự như đối tượng truy vấn. Tiếp theo, các đối tượng truy vấn được trích chọn đặc trưng theo qui trình tương tự như mô đun đầu vào.
Mô đun thu hồi (Retrieval Module)[sửa]
Thực hiện đối sánh đặc trưng đối tượng truy vấn với các đặc trưng trong cơ sở dữ liệu đặc trưng để tìm ra các đặc trưng tương tự. Đối sánh tương tự thường thực hiện trên cơ sở đo khoảng cách (v. d. sử dụng độ đo Euclid) giữa các véc tơ đặc trưng. Tuy nhiên, phương pháp này chỉ đúng với một số trường hợp vì độ đo toán học thường không hoàn toàn phù hợp với nhận thức về sự tương đồng của con người. Do vậy, dẫn tới một số kết quả truy xuất không mong muốn.
Sau đối sánh, các đối tượng âm thanh tương tự giống với đối tượng truy vấn sẽ được trả về cho người dùng. Nói chung, không phải tất cả các đối tượng trả về đều thỏa mãn truy vấn. Do vậy, các hệ thống tìm kiếm âm thanh theo nội dung còn cung cấp khả năng người dùng chỉ định đối tượng nào đáp ứng hoặc không đáp ứng mong đợi của họ (cg. phản hồi liên quan) trên đầu ra của quá trình truy xuất. Hệ thống sử dụng thông tin này để tinh chỉnh câu truy vấn ban đầu. Quá trình tinh chỉnh (kết hợp với tri thức người dùng) được thực hiện lặp để hệ thống cải thiện chất lượng truy vấn.
Để nâng cao hiệu năng hệ thống, có thể bổ sung mô đun đầu vào các chức năng phân đoạn, phân lớp và tạo chỉ mục trước khi lưu trữ vào cơ sở dữ liệu đặc trưng để giảm phạm vi tìm kiếm, đối sánh. Âm thanh có thể phân lớp thành tiếng nói, âm nhạc, nhiễu trên cơ sở các đặc trưng cơ bản như năng lượng trung bình, tốc độ vượt qua không và các tần số cơ bản của tín hiệu âm thanh. Ta có thể sử dụng các mô hình Markov ẩn, GMM, SVM, k-NN, v.v. để phân lớp mịn hơn các tín hiệu âm thanh (vd. tiếng nói nam, nữ, nhạc cổ điển, Jazz, Rock, tiếng chuông, bước chân, sấm, vỗ tay, v.v.). Nếu âm thanh là tiếng nói, hệ thống có thể bổ sung chức năng nhận dạng tiếng nói để chuyển đổi sang văn bản để tìm kiếm nhanh hơn.
Hiệu năng hệ thống tìm kiếm âm thanh theo nội dung được đánh giá trên độ trung thực/triệu hồi (recall) và độ chính xác (precision), được tính như sau:
Trong đó Nr là số tệp âm thanh trả về phù hợp với câu truy vấn, N là tổng số tệp âm thanh trả về cho người dùng, Na là số tệp âm thanh phù hợp với câu truy vấn có trong cơ sở dữ liệu. Phương pháp tra cứu càng hiệu quả khi giá trị độ triệu hồi và độ chính xác càng cao. Tuy nhiên, thông thường cần phải thỏa hiệp giữa độ triệu hồi và độ chính xác vì khi độ triệu hồi tăng lên thì độ chính xác thường giảm đi và ngược lại. Thông thường, đánh giá hiệu năng hệ thống tìm kiếm âm thanh theo nội dung trên đường cong độ triệu hồi và độ chính xác (recall precision curve). Đường cong càng xa gốc tọa độ thì hiệu năng hệ thống càng cao.
Có đến hơn 70 đặc trưng âm thanh được đề xuất. Có thể phân chúng vào các nhóm như miền thời gian, miền tần số, miền cepstral, không gian pha, v.v. Lựa chọn đặc trưng âm thanh và độ đo đối sánh tương tự nào để sử dụng phụ thuộc vào loại ứng dụng cụ thể. Trong thực tế, hệ thống tìm kiếm âm thanh theo nội dung sử dụng đồng thời nhiều đặc trưng sẽ cho hiệu quả cao hơn.
Các đặc trưng miền thời gian thường được trích chọn trực tiếp từ tín hiệu âm thanh thô, do vậy tốc độ tính toán nhanh. Đặc trưng tốc độ vượt qua không (ZCR-Zero crossing rate) được xác định bằng tần số của biến đổi dấu biên độ tín hiệu. Chúng được sử dụng để phân biệt giữa tiếng nói và âm nhạc và phân lớp âm nhạc. Đặc trưng tỷ lệ câm (Silence Ratio) chỉ ra tỷ lệ đoạn âm thanh câm và đoạn âm thanh phân tích. Âm nhạc có tỷ lệ câm thấp hơn tiếng nói.
Các đặc trưng miền tần số được trích chọn từ tín hiệu âm thanh biểu diễn trong miền tần số (biến đổi Fourier). Đặc trưng băng thông (Bandwidth) chỉ ra dải tần số của âm thanh. Âm nhạc có băng thông rộng hơn tiếng nói. Đặc trưng phân bổ năng lượng (Energy Distribution) dễ nhận biết phân bổ tín hiệu theo các thành phần tần số. Đặc trưng này để phân lớp âm thanh vì tần số tiếng nói rất ít khi vượt qua 7 KHz, còn âm nhạc có tần số cao hơn. Điểm giữa của phân bổ năng lượng phổ được gọi là trọng tâm phổ hay độ chói (Brightness). Tiếng nói có đặc trưng trọng tâm phổ thấp hơn âm nhạc. Đặc trưng điều hòa (Harmonicity) được xác định bằng cách kiểm tra xem tần số các thành phần chủ yếu là bội số của tần số cơ bản (tần số thấp nhất). Âm nhạc thường điều hòa hơn các âm thanh khác.
MFCC (Mel-Frequency Cepstral Coefficients) được sử dụng hiệu quả trong nhận dạng tiếng nói và được xem như kỹ thuật chuẩn trong hệ thống tìm kiếm âm thanh theo nội dung. MFCC là đặc trưng đường bao quanh phổ tín hiệu âm thanh (timbre), là hệ số biểu diễn phổ của phổ đoạn âm thanh. Tính toán MFCC bao gồm chuyển đổi các hệ số Fourier thành thang đo Mel. Các vectơ thu được sau chuyển đổi được logarit hóa và biến đổi Fourier ngược để loại bỏ thông tin dư thừa. Ngoài MFCC, các đặc trưng như thông lượng phổ (SF - Spectrum Flux) hay các hệ số mã hóa dự báo tuyến tính (LPC - Linear Predictive Coding Coefficients) cũng được sử dụng trong việctìm kiếm âm thanh tương tự.
Ứng dụng[sửa]
Tìm kiếm âm thanh theo nội dung có nhiều ứng dụng trong ngành giải trí, quản lý lưu trữ âm thanh, âm nhạc thương mại, giám sát, v.v. Sẽ rất hữu ích khi có thể tự động tìm kiếm hiệu ứng âm thanh từ cơ sở dữ liệu âm thanh rất lớn trong quá trình hậu xử lý phim, có chứa âm thanh của tiếng nổ, gió bão, động đất, động vật, v.v. Trong các quán karaoke hoặc cửa hàng nhạc/video, khả năng tìm kiếm các bài hát hoặc sản phẩm âm nhạc bằng cách ngân nga hoặc chỉ chơi một đoạn giai điệu sẽ rất thuận tiện cho khách hàng. Trên World Wide Web có nhiều thư viện âm thanh phân tán cần quản lý. Mặc dù việc sử dụng các từ khóa để duyệt và tìm kiếm âm thanh là giải pháp khả thi, tuy nhiên nó lại tốn kém thời gian và công sức trong việc lập chỉ mục. Hơn nữa, khó mà mô tả khách quan và nhất quán về âm thanh vì các tính năng của âm thanh rất khó để mô tả. Do đó, tìm kiếm âm thanh theo nội dung là phương pháp lý tưởng để lập chỉ mục và tìm kiếm nhanh âm thanh.
Tài liệu tham khảo[sửa]
- Dalibor Mitrovic, Matthias Zeppelzauer, Christian Breiteneder, Features for Content-Based Audio Retrieval, Elsevier Inc., 2010
- Guojun Lu, Multimedia Database Management Systems, Artech House, 1999
- Pingying Wan, Lie Lub, Content-based audio retrieval: a comparative study of various features and similarity measures, Multimedia Systems and Applications. Vol.6015, 60151H, 2005
- Tong Zhang, Jay Kuo, Content-Based Classification and Retrieval of Audio, SPIE Conference on Signal Processing Algorithm, Architectures, and Implementations VIII, 1998.