Thu nhận và biểu diễn âm thanh (tiếng Anh Audio Acquisition And Representation - AAR) là quá trình thu sóng âm, chuyển đổi sóng âm thành dạng phù hợp cho xử lý âm thanh kỹ thuật số. Nói cách khác, AAR là quá trình thu tín hiệu âm thanh tương tự rồi tiến hành các thao tác xử lý kỹ thuật số (bao gồmlấy mẫu, lượng tử hóa, mã hóa) để có được âm thanh số.
Các bước thực hiện[sửa]
AAR gồm các bước sau:
- Thu âm thanh tương tự.
Khâu đầu tiên để thu nhận âm thanh là cần thu được sóng âm. Để thực hiện việc đó, trong các micro (micro ngoài hoặc micro tích hợp trong máy ghi âm) sẽ bao gồm hai thành phần cốt lõi là màng rung và cuộn nam châm. Màng rung sẽ rung khi gặp sóng âm và được cuộn dây nam châm biến thành tín hiệu âm thanh tương tự để truyền ra tới bộ khuếch đại trước khi đưa qua bộ phận chuyển đổi tương tự/số (A/D) đối với hệ thống âm thanh kỹ thuật số.
- Lấy mẫu âm thanh
Lấy mẫu là bước đầu tiên của quá trình chuyển đổi A/D, đó là quá trình chuyển đổi tín hiệu từ liên tục thành rời rạc bằng cách lấy từng mẫu của tín hiệu liên tục tại các thời điểm rời rạc.
Tần số lấy mẫu tuân theo định lý lấy mẫu Nyquist (định lý Nyquist-Shannon). Định lý lấy mẫu Nyquist được phát biểu như sau:
Một hàm số tín hiệu x(t) không chứa bất kỳ thành phần tần số nào lớn hơn hoặc bằng một giá trị fm (fm là tần số lớn nhất của tín hiệu ban đầu) có thể biểu diễn chính xác bằng tập các giá trị của nó với chu kỳ lấy mẫu T = 1/(2fm).
Như vậy, tần số lấy mẫu fs phải thoả mãn điều kiện fs ≥ 2fm. Tần số giới hạn fs/2 này được gọi là tần số Nyquist.
Về bản chất, định lý cho thấy một tín hiệu tương tự có tần số giới hạn đã được lấy mẫu có thể được tái tạo hoàn toàn từ một chuỗi vô số các mẫu nếu tỷ lệ lấy mẫu lớn hơn 2fm mẫu trong 1 giây. Tần số Nyquist là tần số lấy mẫu tối thiểu để có thể tái tạo được tín hiệu tương tự từ tín hiệu rời rạc. Tuy nhiên, tần số lấy mẫu càng lớn thì tín hiệu rời rạc càng gần với tín hiệu tương tự, do đó tùy vào từng ứng dụng cụ thể sẽ người ta sẽ chọn các tần số lấy mẫu khác nhau. Tai người có thể nghe được âm thanh ở tần số trong khoảng 20 Hz-20 kHz, theo định lý Nyquist thì tần số lấy mẫu tối thiểu phải là 40 kHz, vì vậy người ta thường lấy mẫu với tần số 44.1 kHz (âm thanh CD) hoặc lớn hơn.
Tiếng nói giới hạn trong giải tần từ 0.3 kHz - 3.4 kHz, theo định lý Nyquist thì tần số lấy mẫu tối thiểu phải là 6.8 kHz, vì vậy người ta thường lấy mẫu với tần số 8kHzhoặc lớn hơn.
- Lượng tử hóa
Lượng tử hóa là quá trình xấp xỉ tín hiệu đã được rời rạc hóa (lấy mẫu) thành tín hiệu số. Mỗi mẫu tín hiệu được biểu diễn bằng một giá trị chọn từ trong tập hữu hạn các giá trị có thể có.
Sự khác nhau giữa giá trị của mẫu chưa lượng tử hóa và giá trị của mẫu đã lượng tử hóa gọi là sai số lượng tử hóa (nhiễu lượng tử hóa).
Chất lượng của tín hiệu âm thanh số với tín hiệu âm thanh tương tự ban đầu bằng tỷ số tín hiệu trên tạp âm (cg. nhiễu)SNR (Signal-to-Noise Ratio) như sau:
SNR=20log10(S/N)
trong đó, SNR (tính bằng đề-xi-ben (dB), S là biên độ tín hiệu cực đại, N là nhiễu lượng tử hóa.
Có hai loại lượng tử hóa là lượng tử hóa đều và lượng tử hóa không đều.
- Lượng tử hóa đều: Chia biên độ xung lấy mẫu thành các khoảng đều nhau, mỗi khoảng là một bước lượng tử đều ∆.
- Lượng tử hóa không đều: Chia biên độ xung lấy mẫu thành các khoảng không đều nhau theo nguyên tắc khi biên độ xung lấy mẫu càng lớn thì độ dài bước lượng tử càng lớn.
- Mã hóa âm thanh
Mã hóa âm thanh là tiến trình biểu diễn các giá trị lượng tử hóa (giá trị tín hiệu số) dưới dạng số (0 và 1) để biến đổicác mẫu tín hiệu âm thanh số sau quá trình lượng tử hóa thành các từ mã (là các chuỗi bit).
Cách tiếp cận mã hóa sớm nhất là PCM tuyến tính chỉ bao gồm các bước lấy mẫu, lượng tử hóa và số hóa gán cố định mỗi từ mã bằng B bit (độ phân giải bit). Mã hóa PCM tuyến tính tái tạo toàn bộ thông tin có trong dạng sóng ban đầu, cung cấp âm thanh số chất lượng cao với tốc độ bit cao.
Quá trình nghiên cứu và phát triển[sửa]
Ngành nghiên cứu về âm thanh, còn gọi là âm học (acoustics) là một nhánh của vật lý cổ điển đã được công nhận và phát triển hoàn thiện trước thế kỷ XX. Các nhà vật lý ban đầu coi âm học là một nhánh của cơ học bởi vì âm thanh là do chuyển động của các hạt hay phân tử trong không khí hoặc trong môi trường khác gây ra sóng âm và do đó có thể giải thích theo các định luật của cơ học. Song song với đó, nền tảng của các kỹ thuật xử lý âm thanh dựa trên các nghiên cứu về lý thuyết xử lý tín hiệu, một nhánh con của vật lý điện, cũng đã được nghiên cứu từ thế kỷ 17 và hoàn thiện trong thế kỷ 20.
Theo Alan V. Oppenheim và Ronald W. Schafer, các nguyên tắc xử lý tín hiệu có thể được thấy trong các kỹ thuật giải tích số cổ điển của thế kỷ 17, sự tinh chỉnh kỹ thuật số của các kỹ thuật này có thể được tìm thấy trong các hệ thống điều khiển kỹ thuật số của những năm 1940 và 1950 với các nghiên cứu đặt nền tảng cho sự phát triển của xử lý tín hiệu số như các nghiên cứu của Claude Shannon, bao gồm cả các vấn đề về lấy mẫu, lượng tử hóa, mã hóa tín hiệu được sử dụng rộng rãi cho đến hiện nay. Xử lý tín hiệu trưởng thành và phát triển mạnh mẽ vào những năm 1960 và 1970 với nhiều phát minh về các ứng dụng khác nhau của xử lý tín hiệu, trong đó có AAR.
AAR là cơ sở nền tảng cho nhiều lớp ứng dụng, đặc biệt trong mã hóa âm thanh, mã hóa tiếng nói.
AAR là vấn đề cơ sở, nền tảng trong âm học và xử lý âm thanh số, đã được phát triển tương đối hoàn thiện. Vì vậy, ở Việt Nam có ít các nghiên cứu về lĩnh vực này. Tuy nhiên, để phát triển các ứng dụng xử lý âm thanh cụ thể, một số nhóm nghiên cứu trong nước cũng đã có những kết quả nghiên cứu về trích chọn và biểu diễn các đặc trưng âm thanh, đặc biệt là tiếng nói, như nhóm nghiên cứu tại Viện nghiên cứu MICA, Đại học Bách khoa Hà Nội. Tất cả các định dạng file âm thanh như WAV, MP3, WMA, FLAC, AAC, OGG, AIFF, ALAC, AMR, …đều sử dụng một bộ mã hóa / giải mã âm thanh CODEC tích hợp các kỹ thuật lấy mẫu, lượng tử hóa, kết hợp với các kỹ thuật mã hóa âm thanh.
Trong khi đó, MIDI cũng là một định dạng file âm thanh nên có thể gây tranh luận rằng MIDI là một cách thức biểu diễn âm thanh. Tuy nhiên bản chất MIDI không phải là một cách thức biểu diễn âm thanh. MIDI là cụm từ viết tắt của Musical Instrument Digital Interface, có nghĩa là “giao diện số nhạc cụ”. Nó là một giao thức máy tính hay ngôn ngữ truyền thông tin giữa hai hay nhiều thiết bị âm nhạc. MIDI không chứa bất cứ thông tin nào về âm thanh, nó là những thông điệp giúp các thiết bị hay phần mềm soạn nhạc hiểu được, từ đó thiết bị hay phần mềm soạn nhạc sẽ phát ra âm thanh (chơi nhạc) tương ứng với các thông điệp cụ thể có trong file MIDI, tương tự như cách thức nhạc công nhìn vào bản nhạc in trên giấy để chơi nhạc với các loại nhạc cụ khác nhau. Do vậy, với cùng một thông điệp, dạng sóng âm thanh được tạo ra sẽ khác nhau phụ thuộc vào thiết bị và phần mềm tạo nhạc. Ví dụ, khi trong file MIDI chứa một thông tin là nốt C và E, thì khi ta dùng máy tính hay keyboard khác nhau thì âm thanh của file MIDI này cũng phát ra khác nhau mặc dù vẫn là hai nốt C và E.
Các nghiên cứu cải tiến các kỹ thuật xử lý âm thanh, như mã hóa âm thanh, vẫn đang được tiếp tục nghiên cứu, phát triển.
Tài liệu tham khảo[sửa]
- C. E. Shannon, “Communication in the presence of noise”, Proc. Institute of Radio Engineers, vol.37, no.1, pp.10–21, Jan.1949. Reprint as classic paper in: Proc. IEEE, vol.86, no.2, (Feb.1998)
- Oppenheim, Alan V.; Schafer, Ronald W. (1975). Digital Signal Processing. Prentice Hall. tr.5. ISBN 0-13-214635-5.
- Fifty Years of Signal Processing: The IEEE Signal Processing Society and its Technologies, 1948–1998. The IEEE Signal Processing Society.1998.