Nâng cao chất lượng video (hay Tăng cường chất lượng video, tiếng Anh Video Enhancement) là quá trình cải thiện video có chất lượng thấp để tạo ra video có chất lượng tốt hơn hoặc để phục vụ cho các pha xử lý tiếp theo như phát hiện, khoanh vùng, theo vết đối tượng, nhận dạng hoạt động của đối tượng, v.v.
Các kỹ thuật cơ bản[sửa]
Các kỹ thuật cơ bản để nâng cấp video bao gồm khử nhiễu, khử mờ, nội suy khung hình, siêu phân giải, cụ thể như sau:
Khử nhiễu video (video denoising)[sửa]
Nhiễu là một thành phần không mong muốn xuất hiện trên ảnh/video do các nguyên nhân từ cảm biến hay từ quá trình chuyển đổi tương tự-số. Các phương pháp khử nhiễu video có thể phân vào 3 nhóm chính: 1) lọc nhiễu không gian trong đó các kỹ thuật lọc nhiễu trên ảnh sẽ được áp dụng trên từng khung hình; 2) lọc nhiễu thời gian trong đó nhiễu giữa các khung hình sẽ được loại bỏ, kỹ thuật bù chuyển động thường được sử dụng để tránh hiện tượng tạo bóng mờ khi kết hợp các điểm ảnh từ một số khung hình với nhau; 3) lọc nhiễu không gian – thời gian sử dụng kết hợp các kỹ thuật lọc nhiễu đồng thời theo không gian và thời gian.
Sự phát triển của các kỹ thuật khử nhiễu:
- 1999, Dugad và cộng sự kết hợp kỹ thuật loại bỏ dư thừa thông tin trong không gian sử dụng bộ lọc Weiner và dư thừa thông tin theo thời gian dựa trên bộ lọc Kalman.
- 2003, Pizurica và cộng sự tạo bộ lọc tích hợp lọc nhiễu thích nghi không gian trong miền wavelet và lọc thời gian trong miền tín hiệu.
- 2006, 2007 nhiều tác giả như EJ Balster, YF Zheng mô hình hóa các khung hình dựa trên các hệ số của phép biến đổi Wavelet
- 2010, Varghese, Gijesh, và Zhou Wang sử dụng mô hình trộn các hàm Gaussian trong không gian thời gian để khử nhiễu.
- 2019: Michele Claus và cộng sự đề xuất mô hình học sâu dựa trên mạng CNN với giải thiết về phân bố của nhiễu được biết trước.
Khử mờ video (video deblurring)[sửa]
Các hình ảnh / video thu nhận được từ các hệ thống camera hoặc máy quay cầm tay thường hay bị mờ nhòe do các nguyên nhân từ hệ thống thu nhận (hiện tượng nhiễu xạ, thấu kính quang sai màu, bộ lọc khử răng cưa, v.v.) hoặc từ yếu tố khách quan như chuyển động đối tượng, rung máy, mất nét, nhiễu động khí quyển, v.v. Các kỹ thuật khử mờ ảnh dựa trên thống kê như suy diễn Bayes (Bayes inference) hay biểu diễn thưa (Sparse representation) có thể được áp dụng trên từng khung hình nhằm ước lượng các nhân mờ (blur kernel) từ tập dữ liệu ảnh đã gán nhãn của từng cặp ảnh mờ và ảnh nét tương ứng. Hiện nay các kỹ thuật học sâu tiên tiến cho phép ước lượng các nhân mờ (Estimation of kernel) thông qua việc ước lượng đặc trưng (hệ số Fourier), luồng chuyển động (motion flow) của nhân mờ hoặc học các tham số bộ lọc giải chập (deconvolution filter) để tạo ảnh nét từ ảnh mờ. Một hướng tiếp cận end-to-end khác của khử mờ là không ước lượng nhân mờ mà thực hiện sinh trực tiếp các khung hình nét từ ảnh mờ dựa trên các mô hình sinh (generative model).
Sự phát triển của các kỹ thuật khử mờ video:
- 2008, Tai và các cộng sự đề xuất mô hình camera thu nhận đồng thời ảnh độ phân giải cao ở tốc độ thấp và ảnh độ phân giải thấp ở tốc độ cao (hybrid camera model)
- 2011, Chan và các cộng sự đề xuất phương pháp Lagrange tăng cường để khôi phục video
- 2015, Kim và Lee đề xuất xử lý các vết mờ thay đổi cục bộ do các nguồn khác nhau bằng cách ước tính nhân tại các điểm ảnh kết hợp với các luồng quang học hai chiều
- 2018, Zhang và cộng sự đề xuất mạng nơ ron tích chập 3 chiều đối kháng để khử mờ
- 2020, Wu và cộng sự đề xuất cơ chế chú ý hai nhánh (dual attention mechanism) để tích hợp động các đặc trưng thời gian.
Nội suy khung hình (frame interpolation)[sửa]
Mục tiêu của nội suy khung hình video là tạo ra một khung hình trung gian giữa các khung liền kề tạm thời để nâng cao tốc độ khung hình cho video. Đây là một nỗ lực để tạo video mượt và liền mạch hơn, tăng độ phân giải thời gian của video. Các phương pháp nội suy khung hình của video truyền thống chủ yếu dựa trên kết hợp điểm ảnh với ước tính luồng quang học. Gần đây, mạng nơ-ron tích chập đã được nghiên cứu và áp dụng rộng rãi để ước lượng luồng quang học và nội suy khung video.
Sự phát triển của các kỹ thuật nội suy khung hình video:
- 1987, Van de Grift và cộng sự đề xuất chuyển đối số tương tự 8 bit dựa trên kỹ thuật đóng gói và nội suy
- 1995, Wong và cộng sự nội suy thời gian có tính đến việc bù các chuyển động nhanh cho video
- 2005, Ascenso và cộng sự cải thiện chất lượng nội suy khung hình bằng cách làm mượt chuyển động không gian của các điểm ảnh
- 2015, Meyer và cộng sự đề xuất nội suy khung hình dựa trên pha
- 2019, Bao và cộng sự đề xuất mạng neuron ước lượng và bù chuyển động để đồng thời nội suy video và nâng cao chất lượng video
Siêu phân giải (super-resolution - SR)[sửa]
Là tạo ra ảnh / video có độ phân giải cao hơn từ ảnh / video có độ phân giải thấp. SR được sử dụng trong nhiều lĩnh vực khác nhau như ảnh y tế, vệ tinh hay giám sát, truyền hình 4K/8K. Các kỹ thuật tăng cường độ phân giải của ảnh truyền thống như dựa trên dự đoán, dựa trên biên, phương pháp thống kê, dựa trên vùng và biểu diễn thưa hay các phương pháp hiện đại dựa trên các mạng học sâu tiên tiến hoàn toàn có thể áp dụng một cách trực tiếp lên từng khung hình của video để tăng độ phân giải cho video. Tuy nhiên cách làm này không xem xét đến tương quan về mặt thời gian giữa các khung hình, dẫn đến các khung hình độ phân giải cao khi sinh ra có thể không mượt gây ra hiện tượng “nháy”. Các phương pháp sau này xem xét đến mối tương quan thời gian giữa các khung hình để khắc phục hiện tượng này.
Sự phát triển của các kỹ thuật tạo video siêu phân giải:
- 1999, Baker and Kanade đề xuất tăng độ phân giải của video dựa trên luồng quang học, áp dụng cho video mặt người.
- 2002, Zhao và các cộng sự đề xuất kết hợp các khung hình chuyển động và nội suy, tính toán trên pyramid
- 2015, nhóm Liao và các cộng sự đề xuất mạng nơ-ron tích chập để dự đoán khung hình độ phân giải cao từ các khung hình độ phân giải thấp bằng cách đặt tương ứng luồng quang học (optical flow).
Ứng dụng[sửa]
Nâng cấp video được ứng dụng trong nhiều lĩnh vực khác nhau: dựng phim, truyền hình HD, giải mờ (SLAM, theo vết, tái tạo 3D), ảnh y tế; an ninh, công nghiệp ô tô…
Mặc dù các kỹ thuật để nâng cấp video đã có những kết quả nhất định, còn nhiều vấn đề vẫn còn chưa giải quyết và là các hướng phát triển trong tương lai
- Việc thiết kế các mạng neuron: cần xem xét đồng thời thông tin cục bộ và toàn thể, các thông tin cấp thấp và cấp cao, chú ý đến yếu tố ngữ cảnh.
- Các chiến thuật học: hàm mất mát trong các mạng cần tính đến tương quan giữa các khung hình độ phân giải thấp, cao.
- Hướng đến các phương pháp học không giám sát
- Hướng đến các tình huống thực tế: sự suy thoái chất lượng ảnh trong ngữ cảnh chung hoặc hướng đến các ứng dụng đặc thù
Tại Việt Nam, có nhiều nghiên cứu về phân tích ảnh, video tuy nhiên bài toán nâng cao chất lượng video còn chưa thực sự được quan tâm.
- Một số nhóm nghiên cứu về xử lý ảnh, thị giác máy tính thuộc Viện NCQT MICA có thực hiện các phép giải nhiễu, nâng cao chất lượng trên ảnh y tế (ảnh nội soi dạ dày)
- Nhóm nghiên cứu thuộc đại học công nghệ thông tin, đại học quốc gia TP HCM đã có các nghiên cứu nâng cấp video trên hệ nhúng FPGA
Hiện nay đã có nhiều các công cụ có sẵn để nâng cấp video như Video Enhancer, Cinema HD, Camtasia, v.v
Tài liệu tham khảo[sửa]
- Rao, Yunbo, and Leiting Chen, A survey of video enhancement techniques. Journal of Information Hiding and Multimedia Signal Processing 3.1 (2012): 71-99.
- Anwar, Saeed, Salman Khan, and Nick Barnes, A Deep Journey into Super-resolution: A Survey, ACM Computing Surveys (CSUR) 53.3 (2020): 1-34.
- Wang, Zhihao, Jian Chen, and Steven CH Hoi, Deep learning for image super-resolution: A survey, IEEE Transactions on Pattern Analysis and Machine Intelligence (2020).
- Wang, David CC, Anthony H. Vagnucci, and Ching-Chung Li, Digital image enhancement: a survey, Computer vision, graphics, and image processing 24.3 (1983): 363-381