Phân vùng ảnh (hay Phân đoạn ảnh,tiếng Anh Image segmentation) là quá trình phân chia ảnh thành các vùng hoặc đối tượng có tính chất thỏa mãn một tiêu chí xác định (có sự tương đồng về mức xám, kết cấu, màu sắc, v.v.). Mức độ chi tiết của việc phân chia phụ thuộc vào từng bài toán cần giải quyết. phân vùng ảnh là một bài toán căn bản nhưng cũng rất phức tạp trong chuỗi xử lý và phân tích ảnh nói chung bởi sự đa dạng trong định nghĩa cũng như tính chất của vùng hoặc đối tượng quan tâm trong ảnh.
Thời kỳ đầu của thị giác máy tính, các giải thuật phân vùng ảnh chưa quan tâm nhiều đến ngữ nghĩa và thực thể đối tượng cần xem xét. Trong thời gian gần đây, phân vùng ảnh hướng đến phân tách ảnh thành các vùng, mỗi vùng có thể chứa một đối tượng hoặc các thực thể của một lớp đối tượng nào đó. Ba bài toán thường gặp trong quá trình phân vùng ảnh đó là:
- Phát hiện đối tượng: tìm bao đóng chứa các đối tượng quan tâm (vd. con người).
- Phân vùng ngữ nghĩa (semantic segmentation): phân chia các điểm ảnh vào các lớp khác nhau. Các đối tượng cùng một lớp sẽ thuộc cùng một vùng (vd. mọi người trong ảnh thuộc một vùng).
- Phân vùng thực thể (instance segmentation): phân chia các điểm ảnh vào các lớp nhưng các đối tượng của cùng một lớp thì có nhãn khác nhau. Như vậy mỗi thực thể của một lớp đối tượng sẽ được xác định là một vùng riêng biệt (vd. mỗi người trong ảnh là một vùng).
Lịch sử phát triển[sửa]
Phân vùng ảnh là bài toán được đề cập và giải quyết từ những năm 1970 trong các công bố của Brice và Fenema. Năm 1974 Watanabe đề xuất kỹ thuật phân vùng ảnh dựa trên lấy ngưỡng. Năm 1978 Jack Sklandsky đề xuất kỹ thuật phân vùng ảnh dựa trên phát hiện biên. Kỹ thuật lan vùng xác định trực tiếp vùng bằng cách lan vùng từ một vị trí trong ảnh cho đến khi nào tiêu chí vùng vẫn còn thỏa mãn do Brice và Fennema đề xuất năm 1970, sau đó được cải tiến bởi Pavlidis và các cộng sự năm 1990, R. Adams and L. Bischof – 1994, Zugaj và cộng sự năm 1998; Hojjatoleslami, S. A. và Kittler, J – 1998.
Năm 1979, Coleman và Andrews giới thiệu kỹ thuật phân vùng ảnh dựa trên phân cụm. Kỹ thuật Watershed coi ảnh là một bề mặt topo, khi đó việc phân vùng được xem là thực hiện phép biến đổi watershed để tìm ra các vùng ảnh quan tâm. Kỹ thuật này lần đầu tiên được giới thiệu bởi Digabel và Lantu´ejoul vào năm 1978, tiếp tục được cải tiến bởi S Beucher 1992, V Grau và các cộng sự năm 2004.
Năm 2004, Rother và cộng sự đề xuất kỹ thuật Graph cuts. Năm 2006, Kato và Pong đề xuất kỹ thuật Trường ngẫu nhiên markov có điều kiện. Kỹ thuật này coi bài toán phân vùng là bài toán gán nhãn và đi tìm lời giải theo hướng tiếp cận xác suất.
Hiện nay, các giải thuật học sâu đã cho những kết quả ấn tượng trên rất nhiều bài toán liên quan đến phân tích và hiểu ảnh. Các giải thuật học sâu coi bài toán phân vùng ảnh là bài toán gán nhãn mức điểm ảnh và đưa ra các kết quả phân vùng thực thể ngữ nghĩa phục vụ cho nhiều bài toán sau đó. Năm 2015, Long và cộng sự đề xuất Mạng tích chập đầy đủ (Fully Convolutional Networks)cho bài toán phân vùng ảnh bằng cách thay đổi kiến trúc mạng VGG-16 và GoogleNet để xử lý các đầu vào và đầu ra có kích thước không cố định. Cũng vào năm này, No và cộng sự đề xuất Mô hình Tự mã hóa – giải mã cho phân vùng ảnh. Ren và cộng sự đề xuất mạng theo Mô hình mạng tích chập vùng (R-CNN) cho phân vùng thực thể.
Năm 2016, Visin và cộng sự đề xuất mạng theo Mô hình hồi qui (Recurrent Neural Network - RNN) cho phép mô hình hóa quan hệ phục thuộc ngắn/dài hạn giữa các điểm ảnh để cải thiện chất lượng phân vùng ảnh. Năm 2017, Lin và cộng sự đề xuất mạng FPN (Feature Pyramid Network) theo Mô hình đa phân giải và cấu trúc kim tự tháp, trong đó, cấu trúc phân cấp đa tầng các mạng CNN được lồng ghép để tạo các đặc trưng đa phân giải nhằm phát hiện các đối tượng ở kích thước khác nhau trong ảnh.
Năm 2018, Marcos và cộng sự đã đề xuất Mô hình mạng CNN kết hợp với mô hình biên động (active contour).
Ứng dụng[sửa]
Phân vùng ảnh được ứng dụng trong nhiều lĩnh vực khác nhau như phân tích ảnh y tế, xe tự hành, giám sát an ninh, thực tại tăng cường, tương tác người máy, v.v.
- Phân tích ảnh y tế: phân vùng các khối u, các vùng tổn thương trên ảnh nội soi, ảnh CT, MRI
- Xe tự hành: Phát hiện các biển báo giao thông, làn đường, xe cộ, trợ giúp lái cho xe tự hành
- Giám sát an ninh: Phát hiện người truy nhập trái phép trong tòa nhà, phân vùng và định vị bất thường
- Tương tác người máy: phân vùng bàn tay trong ảnh để điều khiển thiết bị trong phòng thông minh
- Đa dạng sinh học: phát hiện và phân vùng ảnh cây cối phục vụ cho việc nhận dạng tự động, trợ giúp trong việc lưu trữ, bảo tồn bảo tàng cây thuốc, cây gỗ quý
- Vệ tinh, viễn thám: khoanh vùng các vùng ảnh quan tâm (phân hoạch, giám sát diện rộng).
Phân vùng ảnh là một pha xử lý trung gian quan trọng trong chuỗi xử lý phân tích và hiểu ảnh. Bài toán phân vùng ảnh vẫn đối mặt với các thách thức cần phải giải quyết trong tương lai như sau: Các cơ sở dữ liệu thách thức hơn; Các mô hình học sâu có thể giải thích được; Các phương pháp học không giám sát hoặc ít giám sát; Mô hình thời gian thực cho các ứng dụng khác nhau; Phân vùng dựa trên đám mây điểm: hiện nay các thiết bị cho phép thu nhận dữ liệu 3D đang phổ biến. Việc phân vùng dựa trên đám mây điểm 3D cũng sẽ là một khuynh hướng phát triển trong tương lai gần.
Ở Việt Nam[sửa]
Hiện nay, tại Việt Nam, có nhiều phòng thí nghiệm, viện nghiên cứu, bộ môn hoặc các nhà nghiên cứu độc lập, các công ty đang theo đuổi và giải quyết các bài toán liên quan đến phân vùng ảnh phục vụ cho các ứng dụng khác nhau như phân vùng ảnh nội soi, ảnh X quang phục vụ các ứng dụng y tế (Viện MICA, Viện Điện tử Y Sinh – ĐHBK Hà Nội); phân vùng ảnh văn bản phục vụ tự động nhận dạng ký tự (Viện công nghẹ thông tin thuộc Viện Hàn lâm KHCNVN); phân vùng ảnh vệ tinh (Viện công nghẹ thông tin thuộc Viện Hàn lâm KHCNVN, Học viện Kỹ thuật Quân sự, Đại học Quốc gia Hà Nội); phân vùng ảnh giao thông trong điều hướng phân luồng (Công ty Biển Bạc), phân vùng ảnh người, tay trong ứng dụng giám sát hoặc tương tác người máy (Viện MICA, ĐHBK Hà Nội, Đại học Quốc gia HCM), v.v.
Tài liệu tham khảo[sửa]
- Rafael C. Gonzalez and Richard E. Woods, Digital Image Processing. FourthEdition, Prentice Hall, 2018.
- Boykov, Yuri, and Gareth Funka-Lea, Graph cuts and efficient ND image segmentation. - International journal of computer vision 70.2 (2006): 109-131.
- . Ronneberger, O., Fischer, P., &Brox, T. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention (pp.234-241).2015 Springer, Cham.
- He, K., Gkioxari, G., Dollár, P., &Girshick, R. Mask r-cnn. In Proceedings of the IEEE international conference on computer vision (pp.2961-2969), 2017.
- Haralick, Robert M. Image segmentation survey, Fundamentals in Computer Vision 117 (1983): 209-223.