Tìm kiếm ảnh theo nội dung (hay Tra cứu ảnh theo nội dung,tiếng Anh Content-Based Image Retrieval, Query by Image Content, Content-Based Visual Information Retrieval) là kỹ thuật tìm kiếm các bức ảnh quan tâm trong một tập/cơ sở dữ liệu (cơ sở dữ liệu) các bức ảnh dựa trên nội dung thị giác thông qua một yêu cầu truy vấn. Nói cách khác, tìm kiếm âm thanh theo nội dung là một kỹ thuật tự động sử dụng một hình ảnh để truy vấn và kết quả trả về là một tập hợp các hình ảnh tương tự như ảnh truy vấn. Thông thường, ảnh truy vấn là ảnh do người dùng tự tạo ra (vd. phác họa) hoặc là ảnh đã có sẵn. Kỹ thuật tìm kiếm âm thanh theo nội dung sử dụng nội dung thị giác của ảnh được mô tả dưới dạng đặc trưng như màu sắc, kết cấu, hình dạng và vị trí để biểu diễn và tìm kiếm ảnh trong cơ sở dữ liệu.
Sự ra đời của máy ảnh số cho phép con người có thể chụp, lưu lại và chia sẻ hình ảnh của các đối tượng, sự kiện của thế giới thực. Bên cạnh đó, sự phát triển của các công nghệ lưu trữ và truyền thông cho phép không chỉ các công ty, tập đoàn ngay cả các cá nhân cũng có thể tạo dựng lên cơ sở dữ liệu ảnh của riêng mình. Năm 2017 thế giới đã có khoảng 1 trillion (triệu triệu) bức ảnh chụp bằng máy ảnh số và khoảng 5 trillion bức ảnh số được lưu trữ. Khi dữ liệu tăng lên, việc quản lý và tìm kiếm các ảnh quan tâm ngày càng trở nên khó khăn. Việc tìm kiếm thông tin theo từ khóa vốn được sử dụng rất hiệu quả trong việc tìm kiếm các thông tin nói chung trở nên không hiệu quả khi áp dụng cho dữ liệu hình ảnh do sự giàu ngữ nghĩa của nội dung ảnh mang lại. Do vậy, cần thiết phải có một phương pháp khác để tìm kiếm ảnh hiệu quả, đó là phương pháp tìm kiếm âm thanh theo nội dung.
Mô hình tìm kiếm hình ảnh theo nội dung[sửa]
Mô hình tìm kiếm hình ảnh theo nội dung tổng quát (Hình 1) thường bao gồm hai giai đoạn: chỉ số hóa (indexing phase) và tra cứu (retrieval phase). Trong giai đoạn chỉ số hóa, các đặc trưng được trích chọn từ các ảnh. Sau đó, các kỹ thuật chỉ số hóa như cây R hay cây kD (xt. Cấu trúc dữ liệu phi tuyến) thường được áp dụng trên tập các đặc trưng với mục đích giảm thời gian tìm kiếm trong giai đoạn tra cứu ảnh. Trong giai đoạn tra cứu, người dùng đưa ra ảnh truy vấn để hệ thống tìm kiếm các ảnh tương tự trong cơ sở dữ liệu.
Trong một số hệ thống tra cứu ảnh, người dùng còn có thể được trợ giúp để xác định chính xác hơn yêu cầu truy vấn của mình. Ví dụ, khi người dùng cung cấp một bức ảnh, hệ thống có thể áp dụng các kỹ thuật phân vùng (image segmentation) sau đó người dùng chỉ cần chọn vùng chứa đối tượng mà mình quan tâm để truy vấn (xt.Phân vùng ảnh). Tiếp theo đó, các đặc trưng truy vấn được trích trọn và được đối sánh với các đặc trưng có trước của các ảnh trong cơ sở dữ liệu dựa trên một hàm tính khoảng cách hoặc hàm tính độ tương tự. Cuối cùng một danh sách các ảnh trong tập ảnh cho trước sẽ được sắp xếp theo thứ tự giảm dần của độ tương tự hoặc tăng dần của khoảng cách so với ảnh truy vấn và trả về cho người sử dụng.
Một số hệ thống tra cứu ảnh cho phép người dùng tương tác với hệ thống thông qua bước phản hồi. Trên cơ sở các ảnh đã được trả về cho người dùng, người dùng có thể đưa ra ý kiến của mình cho từng ảnh. Hệ thống tra cứu thực hiện việc cập nhật danh sách trả về dựa trên ý kiến của người dùng. Chiến lược cập nhật danh sách trả về được thực hiện khác nhau tùy thuộc vào từng hệ thống. Bước phản hồi với người sử dụng có thể được thực hiện lặp nhiều lần cho đến khi người dùng hài lòng với kết quả tìm kiếm.
Các khái niệm[sửa]
Hai khái niệm thường được sử dụng trong tìm kiếm âm thanh theo nội dung là chênh lệch giác quan và chênh lệch ngữ nghĩa. Chênh lệch giác quan (sensory gap) là sự chênh lệch giữa đối tượng/cảnh ở thế giới thực và thông tin mô tả đối tượng đó thu nhận được thông qua các thiết bị thu nhận như máy ảnh trong khi chênh lệch ngữ nghĩa (semantic gap) là sự chênh lệch giữa thông tin có thể được trích chọn tự động từ bức ảnh và cảm nhận ngữ nghĩa của con người khi quan sát cùng bức ảnh đó. Các phương pháp tìm kiếm âm thanh theo nội dung đều nhằm tới mục đích tối thiểu hóa sự chênh lệch này thông qua việc lựa chọn và đề xuất các đặc trưng, kỹ thuật đối sánh và chiến lược phản hồi với người sử dụng phù hợp.
Có rất nhiều đặc trưng đã được đề xuất trong tìm kiếm hình ảnh theo nội dung. Các đặc trưng này có thể được phân chia theo đặc tính thị giác mà đặc trưng có thể trích rút từ ảnh và biểu diễn nội dung của ảnh như đặc trưng về màu sắc, kết cấu, hình dáng. Các đặc trưng cũng có thể được phân chia theo cách thức trích chọn trên ảnh bao gồm đặc trưng cục bộ (local features) - được tính toán riêng trên một số vùng nhất định trên ảnh và đặc trưng toàn cục (global features) - được tính toán từ sự tham gia của tất cả các vùng trên ảnh. Để nâng cao hiệu quả của tra cứu ảnh, nhiều phương pháp thực hiện kết hợp nhiều đặc trưng thay vì sử dụng một đặc trưng riêng rẽ.
Kỹ thuật đối sánh ảnh nhằm xác định sự tương tự hoặc khoảng cách giữa hai ảnh dựa trên tập đặc trưng được tính toán từ các ảnh này. Cũng giống như các đặc trưng, nhiều độ đo khoảng cách và độ tương tự đã được đề xuất cho tra cứu ảnh theo nội dung.
Nhằm nâng cao hiệu quả của tra cứu ảnh các hệ thống tìm kiếm âm thanh theo nội dung còn kỹ thuật dựa trên việc sử dụng ý kiến phản hồi từ người dùng về danh sách ảnh trả về của hệ thống. Từ danh sách ảnh trả về của hệ thống tra cứu, người dùng có thể đưa ra các ý kiến bao gồm: phù hợp (positive) và không phù hợp (negative). Dựa trên các ý kiến này, các hệ thống thường áp dụng các kỹ thuật như cập nhật lại câu truy vấn (query refinement), cập nhật lại trọng số của các đặc trưng hoặc độ đo độ tương tự nhằm đưa ra danh sách ảnh trả về mới sao cho những ảnh mà hệ thống nghĩ là phù hợp với yêu cầu truy vấn của người dùng sẽ được nằm ở các vị trí đầu tiên trong danh sách.
Các phương pháp tìm kiếm âm thanh theo nội dung có thể được phân chia thành các phương pháp chuyên biệt cho từng lĩnh vực (narrow) và phương pháp tổng quát (broad). Các phương pháp chuyên biệt thường có hiệu quả cao hơn do sự ổn định trong các ảnh của cùng lĩnh vực.
Để đánh giá và so sánh được hiệu năng của các phương pháp tìm kiếm hình ảnh theo nội dung cần có 3 thành phần cần thiết: cơ sở dữ liệu hình ảnh, tập các ảnh truy vấn và các ảnh được xem là phù hợp với ảnh truy vấn (ground-truth) và các độ đo đánh giá.
Nhiều cơ sở hình ảnh đã được xây dựng và cung cấp cho cộng đồng nhằm đánh giá các phương pháp tra cứu ảnh như WANG, UW, ZuBuD, UCID.
Tra cứu ảnh có thể được xem là một trường hợp riêng của tra cứu thông tin (information retrieval - IR), do đó độ đo thường sử dụng để đánh giá các phương pháp tra cứu ảnh là độ đo sử dụng trong tra cứu thông tin bao gồm độ triệu hồi (recall) và độ chính xác (precision). Độ triệu hồi được đo bằng tỉ lệ giữa số ảnh trả về phù hợp so với toàn bộ số ảnh phù hợp với một câu truy vấn có trong cơ sở dữ liệu trong khi độ chính xác là tỉ lệ giữa số các ảnh phù hợp được trả về cho người dùng trong tập các ảnh trả về.Phương pháp tra cứu càng hiệu quả khi giá trị độ triệu hồi và độ chính xác càng cao. Tuy nhiên, thông thường cần phải thỏa hiệp giữa độ triệu hồi và độ chính xác vì khi độ triệu hồi tăng lên thì độ chính xác thường giảm đi và ngược lại. Để quan sát rõ hơn hiệu quả của một phương pháp tra cứu ảnh, đường cong độ triệu hồi và độ chính xác (recall precision curve) thường được sử dụng. Đối với các phương pháp có phản hồi với người sử dụng, giá trị độ triệu hồi và độ chính xác thường được tính toán lại sau mỗi lần phản hồi.
Trước khi có các hệ thống tìm kiếm hình ảnh theo nội dung, các kỹ thuật tra cứu ảnh thường dựa trên siêu dữ liệu (metadata) đi cùng với ảnh như từ khóa, tên của ảnh, các đoạn mô tả gần vị trí của ảnh. Mặc dù siêu dữ liệu là một nguồn thông tin quan trọng và gần với ngữ nghĩa người dùng sử dụng, nhưng các hệ thống tìm kiếm ảnh dựa trên siêu dữ liệu tỏ ra không hiệu quả do việc thiếu các thông tin cũng như sự nhập nhằng về ngữ nghĩa gây ra.
Lịch sử phát triển[sửa]
Trong cộng đồng thị giác máy tính, mặc dù khái niệm về đối sánh ảnh và đặc trưng sử dụng cho đối sánh ảnh đã được đưa ra từ trước, vd. đặc trưng phân bố màu (color histogram) đã được Michael J. Swain và Dana H. Ballard đưa ra từ năm 1991, nhưng khái niệm tìm kiếm âm thanh theo nội dung lần đầu được sử dụng trong nghiên cứu của Kato Toshikazu vào năm 1992. Trong đó tác giả này đã đưa ra mô hình của một hệ thống tìm kiếm âm thanh theo nội dung và áp dụng mô hình này cho hai cơ sở dữ liệu là TRADEMARK và ART MUSEUM. Sau đó, giai đoạn từ 1994 đến 2000 có thể được coi là những năm đầu tiên trong bước phát triển của tìm kiếm hình ảnh theo nội dung. Trong giai đoạn đó, hàng loạt các đặc trưng và chiến lược đối sánh được đề xuất cho tra cứu ảnh. Những hệ thống đầu tiên được xây dựng và đưa ra sử dụng cho người dùng cuối bao gồm cả các hệ thống thương mại như IBM QBIC, NEC AMORE và các hệ thống miễn phí cho cộng đồng như MIT Photobook, Columbia VisualSEEK, WebSEEK, công cụ tìm kiếm ảnh theo nội dung của Google (https://images.google.com/). Với công cụ tìm kiếm của Google, người dùng có thể đưa ra ảnh truy vấn bằng cách tải lên một ảnh hoặc cung cấp địa chỉ url của ảnh. Hệ thống sẽ thực hiện đồng thời việc tìm kiếm các ảnh trong cơ sở dữ liệu của Google theo nội dung và nhận dạng đối tượng trong ảnh để thực hiện các truy vấn dựa trên tên của đối tượng nhận dạng được. Đến nay, sau gần 30 năm phát triển, tìm kiếm âm thanh theo nội dung vẫn thu hút được sự quan tâm của cộng đồng nghiên cứu và công nghiệp.
Tìm kiếm hình ảnh theo nội dung được ứng dụng rộng rãi trong nhiều lĩnh vực từ công nghiệp, y tế, giáo dục văn hóa, an ninh quốc phòng. Trong công nghiệp, các hệ thống tra cứu ảnh cho phép các công ty xác định sự trùng lặp của các logo đã đăng ký nhãn nhiệu hay sự tương tự của các bản thiết kế công nghiệp. Trong y tế, các hệ thống tìm kiếm âm thanh theo nội dung cho phép bác sỹ có thể tìm kiếm các ca bệnh có bản chụp cộng hưởng từ, x-quang tương tự với ca bệnh đang xem xét. Trong an ninh quốc phòng, các hệ thống tìm kiếm âm thanh theo nội dung có thể cho phép truy vết, xác định đối tượng nghi vấn.
Tài liệu tham khảo[sửa]
- Deselaers Thomas, Keysers Daniel, Ney, Hermann, Features for Image Retrieval: An Experimental Comparison, RWTH Aachen University, March 2014.
- Henning Müller, Wolfgang Müller, David McG. Squire, Stéphane Marchand-Maillet, Thierry Pun, Performance evaluation in content-based image retrieval: overview and proposals, Pattern Recognition Letters, Volume 22, Issue 5, April 2001, Pages 593-601.
- Kato, Toshikazu, Database architecture for content-based image retrieval, International Society for Optics and Photonics, Vol.1662, pp.112–123, 1992.
- Vipin Tyagi, Content-based Image Retrieval: Ideas, Influences, and Trends, Springer Nature Singapore, 2017