Tìm kiếm video theo nội dung (hay Tra cứu video theo nội dung,tiếng Anh Content-Based Videoretrieval; Digital Video Retrieval; Digital Video Search) là kỹ thuật tìm kiếm tệp hay đoạn video mong muốn trong kho lưu trữ trên cơ sở phân tích nội dung video. tìm kiếm video theo nội dung được xem như một khung qui trình, trong đó có các phương tiện tổ chức video và tìm kiếm phi tuyến tính thông qua một yêu cầu truy vấn.
Video số được tạo ra từ số hóa video tương tự, bao gồm dãy các ảnh (cg. khung hình) được trình diễn với tốc độ (frame rate) cố định. Video rất giàu nội dung, có dung lượng dữ liệu thô khổng lồ và rất ít cấu trúc ưu tiên cho nên việc chỉ mục và tìm kiếm video là khá khó khăn. Nếu tốc độ trình diễn khung hình bằng hay lớn hơn 25 frames/s thì chuyển động trong video có cảm giác mượt mà, vậy 10 phút video với ảnh mầu 24 bít/pixel, kích thước 512x512 pixels và frame rate 30 frames/s đòi hỏi 13, 8 GBytes lưu trữ. Dung lượng video số tăng theo cấp số mũ hàng năm, được lưu trữ hàng ngày trong kho dữ liệu phi cấu trúc, phân tán. Việc nghiên cứu phát triển các hệ thống tìm kiếm video theo nội dung cho các cơ sở dữ liệu lớn như vậy là cần thiết.
Có nhiều nguồn video khác nhau, bao gồm video chuyên nghiệp như nội dung bản tin TV, phim tài liệu, video thể thao, âm nhạc, v.v. thường chứa đựng nhiều hiệu ứng thị giác; video do người dùng nghiệp dư, bán chuyên nghiệp tạo ra (UCC - User Created Content) và video an ninh được thu thập từ các hệ thống giám sát. Mỗi loại video đòi hỏi cách xử lý riêng, đơn vị tìm kiếm (Unit of Retrieval) khác nhau. Các hệ thống tìm kiếm video trên WWW như YouTube, Google Video có đơn vị tìm kiếm là toàn bộ nội dung video vì hầu hết chúng là clip ngắn. Với bản tin thời sự truyền hình thì đơn vị logic tìm kiếm thường là đoạn (mẩu) tin (news story). Các đơn vị tìm kiếm video khác là shot hay cảnh (scene) video. Shot trong video số là trình tự các khung hình của một lần bấm máy quay. Hầu hết hệ thống tìm kiếm video theo nội dung sử dụng đơn vị tìm kiếm shot vì chúng có thể được tách tự động trong tiến trình gọi là tách biên shot. Cảnh trong video là kết hợp logic các shot để tạo ra các đơn vị ngữ nghĩa. Vài loại video cho khả năng tạo ra bản tóm tắt video (summary, video skim) để làm đơn vị tìm kiếm. Một hoặc vài khung hình chính (keyframes) được trích chọn từ đơn vị tìm kiếm để làm đại diện cho chúng. Trình tự các khung hình chính tạo thành storyboard để người sử dụng có thể xem lướt nội dung video.
Kiến trúc tổng quát[sửa]
Một video đầy đủ bao gồm phụ đề (văn bản), rãnh âm (tiếng nói và phi tiếng nói), các khung hình và siêu dữ liệu (metadata) như tên video, tác giả, đạo diễn, nhà sản xuất. Để có thể tìm kiếm nội dung video tương đồng với truy vấn của người sử dụng, hệ thống tìm kiếm video theo nội dung cần thực hiện lập chỉ mục nội dung video độc lập hay kết hợp từ nhiều nguồn khác nhau như văn bản, âm thanh và hình ảnh.
Lập chỉ mục (indexing) là việc tập hợp video có sẵn với các nhiệm vụ chính như tạo chỉ mục (con trỏ đến đơn vị tìm kiếm), tóm tắt trực quan và lưu trữ video vào kho. Công việc này thường được thực hiện ngoại tuyến (off-line) và bắt đầu bằng việc phân đoạn video, sau đó trích chọn các đặc trưng (sử dụng các công cụ xử lý video và phân tích mẫu) để có được thông tin cần thiết cho việc khởi tạo mô hình dữ liệu video.
Phần lớn hệ thống tìm kiếm video trên Web sử dụng kỹ thuật tìm kiếm văn bản. Có thể phân tích video để sinh ra văn bản, bao gồm nhận dạng tiếng nói trên rãnh tiếng, nhận dạng văn bản trên các khung hình video, thu thập văn bản mô tả video (metadata). Các từ khóa hoặc văn bản mô tả được kết hợp với khung hình chính hay các shot của video phục vụ tìm kiếm.
Âm thanh trong video bao gồm tiếng nói, âm nhạc và tiếng động khác nhau, ví dụ như tiếng vỡ cửa sổ video an ninh hay âm thanh từ khán giả và ngôn điệu của bình luận viên trong video thể thao là những sự kiện có thể được chỉ mục trên cơ sở đặc trưng âm thanh mức thấp.
Phân tích nội dung trực quan các khung hình chính của video để có các đặc trưng mức thấp như màu sắc, hoa văn, v.v phục vụ chỉ mục từng shot hoặc scene. Tuy nhiên có một “khoảng cách ngữ nghĩa” rất lớn giữa các đặc trưng mức thấp và ngữ nghĩa nội dung video. Để giảm khoảng cách này, các khái niệm ngữ nghĩa phức tạp hơn như đối tượng, chuyển động hay sự kiện trong video được phát hiện để chỉ mục.
Tiến trình tóm tắt trực quan (visual summary) có nhiệm vụ trình diễn các đơn vị tìm kiếm. Nó làm giảm dung lượng dữ liệu khổng lồ để hỗ trợ tiến trình duyệt và dẫn đường tìm kiếm video. Tóm tắt video bằng cách trích chọn khung hình chính và tổ chức chúng vào các cấu trúc dữ liệu khác nhau như mốc thời gian và đồ thị, v.v. Tóm tắt video còn sinh chuỗi video đại diện bao gồm các điểm nổi bật của dữ liệu video (video skimming).
Trong quá trình lưu trữ (archiving), video có thể được số hóa hay nén (nếu cần), trước khi lưu trữ vào máy chủ.
Tiến trình truy vấn (retrieval) thực hiện trích rút dữ liệu video phù hợp với câu truy vấn từ cơ sở dữ liệu. Câu truy vấn được biến đổi để ánh xạ vào biểu diễn mô hình dữ liệu video, phục vụ tìm kiếm thông tin mong muốn. Nội dung video được truy vấn ở các cấp độ khác nhau, bao gồm truy vấn dựa trên văn bản, truy vấn dựa trên các đặc trưng nghe-nhìn hay truy vấn dựa trên khái niệm ngữ nghĩa. Truy vấn dựa trên văn bản (từ khóa, mô tả) là cách thức truy vấn trên cơ sở nội dung đơn giản nhất. Hạn chế của kỹ thuật này là việc tạo từ khóa và mô tả thường rất chủ quan, không đầy đủ, hơn nữa chỉ có thể truy vấn những đơn vị video đã được mô tả. Truy vấn mức đặc trưng được thực hiện trên cơ sở đo mức độ tương tự giữa ảnh truy vấn và khung hình chính. Quá trình truy vấn này tương tự với truy vấn ảnh theo ví dụ trong hệ thống tìm kiếm ảnh (xt. Tìm kiếm ảnh theo nội dung). Phương pháp đo độ tương tự của video bao gồm đối sánh đặc trưng, đối sánh văn bản, đối sánh kết hợp. Sự lựa chọn phương pháp nào để sử dụng phụ thuộc vào loại truy vấn.
Các video thu được khi trả lời truy vấn được xếp hạng bởi người dùng hoặc tự động để làm mịn hơn các tìm kiếm tiếp theo (cg. phản hồi liên quan). Các phương pháp làm mịn bao gồm tối ưu điểm truy vấn hay điều chỉnh trọng số đặc trưng. Phản hồi liên quan là cầu nối khoảng cách giữa khái niệm ngữ nghĩa và đặc trưng mức thấp đại diện nội dung video. Phản hồi liên quan còn phản ánh sở thích của người dùng trên cơ sở phản hồi của họ về kết quả tìm kiếm trước đó. Thành phần giao diện người sử dụng (user interface) cho khả năng dễ dàng tạo ra câu truy vấn. Giao diện có các công cụ duyệt, trình diễn và tìm kiếm dữ liệu video theo ví dụ (query by examples), phác họa, các đặc trưng mức thấp và tìm kiếm theo khái niệm ngữ nghĩa.
Quá trình phát triển[sửa]
Có thể chia các hệ thống tìm kiếm video thành hai thế hệ. Thế hệ thứ nhất thực hiện tìm kiếm trên cơ sở truy vấn văn bản mô tả. Hiệu năng của loại này phụ thuộc mạnh vào chất lượng metadata tạo ra cho nên chúng kém hiệu quả. Thế hệ thứ hai hỗ trợ truy vấn video theo nội dung. Các nghiên cứu về tìm kiếm video theo nội dung được thực hiện từ những năm 90 của thế kỷ XX. Hệ thống tìm kiếm video theo nội dung chỉ là mở rộng của tìm kiếm ảnh theo nội dung với các chức năng phân đoạn video thành các shot, trích chọn các khung hình chính từ chúng. Việc nghiên cứu phân tích nội dung video ứng dụng trong hệ thống tìm kiếm video theo nội dung được phát triển mạnh mẽ vài năm sau đó.
Từ 2001 National Institute of Standards and Technology đã hỗ trợ hàng năm tổ chức hội nghị VideoRetrieval Evaluation (TRECVid) và cung cấp nhiều bộ dữ liệu chuẩn thử nghiệm, nhằm thúc đẩy nghiên cứu và ứng dụng tìm kiếm video theo nội dung ở khắp các châu lục.
Các trường đại học CMU (Mỹ) và DCU (Ireland) đi đầu trong việc nghiên cứu, phát triển hệ thống tìm kiếm video theo nội dung từ năm 2004 với khả năng chỉ mục, tìm kiếm, tóm tắt trực quan và hiển thị thông minh nội dung video số.
MPEG-7 (ISO/IEC 15938) là chuẩn mô tả nội dung đa phương tiện do Moving Picture Coding Experts Group đề xuất lần đầu vào năm 2002. Nó có khả năng mô tả các đặc trưng mức thấp, đại diện nội dung mức cao và các các khía cạnh cấu trúc của dữ liệu nghe nhìn. Mục đích của MPEG-7là tạo khả năng tương tác giữa các ứng dụng và thiết bị liên quan đến nội dung nghe nhìn, bao gồm cả phân tích và tìm kiếm nội dung video.
tìm kiếm video theo nội dung có nhiều ứng dụng khác nhau như duyệt nhanh danh mục video, phân tích thương mại trực quan (vd. trào lưu khách hàng, phân tích tương quan giữa quảng cáo và hiệu ứng), bảo tàng số, quản lý thông minh video trên web và video an ninh, v.v.
Hiện nay đã có nhiều hệ thống tìm kiếm video theo nội dung được phát triển và ứng dụng rộng rãi như VideoQ (Culumbia University), Screening Room (Convera, Virginia), Virage (San Mateo, California), Físchlár DigitalVideo Suite (Ireland), Informedia Digital Video Library (CMU, Mỹ).
Tài liệu tham khảo[sửa]
- Guojun Lu, Multimedia Database Management Systems, Artech House, 1999.
- Ling Liu, Tamer Özsu (Editors), Encyclopedia of Database Systems, Second Edition, Springer Nature, 2018.
- Milan Petkovic, WiDern Jonker, Content-based Video Retrieval - a Database Perspective, Springer Science-Business Media LLC, 2004.
- Oge Marques, Borko Furht, Content-based Image and Video Retrieval, Springer Science-Business Media, New York, 2002.