Siêu dữ liệu (tiếng Anh Metadata) là dữ liệu chứa các thông tin về một hoặc nhiều đặc điểm của dữ liệu, dùng để mô tả một cách khái quát thông tin về dữ liệu, trợ giúp cho việc đặc tả hoặc tìm kiếm dữ liệu.
siêu dữ liệu được hiểu là ngôn ngữ mô tả dữ liệu, dữ liệu về dữ liệu hoặc thông tin về dữ liệu.
Siêu dữ liệu là bản mô tả các đặc điểm của một loại hình dữ liệu cụ thể trong một phương tiện (media) như văn bản, ảnh, bản đồ địa lý, thư mục, bài báo, sách, video, audio, trang web, …Các đặc điểm này có thể được mã hóa và biểu thị qua một hệ thống thống nhất theo quy định của mỗi quốc gia hoặc hiệp hội. Một thẻ trong thư mục của thư viện là một siêu dữ liệu về một ấn phẩm trong thư viện.
siêu dữ liệu của một file ảnh thường gồm các thuộc tính sau:
- Tên file ảnh
- Tác giả
- Phiên bản
- Ngày tạo lập
- Loại ảnh (bitmap, số màu, …)
- Bảng màu (palette)
- Kích thước theo số điểm ảnh: Chiều rộng chiều dài
- Số bit cho một điểm ảnh
- Nén/không nén bằng công cụ nào.
Một trang web có được mô tả bằng siêu dữ liệu với các thuộc tính sau đây:
- Ngôn ngữ được dùng để xây dựng trang web (vd. HTML)
- Công cụ được dùng để khởi tạo và cập nhật trang web
- Chủ đề trang web
- Tác giả trang web
- Các thông tin liên quan đến chủ đề
- Các thông tin bổ sung
Phân loại siêu dữ liệu[sửa]
Mỗi siêu dữ liệu có thể chứa toàn bộ hay một vài thông tin về các thành phần sau đây:
- Siêu dữ liệu mô tả cung cấp các thông tin mô tả đối tượng, bao gồm tên đối tượng, tác giả, tóm tắt nội dung, các từ khóa…
- Siêu dữ liệu cấu trúc cung cấp các thông tin về các thành phần tạo nên đối tượng, kiểu/thể loại đối tượng, dung lượng, phiên bản, quan hệ với các đối tượng khác và các đặc trưng số hóa của đối tượng.
- Siêu dữ liệu quản trị bao gồm các thông tin phục vụ cho việc quản lý đối tượng như ngày cập nhật, tính bảo mật, quyền chia sẻ đối tượng, bản chính hay bản sao, được phép dùng trong kinh doanh hay không…
- Siêu dữ liệu tham chiếu chứa các thông tin về nội dung và chất lượng của các dữ liệu thống kê và những nguồn hình thành nên đối tượng.
- Siêu dữ liệu thống kê (siêu dữ liệu tiến trình) chứa các thông tin về quy trình thu thập, xử lý, sản sinh hoặc cập nhật dữ liệu.
Siêu dữ liệu được viết theo một định dạng thống nhất do mỗi quốc gia hoặc hiệp hội quy định. Mỗi bản mô tả về một đối tượng trong một siêu dữ liệu được gọi là một phần tử của siêu dữ liệu.
Dưới dạng đơn giản, mỗi phần tử của siêu dữ liệu được thể hiện qua một nhóm hữu hạn các thuộc tính (trường siêu dữ liệu) mô tả theo một cú pháp thống nhất. Mỗi thuộc tính có thể được biểu diễn qua một thẻ định dạng (tag). Các thẻ này được đặt trong các siêu ngôn ngữ phổ biến như HTML, XML, LateX…
Tổ chức[sửa]
Siêu dữ liệu có thể được tổ chức theo kiến trúc phân cấp, tuyến tính, phẳng hoặc lớp.
Kiến trúc phân cấp quy định một trật tự trên-dưới giữa các đối tượng.
Trong kiến trúc tuyến tính, mỗi phần tử được xem là tách biệt với các phần tử khác.
Kiến trúc phẳng có hình ảnh như một mạng lưới phẳng, trong đó mỗi phần tử của siêu dữ liệu được thể hiện dưới dạng một nút trên lưới.
Kiến trúc lớp được sử dụng rộng rãi trong các hệ thống thông tin địa lý.
Vấn đề quan trọng nhất của siêu dữ liệu là chuẩn hóa: cung cấp một hệ thống thống nhất cho việc định dạng, mô tả siêu dữ liệu nhằm giảm thiểu tối đa các chi phí chuyển đổi giữa các siêu dữ liệu khác nhau.
Lịch sử phát triển[sửa]
Những năm 1980 trở về trước siêu dữ liệu được sử dụng chủ yếu trong việc lập các thẻ tra cứu trong thư viện. Ngoài ra, siêu dữ liệu còn có thể được sử dụng để lập các danh mục sản phẩm (catalogue), các thẻ tra cứu trong các viện bảo tàng, các cửa hàng và các hệ thống tra cứu thủ công hoặc bán thủ công.
Năm 1967, David Griffel và Stuart McIntosh thuộc Trung tâm Nghiên cứu Quốc tế của Đại học MIT, đề xuất khái niệm về siêu dữ liệu như là một ngôn ngữ độc lập dùng để mô tả khái quát về dữ liệu và các tính chất của dữ liệu. Các tác giả cũng cho rằng siêu dữ liệu có thể được hiểu là một siêu ngôn ngữ dùng để mô tả các quan hệ giữa các tập dữ liệu và các phép biến đổi giữa các chuẩn dữ liệu.
Từ khoảng năm 2000 đến nay, do nhu cầu số hóa, đã hình thành các thư viện điện tử và các trung tâm tra cứu chuyên ngành trên nền tảng các ngôn ngữ siêu dữ liệu.
siêu dữ liệu được sử dụng rộng rãi trong các hệ thống tổ chức lưu trữ và tìm kiểm thông tin. Các nguyên lý và công nghệ tổ chức siêu dữ liệu có ảnh hưởng và trợ giúp sự phát triễn của các ngành khoa học như phân loại học, bản thể học (ontology), sinh học, di truyền học, thiên văn học…
Siêu dữ liệu thừa hưởng và đóng góp đáng kể cho các lĩnh vực công nghệ thông tin như đặc tả phần mềm, lập trình hướng đối tượng là tiếp cận phổ biến hiện nay.
Trong Internet vạn vật, siêu dữ liệu trợ giúp việc kết nối thông tin giữa các tổ chức quốc tế và các quốc gia nhằm biến Internet thành một trung tâm tri thức toàn cầu, phục vụ cho các nhu cầu kinh tế, xã hội của nhân loại.
Một trong những vấn đề được quan tâm trong nghiên cứu và triển khai siêu dữ liệu là an ninh. Một mặt, các chuẩn siêu dữ liệu cần được công bố rộng rãi để các hãng phần mềm và người sử dụng khác nhau xây dựng giao diện (với chức năng là chuyển đổi định dạng) truy nhập đến các đối tượng. Mặt khác, có thể dựa vào các siêu dữ liệu để thực hiện các truy nhập bất hợp pháp, lấy cắp thông tin mật hoặc cài các đoạn mã độc vào đối tượng.
Việt Nam cần đẩy mạnh sự hợp tác trong phát triển và phổ biến các chuẩn siêu dữ liệu giữa các nhóm nghiên cứu dân tộc học với quốc tế.
Tài liệu tham khảo[sửa]
- Detken, Kai-Olivier, Dirk Scheuermann, and Bastian Hellmann (2015). Using Extensible Metadata Definitions to Create a Vendor-Independent SIEM System, Proc. International Conference in Swarm Intelligence, Springer.
- Fukuta, Naoki (2015). Toward an Agent-Based Framework for Better Access to open data by Using Ontology Mappings and their Underlying Semantics. Advanced Applied Informatics (IIAI-AAI), 2015 IIAI 4th International Congress, IEEE.
- McCrae, John P., et al. (2015). One Ontology to Bind Them All: The META-SHARE OWL ontology for the Interoperability of Linguistic Datasets on the Web, European Semantic Web Conference. Springer.
- S. Ram and J. Liu (2008). A Semiotics Framework for Analyzing Data Provenance Research, Journal of Computing Science and Engineering, vol. 2, pp. 221-248.