Mạng toàn cầu (tiếng Anh WWW, World Wide Web, theWeb) là dịch vụ truy vấn và hiển thị thông tin trên Internet theo yêu cầu người dùng. WWW (cg. web) có thể hiển thị thông tin đa phương tiện như văn bản, đồ họa, âm thanh và video tìm thấy trên Internet. Mỗi đơn vị thông tin truy xuất từ Internet là trang Web, mỗi trang Web này có thể chứa các liên kết (links) đến các trang Web khác.
Web cho phép người dùng xâm nhập tới lượng lớn các tài liệu mà chúng liên kết với nhau bằng hypertext (siêu văn bản) hoặc hypermedia (cg. hyperlink), nó là các kết nối điện tử với khả năng liên kết các đoạn thông tin liên quan để người dùng dễ dàng xem chúng.
Hypertext cho phép người dùng chọn một từ hoặc cụm từ trên văn bản để truy cập các tài liệu (cg. trang web) khác chứa thông tin bổ sung liên quan đến từ hoặc cụm từ đó. Hypermedia là phần mở rộng của hypertext. Thay vì chỉ sử dụng các từ, cụm từ trên văn bản, hypermedia còn sử dụng đối tượng đa phương tiện (vd. hình ảnh, âm thanh, phim, v.v.), đối tượng giả (vd. trang hướng dẫn người dùng) và đường liên kết (links) để kết nối các đối tượng với nhau. Dưới góc độ đồ thị, đối tượng đa phương tiện và đối tượng giả được xem là các nút (cg. đỉnh) đồ thị với khả năng cung cấp nội dung hay thông tin dẫn đường cho người dùng. Liên kết là cạnh đồ thị với khả năng dẫn đường của hypermedia. Siêu liên kết (hyperlink) là đoạn văn bản hoặc đồ họa cho phép người dùng nhấp chuột để xem thông tin khác.
Nội dung[sửa]
Nội dung trang web, bao gồm văn bản và siêu liên kết, được viết bằng Ngôn ngữ đánh dấu siêu văn bản (HTML - HyperText Markup Language) và được gán một địa chỉ trực tuyến với tên là Bộ định vị tài nguyên thống nhất URL (Uniform Resource Locator).
URL[sửa]
URL bao gồm các thành phần chính sau: giao thức trao đổi thông tin (vd. http), tên máy chủ hostname (vd. vass.gov.vn) và đường dẫn đến tệp (vd. pages/index.aspx). Ngoài http (HyperText Transfer Protocol), giao thức trao đổi thông tin của Web còn có thể là giao thức sử dụng mã hóa truyền tải dữ liệu https (HyperText Transfer Protocol Secure), giao thức truyền tệp ftp (File Transfer Protocol), v.v.
Mô hình hoạt động[sửa]
Web hoạt động theo mô hình khách-chủ (client-server) cơ bản trên Internet. Máy chủ web có nhiệm vụ lưu trữ, xử lý và cung cấp các trang web cho máy khách. Trang web lưu trữ trên máy chủ có thể là tĩnh như hệ thống tệp của máy chủ, cũng có thể là động, được máy chủ web sử dụng chương trình máy tính (script) sinh ra. Máy khách và máy chủ trao đổi thông tin theo giao thức xác định trong yêu cầu của máy khách (vd. giao thức http).
HTML[sửa]
Nhóm tệp HTML cùng chủ đề lưu giữ trên máy tính chủ (hosting computer) kết nối Internet được gọi là trang web chủ (website, home page). Website thường được xây dựng xung quanh một trang trung tâm (cg. trang chính hay trang welcome), cung cấp các liên kết đến một nhóm các trang khác cùng lưu trữ trên máy chủ web và đôi khi có cả các liên kết dẫn đến trang được lưu trữ trên một máy chủ khác.
Phần mềm trình duyệt[sửa]
Phần mềm trình duyệt (cg. web browser) chạy trên máy khách đưa ra yêu cầu truy vấn như tải xuống, tạo khuôn dạng hay hiển thị trang web, kết quả truy vấn. Người dùng có thể xem hoặc di chuyển từ trang web này sang trang web khác bằng cách nhấp chuột trên liên kết. Khi sử dụng trình duyệt web, máy chủ web có thể gửi thông điệp (cg. cookie) cho trình duyệt web. Cookie là tệp hoặc một phần tệp được máy chủ web lưu trữ trên đĩa cứng của người dùng web. Nó được sử dụng để tùy chỉnh các trang web (vd. bổ sung thông tin quảng cáo) và lưu trữ thông tin đăng nhập của người dùng để sử dụng về sau.
Với trình duyệt web, người dùng có thể xâm nhập đến dịch vụ tìm kiếm thông tin trên Internet, được gọi là mô tơ tìm kiếm web (web search engine). Người sử dụng gửi yêu cầu để trình duyệt tìm kiếm các trang web trên Internet chứa các khái niệm trong câu truy vấn. Kết quả cho lại là danh sách các trang web phù hợp nhất với những gì mà người dùng đang cố gắng tìm kiếm. Hầu hết các công cụ tìm kiếm cho phép kết nối các thuật ngữ với các toán tử logic như“AND”, “OR”, và “NOT” để tinh chỉnh câu truy vấn.
Mô hình khái quát về quá trình hoạt động của mô tơ tìm kiếm web như trên Hình 1.
Các bước thực hiện bao gồm:
1. Dịch vụ tìm kiếm (web crawler, spider) tự động duyệt và tải về tất cả trang web đang có trên Internet, khảo sát nội dung, phân tích các trang web, trích chọn các khái niệm và từ khóa (cg. chỉ mục các trang web);
2. Dịch vụ tìm kiếm lưu trữ vào kho (storage) các thông tin đã được chỉ mục;
3. Người dùng sử dụng trình duyệt web để biên soạn và gửi câu truy vấn;
4. Máy chủ tìm kiếm (search server) duyệt các thông tin đã được chỉ mục trong kho lưu trữ, hình thành danh sách các trang web chứa các từ khóa thỏa mãn yêu cầu truy vấn;
5. Máy chủ tìm kiếm gửi kết quả trả về trình duyệt web của người dùng.
Lịch sử phát triển[sửa]
Một số crawler nổi bật trên thế giới bao gồm: (a) năm 1998 có Google Search của Alphabet Inc (Mỹ) với khả năng chỉ mục 40 tỷ trang web; (b) năm 2009 có Bing của Microsoft với khả năng chỉ mục 13,5 tỷ trang web; (c) năm 2000 có Baidu (Trung Quốc); (d) năm 2000 có Gigablast của Independent (Mỹ) với khả năng chỉ mục hơn 1 tỷ trang, nhưng đây là phần mềm tự do.
WWW được Tim Berners-Lee và cộng sự phát triển từ năm 1989 tại CERN (Conseil Européen pour la Recherche Nucléaire), một tổ chức khoa học quốc tế ở Thụy Sỹ. Họ đã tạo ra giao thức http và có trình duyệt web trên cơ sở văn bản đầu tiên vào năm 1992.
Năm 1993, Marc Andreessen và cộng sự phát triển trình duyệt Mosaic đồ họa tại trường đại học Illinois (Mỹ) và được sử dụng trên máy tính cá nhân.
Năm 1994, Marc Andreessen đồng sáng lập ra công ty Netscape Communications Corporation. Sản phẩm Netscape Navigator của họ đã thống trị làng trình duyệt web từ tháng 12 năm 1994.
Năm 1995, công ty Microsoft phát triển IE (Internet Explorer) trên nền tảng Mosaic cho Windows 95 và tích hợp vào hệ điều hànhWindows vào năm 1996. IE sớm trở thành trình duyệt quen thuộc nhất trên thế giới.
Năm 2003, công ty Apple công bố Safari và nó trở thành trình duyệt web mặc định trên máy tính cá nhân Macintosh, và sau đó trên IPhone (2007) và IPad (2010).
Năm 2004, trình duyệt Firefox của Mozilla ra đời với tính năng về tốc độ và an ninh cao, nó là thách thức chiếm lĩnh thị trường của IE.
Năm 2008, Google công bố Chrome, trình duyệt đầu tiên sử dụng bảng (tabs) tách biệt. Đến năm 2013, Chrome trở thành trình duyệt thông dụng nhất, vượt qua cả IE và Firefox.
Năm 2015, Microsoft công bố trình duyệt Edge thay thế cho IE.
Tổ chức tiêu chuẩn web W3C (World Wide Web Consortium) khuyến cáo rằng công nghệ web cần đảm bảo hoạt động với đa ngôn ngữ, đa nền văn hóa. Tháng 12 năm 2007, số lượng các trang web sử dụng mã hóa ký tự theo chuẩn Unicode đã vượt qua các trang web sử dụng chuẩn ASCII và Tây Âu (Western European).
Vào tháng 10 năm 2004, Dale Dougherty, phó chủ tịch của O'Reilly Media lần đầu tiên đưa ra khái niệm web 2.0 tại một hội thảo về web. Web 2.0 là tên được sử dụng để mô tả thế hệ thứ hai của web, trong đó các trang web tương tác và động thay thế các trang HTML tĩnh. Web 2.0 hướng tới khả năng người dùng cộng tác và chia sẻ thông tin trực tuyến thông qua phương tiện truyền thông xã hội, blog, wikis và cộng đồng trên web.
Tim Berners-Lee lần đầu đề xuất khái niệm web ngữ nghĩa (Semantic Web) tại hội nghị WWW quốc tế thứ nhất để hình thành W3C, được tổ chức vào năm 1994. Web ngữ nghĩa là phần mở rộng của WWW, trong đó dữ liệu được gán ý nghĩa (ngữ nghĩa) cho phép máy tính tra cứu và suy diễn để đáp ứng yêu cầu tìm kiếm của người dùng.
Tài liệu tham khảo[sửa]
- Barney Warf, The SAGE Encyclopedia of the Internet, SAGE Publications, 2018
- Douglas E. Comer, The Internet Book - Everything You Need to Know about Computer Networking and How the Internet Works, Fifth edition, Taylor & Francis Group, LLC, 2019.
- https: //www.britannica.com/topic/World-Wide-Web (Truy cập14 Apr 2020)