Xếp hạng trang web (tiếng Anh Page Ranking) là việc gán cho mỗi trang web một trọng số biểu diễn tầm quan trọng, mức độ độ ưu tiên hoặc mức độ phù hợp của trang web đó dựa trên một tiêu chí nào đó. Thông thường, việc xếp hạng trang web được thực hiện trên nhiều trang web đồng thời chứ không phải chỉ trên một trang web riêng lẻ. Từ đó các trang web sẽ được sắp xếp theo trọng số với thứ tự thường là từ cao xuống thấp. Trọng số gắn với mỗi trang web được tính toán tự động bởi một thuật toán máy tính. Thuật toán này có tốc độ cao và khả năng tính toán đồng thời với dữ liệu có kích thước rất lớn, lên tới hàng tỷ trang web một lúc.
Phương pháp xếp hạng[sửa]
Mỗi trang web đều chứa nhiều dữ liệu và thông tin, phần lớn được biểu diễn dưới dạng văn bản viết. Trang web có thể thuộc các báo viết trực tuyến (vd. http://vnExpress.net), các bài viết trên trên Bách khoa toàn thư mở (vd. https://vi.wikipedia.org/wiki/), các trang tin điện tử của các tổ chức (vd. http://chinhphu.vn/), các bài viết trên mạng xã hội (vd. Facebook), v.v.
Một thuật toán xếp hạng trang web điển hình là thuật toán PageRank, được hai người sáng lập của công ty Google, Larry Page và Sergey Brin phát triển. Ý tưởng cơ bản của thuật toán này là với mỗi trang web, ta đếm số lần các trang web khác trỏ tới nó. Nếu trang web A có nhiều trang web trỏ tới nó hơn là trang web B thì trang web A nhiều khả năng sẽ có thứ hạng cao hơn. Chú ý rằng quan hệ trỏ tới hay liên kết tới là quan hệ có chiều: trang X có thể trỏ tới trang Y nhưng trang Y có thể không trỏ tới trang X. Như vậy, tiêu chí cơ bản để xếp hạng ở đây đơn giản chỉ là một con số đo đếm tần số liên kết tới trang web đo từ mọi trang web khác. PageRank tính toán đồng thời con số đó cho hàng tỷ trang web. Số trang web hiện nay là rất lớn, theo một ước tính thì năm 2018, số website trên toàn cầu là hơn 2 tỉ, và mỗi website thì lại chứa nhiều trang thông tin.
Tần số liên kết như trên không phải là tiêu chí duy nhất để gán trọng số cho trang web. Google cho biết thuật toán PageRank sử dụng đồng thời hơn 200 tiêu chí để xếp hạng trang web. Một số tiêu chí quan trọng khác có thể kể đến là nội dung của trang web, cách tổ chức của trang web, hay chủ sở hữu của nó. Xếp hạng trang web là một vấn đề lõi của các công cụ tìm kiếm thông tin. Một công cụ tìm kiếm thông tin, còn gọi là một máy tìm kiếm (search engine) như Google cho phép người dùng nhập một (vài) từ khoá để tìm kiếm thông tin và hiển thị các trang web liên quan tới từ khoá đó. Các trang web này được thuật toán tìm kiếm của Google xếp hạng và hiển thị theo trọng số từ cao xuống thấp tương ứng với mức độ liên quan hoặc phù hợp nhất của trang web dựa trên tiêu chí từ khoá. Chú ý rằng bên cạnh thứ tự nội tại của các trang web được PageRank tính toán trước, thì từ khoá chỉ là một tiêu chí khách quan được thuật toán tìm kiếm sử dụng bên cạnh các tiêu chí chủ quan khác, ví dụ như trang web nào được trả tiền quảng cáo thì có thể được ưu tiên trọng số cao hơn khi hiển thị trong danh sách kết quả tìm kiếm.
Ngoài vấn đề lõi là xếp hạng trang web, một hệ thống tìm kiếm thông tin trên web còn cần giải quyết hai vấn đề quan trọng sau:
- Thu thập dữ liệu web (crawling)
- Đánh chỉ mục web (indexing)
Phương pháp xếp hạng trang web ra đời cùng với của mạng web và các công cụ tìm kiếm thông tin trên web. Năm 1994, một trong những công cụ tìm kiếm trang web có tên WWWW - World Wide Web Worm được McBryan đề xuất. Công cụ này đánh chỉ mục khoảng hơn 110,000 trang web và các tài liệu truy cập được từ web. Vào tháng 11 năm 1997, công cụ tìm kiếm phổ biến tại thời điểm đó như WebCrawler công bố đã đánh chỉ mục được từ 2 triệu tới 100 triệu trang web. Số lượt tìm kiếm trên các công cụ tìm kiếm được ước tính khoảng 1,500 lượt tìm kiếm mỗi ngày đối với công cụ WWWW vào tháng 4/1994; khoảng 20 triệu lượt tìm kiếm mỗi ngày đối với công cụ Altavista vào tháng 11/1997.
Lĩnh vực nghiên cứu liên quan nhất tới xếp hạng trang web là lĩnh vực tìm kiếm thông tin, được giới khoa học quan tâm từ khá sớm. Từ những năm 1990, chuỗi hội nghị TREC (Text Retrieval Conference) tập trung phát triển và đánh giá các phương pháp truy vấn thông tin. Tuy nhiên, bộ dữ liệu văn bản mẫu để đánh giá thường có kích thước nhỏ và được kiểm soát chất lượng tốt, khá đồng nhất; thường là trên các tập tin tức hoặc tập bài báo khoa học trong thư viện. Tập dữ liệu lớn nhất được sử dụng cũng chỉ đạt tới kích thước khoảng 20GB.
Năm 1998, Lawrence Page, một sinh viên của Đại học Stanford, Hoa Kỳ nộp đơn cấp bằng sáng chế số 6.285.999 có tên “Method for node ranking in a linked database”. Trong cùng năm 1998, Lawrence Page và Sergey Brin công bố một bài báo khoa học có tên “The Anatomy of a Large-Scale Hypertextual Web Search Engine” chính thức giới thiệu thuật toán xếp hạng trang web PageRank và công cụ tìm kiếm mang tên Google. Google tại thời điểm này đã có khả năng đánh chỉ mục và xếp hạng khoảng 24 triệu trang web với kích thước lớn hơn 147GB.
Xếp hạng trang web được sử dụng chủ yếu trong các hệ thống tìm kiếm thông tin trên web. Hiện nay nhiều công ty công nghệ lớn trên thế giới tự phát triển bộ máy tìm kiếm thông tin của họ, điển hình nhất là Google, Bing (của Microsoft), Yahoo, Baidu. Những công cụ này cho phép người dùng tìm kiếm thông tin trên các trang web của mạng Internet với độ chính xác cao. Theo một thống kê vào năm 2018, Google chiếm khoảng 78% thị phần tìm kiếm trên toàn cầu, bỏ xa thị phần của các công ty nổi tiếng khác như Baidu, Yahoo, hay Microsoft.
Từ khi ra đời, phương pháp xếp hạng trang web luôn dựa vào tiêu chí quan trọng là các mối liên kết chéo giữa các trang, cụ thể là trên đồ thị các liên kết chéo. Tuy nhiên, gần đây, nhiều chuyên gia nói chung và Google nói riêng đang nghiên cứu phát triển các phương pháp xếp hạng trang web không sử dụng liên kết chéo. Hãng tìm kiếm Yandex của Nga cũng đang thử nghiệm phương pháp này. Với khả năng cá nhân hoá ngày càng cao thông qua một loạt dịch vụ miễn phí như thư điện tử, bản đồ trực tuyến, trang tổng hợp tin tức, trình duyệt, hệ điều hành, v.v., Google nói riêng và các dịch vụ tìm kiếm khác nói chung ngày càng có khả năng hiểu người dùng. Do đó các hệ thống tìm kiếm có thể xác định tiêu chí tìm kiếm phù hợp (ví dụ địa điểm hiện tại của người dùng) thay vì cần khai thác mạng liên kết giữa các trang web.
Một yếu tố quan trọng khác liên quan tới của phương pháp xếp hạng trang web là sự phát triển mạnh của các mạng xã hội với ngày cảng nhiều người tham gia. Hiện nay một tiêu chí trọng yếu để đánh giá tầm quan trọng của một trang web là số lượt trang web đó được chia sẻ trên mạng xã hội cũng như tầm ảnh hưởng của tổ chức hay cá nhân chia sẻ, liên kết tới trang web đó. Điều này dẫn tới nhu cầu cần thiết phải tích hợp nội dung và cấu trúc của mạng xã hội vào trong mạng liên kết web khi xếp hạng.
Tài liệu tham khảo[sửa]
- David Austin, How Google Finds Your Needle in the Web's Haystack, American Mathematical Society, Feature Column, December 2006.
- Lawrence Page, Method for node ranking in a linked database. US Patent 6, 285, 999, 1998
- Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine, Computer Networks and ISDN Systems.30 (1–7): 107–117.
- Oliver A. McBryan. GENVL and WWWW: Tools for Taming the Web. First International Conference on the World Wide Web. CERN, Geneva (Switzerland), May 1994.
- D. K. Harman and E. M. Voorhees, Proceedings of the fifth Text REtrieval Conference (TREC-5), Gaithersburg, Maryland, November 1996.