Mục từ này đã đạt chất lượng ở mức sản phẩm bước đầu của Đề án Biên soạn Bách khoa toàn thư Việt Nam giai đoạn 1
Quản lý cụm máy tính

Quản lý cụm máy tính (hay Quản lý cụm máy chủ,tiếng Anh Computer Cluster Management, Cluster Management, Cluster Management Server) để điều phối công việc, quản lý và cấu hình các dịch vụ trong cụm máy tính. Công việc này thường được thực hiện nhờ một phần mềm có đồ họa phụ trợ (GUI) hoặc phần mềm dòng lệnh chạy trên một hoặc tất cả các nút trong cụm máy tính (có thể chạy trên một máy chủ hoặc cụm máy chủ quản lý khác). Trong một số trường hợp, một tập hợp con của trình quản lý cụm có thể là một ứng dụng máy tính từ xa được sử dụng chỉ để gửi công việc và nhận lại kết quả công việc từ một cụm. Trong các trường hợp khác, quản lý cụm máy tính liên quan đến tính khả dụng và cân bằng tải hơn là các cụm dịch vụ tính toán hoặc cụ thể.

Một trong những thách thức trong việc sử dụng một cụm máy tính là chi phí quản lý nó, đôi khi có thể cao bằng tổng chi phí quản lý từng máy độc lập. Điều này mang lại lợi thế cho kiến trúc cụm sử dụng bộ nhớ dùng chung với chi phí quản lý thấp hơn cũng như sự phổ biến của các kiến trúc cho phép ảo hóa do dễ quản lý.

Thành phần chính[sửa]

Lập lịch tác vụ: để nhiều người cùng truy cập lượng lớn các nút trong cụm máy chủ và truy xuất lượng dữ liệu rất lớn trên bộ nhớ dùng chung, việc lập lịch tác vụ trở thành một thách thức cần giải quyết. Đặc biệt, trong một cụm máy với CPU- GPU không đồng nhất, với môi trường ứng dụng phức tạp, hiệu suất của mỗi công việc phụ thuộc nhiều vào đặc điểm của bản thân cụm đó. Do đó, việc gán các tác vụ lên CPU và GPU sao cho hợp lý là một lĩnh vực vẫn liên tục được nghiên cứu để giải quyết ngày càng tối ưu.

Quản lý lỗi trên các nút máy chủ: Khi một nút trong cụm bị lỗi, các chiến lược cô lập máy chủ lỗi có thể được sử dụng để giữ cho phần còn lại của hệ thống hoạt động bình thường.

Có hai hướng cô lập chính: (i) nút bị vô hiệu hóa hoàn toàn hoặc (ii) nút không được phép truy cập vào các tài nguyên như đĩa dùng chung. Phương thức STONITH là viết tắt của "Shoot The Other Node In The Head" có nghĩa là nút bị nghi ngờ bị lỗi sẽ bị vô hiệu hóa hoặc bị tắt nguồn. Ví dụ: bộ điều khiển điện sẽ ngắt nguồn điện một nút để nó không thể hoạt động.

Lịch sử hình thành và phát triển[sửa]

Greg Pfister ước tính khoảng thời gian ra đời của các cụm máy tính là vào khoảng những năm 1960. Cơ sở kỹ thuật của điện toán cụm máy tính được coi như phương tiện thực hiện công việc song song do Gene Amdahl của IBM phát minh ra vào năm 1967, người đã xuất bản bài báo đầu tiên về xử lý song song: Định luật Amdahl. của các cụm máy tính ban đầu ít nhiều gắn liền với sự phát triển của mạng máy tính do động lực chính cho sự phát triển của mạng là liên kết các máy tính, tạo ra một cụm máy tính.

Hệ thống cụm máy tính đầu tiên được đặt tên là Burroughs B5700 được phát triển vào những năm 1960. Điều này cho phép tối đa bốn máy tính, mỗi máy tính có một hoặc hai bộ xử lý, được kết nối với nhau để phân phối khối lượng công việc. Không giống như các hệ thống máy tính đơn, mỗi máy tính trong cụm này có thể khởi động lại mà không làm gián đoạn quá trình làm việc của cả cụm.

Sản phẩm cụm máy tính được đưa vào thương mại đầu tiên là hệ thống "Máy tính tài nguyên đính kèm" (ARC) của Data point Corporation, được phát triển vào năm 1977 và sử dụng ARCnet làm giao diện cụm. Cụm máy tính tính đã không thực sự phát triển cho đến khi Digital Equipment Corporation phát hành sản phẩm VAXcluster vào năm 1984 với hệ điều hànhVAX / VMS (còn đặt tên là OpenVMS). Các sản phẩm ARC và VAS cluster không chỉ hỗ trợ tính toán song song mà còn hỗ trợ hệ thống chia sẻ tệp và thiết bị ngoại vi từ đó cung cấp những lợi thế của xử lý song song, đồng thời duy trì độ tin cậy và tính toàn vẹn của dữ liệu. Hai cụm thương mại ban đầu đáng chú ý khác là Tandem Himalayan (một sản phẩm có tính khả dụng cao vào khoảng năm 1994) và IBM S/390 Parallel Sysplex (cũng vào khoảng năm 1994, chủ yếu dành cho doanh nghiệp). Cùng khoảng thời gian này, trong khi các cụm máy tính sử dụng song song nhiều máy tính nối mạng với nhau, thì các siêu máy tính bắt đầu sử dụng tính chất song song trong cùng một máy tính. Sau sự thành công của CDC 6600 vào năm 1964, Cray 1 đã được chuyển giao vào năm 1976 với khả năng tính song song bên trong thông qua bộ xử lý véc-tơ. Ngoài các siêu máy tính đầu tiên không dùng cụm và dựa vào bộ nhớ dùng chung, thì theo thời gian, một số siêu máy tính nhanh nhất (ví dụ: máy tính K) lại dựa vào kiến trúc cụm.

Từ bắt đầu thế kỷ 21 đến nay, cụm máy tính được phát triển và kết hợp để tạo nên những siêu máy tính cũng như trong lĩnh vực điện toán đám mây để lưu trữ dữ liệu. Năm 2004, siêu máy tính Mô phỏng Trái đất do NEC chế tạo tại Cơ quan Khoa học Trái đất và Biển Nhật Bản (JAMSTEC) đạt 35, 9 teraflop, sử dụng 640 nút, mỗi nút có tám bộ xử lý vector độc quyền. Vào tháng 7 năm 2011, máy tính 8.1 petaflop Japanese K trở thành máy tính nhanh nhất thế giới sử dụng hơn 60.000 bộ vi xử lý SPARC 64 VIIIfx được đặt trong hơn 600 tủ. Thực tế là máy tính K nhanh hơn 60 lần so với Earth Simulator và Earth Simulator được xếp hạng là hệ thống thứ 68 trên thế giới 7 năm sau khi giữ vị trí đầu bảng cho thấy sự gia tăng nhanh chóng về hiệu suất cụm máy tính và sự phát triển rộng rãi của công nghệ siêu máy tính trên toàn thế giới. Đến năm 2014, Earth Simulator đã bị loại khỏi danh sách và đến năm 2018, máy tính K đã rơi khỏi danh sách 10 máy tính mạnh nhất. Đến năm 2018, Summit đã trở thành siêu máy tính mạnh nhất thế giới, với 200 peta FLOPS. Tất cả các siêu máy tính này không phải tạo ra chỉ bởi một con chip mà là tổ hợp các máy tính (cluster) kết hợp lại với nhau và sử dụng các thuật toán tối ưu để xử lý song song dữ liệu. Ngoài ra một lĩnh vực nữa là điện toán đám mây cũng được xây dựng dựa trên kiến trúc các cụm máy tính. Việc đặt các cụm máy tính trên khắp thế giới khiến cho việc truy cập dữ liệu cũng như lưu trữ của khách hàng trở nên thuận tiện và nhanh chóng và đồng bộ hóa. Tiêu biểu có thể kể đến đó là hệ thống đám mây của Amazon Cloud, Google Cloud…

Lợi ích[sửa]

Trình quản lý cụm máy tính giúp cho việc thuận tiện trong quá trình quản lý các cụm máy tính, dễ dàng bảo trì đồng thời đảm bảo tính sẵn sàng và hiệu suất cao của các ứng dụng chạy trên cụm máy tính. Khi làm chủ được công cụ này giúp cho các tổ chức có thể tính toán thiết kế cơ sở hạ tầng phù hợp và tối ưu cho nhu cầu xử lý thông tin của mình.

Cách mạng công nghiệp 4.0 và quá trình chuyển đổi số đã và đang diễn ra vô cùng mạnh mẽ. Sự phát triển mạnh mẽ của dữ liệu và trí tuệ nhân tạo đã yêu cầu phát triển các hệ thống máy tính và siêu máy tính để đáp ứng nhu cầu tính toán và lưu trữ. Áp dụng cụm máy tính cho phép chạy các ứng dụng đòi hỏi tính khả dụng, khả năng mở rộng và hiệu suất cao. Các cụm đang được sử dụng làm máy chủ lưu trữ và sao lưu nhân rộng cung cấp khả năng chịu lỗi và độ tin cậy cần thiết cho các ứng dụng quan trọng. Ví dụ, Internet, công cụ tìm kiếm, Google sử dụng tính toán cụm để cung cấp các dịch vụ tìm kiếm trên Internet đáng tin cậy và hiệu quả. Hệ thống lưu trữ dữ liệu của các đám mây như Google Clound, Microsoft OneDrive, Dropbox, … Từ đó thể hiện sự cần thiết của việc quản lý cụm máy tính một cách hiệu quả và tối ưu.

Tại Việt Nam, các cơ sở nghiên cứu, giảng dạy hàng đầu về công nghệ thông tin đều có các cụm máy tính hiệu năng cao phục vụ nghiên cứu và giảng dạy. Các doanh nghiệp công nghệ lớn đều có Trung tâm dữ liệu cũng sử dụng những cụm máy tính lớn. Từ những hệ thống cụm nhỏ vài nút trước đây, hiện nay các cụm máy tính hiệu năng cao ở Việt Nam đã có vài chục, vài trăm nút ở các cơ sở nghiên cứu, giảng dạy tới vài nghìn nút ở các Trung tâm dữ liệu của các doanh nghiệp công nghệ.

Tài liệu tham khảo[sửa]

  1. Patterson, David A.; Hennessy, John L. (2011). Computer Organization and Design. pp. 641–642. ISBN 978-0-12-374750-1.
  2. K. Shirahata; et al. (30 Nov – 3 Dec 2010). Hybrid Map Task Scheduling for GPU-Based Heterogeneous Clusters. Cloud Computing Technology and Science (CloudCom). pp.733–740. doi: 10.1109/ CloudCom.2010.55. ISBN 978-1-4244-9405-7.
  3. Robertson, Alan (2010). "Resource fencing using STONITH" (PDF). IBM Linux Research Center.