Mục từ này đã đạt chất lượng ở mức sản phẩm bước đầu của Đề án Biên soạn Bách khoa toàn thư Việt Nam giai đoạn 1
Tích hợp cơ sở dữ liệu

Tích hợp cơ sở dữ liệu (tiếng Anh Database Integration) là quá trình kết hợp thông tin từ nhiều nguồn cơ sở dữ liệu (cơ sở dữ liệu) khác nhau để cung cấp cho người dùng một phiên bản được thống nhất ở cách nhìn. Các nguồn thông tin dùng cho việc tích hợp có thể bao gồm các cơ sở dữ liệu, cơ sở dữ liệu đám mây, kho dữ liệu, cơ sở dữ liệu ảo,… Cũng có thể hiểu tích hợp cơ sở dữ liệu theo nghĩa rộng hơn, đó làviệc phát triển các ứng dụng hoặc kết nối các ứng dụng thông qua cơ sở dữ liệu.

Lợi ích[sửa]

Lợi ích chính của tích hợp cơ sở dữ liệu là làm cho dữ liệu trở nên có thể truy cập được bởi nhiều bên liên quan, kể cảnhững ứng dụng phát triển về sau. Nếu không có tích hợp cơ sở dữ liệu, nhiều tổ chức hay ứng dụng sẽ phải sao chép hoặc di chuyển dữ liệu. Như vậy, Tích hợp cơ sở dữ liệulà cách tiếp cận hiệu quả để sử dụng dữ liệu.

Chẳng hạn, một công ty lưu trữ dữ liệu kế toán của mình trong cơ sở dữ liệu Oracle và dữ liệu khách hàng trong Salesforce. Dùng tích hợp cơ sở dữ liệu, nhân viên có thể truy cập dữ liệu của cả hai hệ thống ở tại một nơi như kho dữ liệu hoặc cơ sở dữ liệu và khai thác được thông tin trong thời gian ngắn hơn.

Ưu điểm[sửa]

Hiện nay nguồn dữ liệu lớn luôn thúc đầy những phân tích kinh doanh, có thể thu được những kết luận kinh doanh thông minh. Tích hợp cơ sở dữ liệu có tầm quan trọng trong sử dụng hiệu quả dữ liệu của doanh nghiệp bởi đem lại được một số ưu điểm dưới đây.

  • Có thêm quyền kiểm soát thông tin sẵn có của hệ thống. Tích hợp cơ sở dữ liệu cho phép quản lý thông tin toàn doanh nghiệp tập trung tại một vị trí, giúp dễ dàng xác định các tắc nghẽn, cải thiện trải nghiệm người dùng và giảm thời gian giải quyết công việc trong hoạt động.
  • Đảm bảo tuân thủ các quy định. Việc tuân thủ các tiêu chuẩn vận hành quốc gia và quốc tế, như PCI (The Provincial Competitiveness Index), HIPAA (Health Insurance Portability and Accountability Act) và GDPR (General Data Protection Regulation) đang nhanh chóng trở thành điều cần thiết cho các doanh nghiệp xử lý thông tin kỹ thuật số. Tích hợp cơ sở dữ liệu cho phép quản lý tập trung, giúp dễ dàng hơn để đảm bảo tuân thủ các quy định vận hành trên toàn tổ chức.
  • Tạo một nguồn tin cậy. Trong trường hợp sát nhập hoặc mua lại, các công ty cần tích hợp dữ liệu lưu trữ trong cơ sở dữ liệu không đồng nhất và các hệ thống quản lý thông tin khác để tạo ra một cái nhìn thống nhất về dữ liệu kinh doanh đáng tin cậy. Các công cụ tích hợp cơ sở dữ liệu giúp hợp nhất dữ liệu từ nhiều nguồn khác nhau, sau đó được xóa, chuyển đổi và được tải vào (các) hệ thống đích mong muốn.
  • Có các công cụ tích hợp cơ sở dữ liệu. Trong trường hợp tích hợp cơ sở dữ liệu của các nhà phát triển phần mềm khác nhau, thông thường cần phải dùng một phần mềm trung gian (middleware) theo chuẩn chung (như ODBC – viết tắt của Open DataBase Connectivity).

AsteraCenterprise[sửa]

Trên thị trường có nhiều sản phẩm giúp giải quyết bài toán tích hợp dữ liệu. Ví dụ AsteraCenterprise là một trong những sản phẩm như vậy. Công cụ này cho phép tích hợp cơ sở dữ liệu mà không cần viết một dòng mã nào, giảm rủi ro sai sót, nỗ lực thủ công và chi phí công nghẹ thông tin. Với các tính năng thân thiện với người dùng, như tính năng xem trước dữ liệu tức thì, có thể đảm bảo tính chính xác của ánh xạ dữ liệu ở mỗi bước của quy trình chuyển đổi trong thời gian thực. Điều này cho phép xác định lỗi kịp thời và xử lýlỗi trước khi thực thi chuyển đổi dữ liệu để tích hợp. Hơn nữa dùng AsteraCenterprise có thể đạt được hiệu suất cao và sử dụng tối ưu các tài nguyên cơ sở dữ liệu, vì nó cho phép chuyển đổi dữ liệu sang các cơ sở dữ liệu quan hệ, tiết kiệm thời gian, sử dụng tối ưu tài nguyên xử lý và tăng năng suất của nhà phát triển. Giải pháp tích hợp dữ liệu toàn diện với AsteraCenterprise cho phép người dùng doanh nghiệp và nhà phát triển kết nối dữ liệu từ các nguồn không đồng nhất, bao gồm kho dữ liệu, ứng dụng đám mây. Sản phẩm nàycũng hỗ trợ được việc tích hợp hai chiều giữa các cơ sở dữ liệu khác nhau, bao gồm: SQL Server, IBM DB2, PostgreSQL, MySQL, MS- Access, Sybase, Teradata, Netezza, Redshift, Oracle.

Quá trình phát triển[sửa]

Hệ thống tích hợp cơ sở dữ liệu đầu tiên được điều khiển bởi siêu dữ liệu có cấu trúc được thiết kế tại Đại học Minnesota vào năm 1991, sản phẩm tích hợp có tên là Sê-ri Microdata. Trong quá trình tích hợp người ta sử dụng công cụ tích hợp (IPUMSIntegrated Public Use Microdata Series (IPUMS) là cơ sở dữ liệu dân số cấp cá nhân lớn nhất thế giới). IPUMS đã sử dụng phương pháp lưu trữ dữ liệu, trích xuất, chuyển đổi và tải dữ liệu từ các nguồn không đồng nhất dưới một cách thức đơn giản để dữ liệu từ các nguồn khác nhau trở nên tương thích. Bằng cách làm cho hàng ngàn cơ sở dữ liệu dân số có thể tương tác với nhau, IPUMS đã chứng minh tính khả thi của tích hợp dữ liệu quy mô lớn. Kể từ năm 2009, xu hướng tích hợp dữ liệu ủng hộ khuynh hướng nới lỏng sự ghép nối giữa dữ liệu và cung cấp giao diện truy vấn thống nhất để truy cập dữ liệu thời gian thực qua lược đồ trung gian, cho phép lấy thông tin trực tiếp từ cơ sở dữ liệu gốc. Vào năm 2010, một số công việc trong nghiên cứu tích hợp dữ liệu liên quan đến vấn đề tích hợp ngữ nghĩa. Vấn đề này không chỉ là kiến trúc tích hợp, mà là cách giải quyết xung đột ngữ nghĩa giữa các nguồn dữ liệu không đồng nhất. Một chiến lược chung để giải quyết các vấn đề như vậy liên quan đến việc sử dụng các công cụ xác định rõ ràng các thuật ngữ lược đồ và do đó giúp giải quyết các xung đột ngữ nghĩa. Kể từ năm 2011, các phương pháp tiếp cận trung tâm dữ liệu đã được quan tâm nhiều hơn so với Kho dữ liệu doanh nghiệp có cấu trúc đầy đủ (thường là quan hệ). Kể từ năm 2013, các phương pháp tiếp cận cuộn dữ liệu (data spool) đã tăng lên đến cấp độ của Trung tâm dữ liệu.

Việc tích hợp cơ sở dữ liệu giúp giảm công sức tiền bạc khi muốn khai thác các cơ sở dữ liệu khác nhau được phát triển bởi nhiều nhà cung cấp khác nhau. Tích hợp cơ sở dữ liệu không những chỉ được ứng dụng cho các doanh nghiệp trong quá trình cải tiến hoạt động kinh doanh, mà còn ứng dụng ngay trong các tổ chức hành chính nhà nước. Theo yêu cầu đổi mới hoạt động, các tổ chức phải khai thác những ứng dụng cơ sở dữ liệu đã tồn tại trong tổ chức, do vậy các cơ sở dữ liệu đã có cần phải liên thông và hiểu được nhau để phục vụ những nhiệm vụ mới. Khi đó việc tích hợp cơ sở dữ liệu là quan trọng và là lựa chọn đầu tiên phải nghĩ tới nhằm giải quyết nhiệm vụ liên thông dữ liệu.

Các giải pháp tích hợp cơ sở dữ liệu chính[sửa]

Tích hợp cơ sở dữ liệu tại chỗ hỗ trợ cơ sở hạ tầng truyền thống. Những sản phẩm thuộc lĩnh vực này là các sản phẩm độc lập, nó được cài đặt cục bộ trên mạng có trước, nó tương tác được với phần cứng và cơ sở dữ liệu hiện có. Tích hợp cơ sở dữ liệu tại chỗ được dùng để có thể làm sạch, giám sát và chuyển đổi dữ liệu, rồi dồn dữ liệu đã được làm sạch và chuyển đổi này cho doanh nghiệp thông minh. Vì các giải pháp tại chỗ xử lý tất cả các hoạt động dữ liệu cục bộ, chúng sẽ làm giảm chi phí mạng.

Tích hợp cơ sở dữ liệu đám mây có nguồn gốc từ đám mây và được chạy tự động như một phần của cơ sở hạ tầng. Những chương trình đặc biệt này tương tác ở mức nền tảng với tất cả các giao dịch dữ liệu xảy ra trên toàn doanh nghiệp. Cách tiếp cận này mang lại những lợi thế của kiến trúc đám mây; bao gồm tự động hóa vận hành và doanh nghiệp chỉ trả tiền cho mỗi lần sử dụng. Một lợi thế chính của tích hợp cơ sở dữ liệu đám mây là sự gần như liền mạch mà giải pháp SaaS (viết tắt của Software as a Service - Phần mềm như là dịch vụ) tương tác không chỉ với các cơ sở dữ liệu khác trong môi trường, mà còn với cơ sở hạ tầng và ngầm bảo mật toàn bộ hệ thống, hơn nữa nó cung cấp giao diện thời gian thực cho toàn bộ hoạt động.

Tích hợp cơ sở dữ liệu lai kết hợp các yếu tố của cả hai giải pháp, “tích hợp cơ sở dữ liệu tại chỗ” và “tích hợp cơ sở dữ liệu đám mây”, cách tiếp cận tích hợp cơ sở dữ liệu lai tận dụng SaaS dựa trên đám mây để đồng bộ hóa và quản lý dữ liệu giữa các tài nguyên được lưu trữ cục bộ và từ xa. Các giải pháp tích hợp cơ sở dữ liệu kiểu này làm tốt với môi trường có sẵn và nó làm sạch dữ liệu được dựa trên đám mây và ngay tại chỗ, nó cung cấp một bộ thông tin làm việc có tính chất thống nhất trên môi trường hỗn hợp (vừa trên đám mây, vừa trên các mạng con tồn tại từ trước). Những ưu điểm tốt nhất của giải pháp này là sự tương tác hoàn hảo với các giải pháp SaaS khác, với việc cung cấp giao diện giao diện đồ họa người dùng (Graphical User Interface – viết tắt là GUI) đơn giản, nó cung cấp cho người ra quyết định cái nhìn “360 độ” về tất cả các hoạt động và tương tác dữ liệu trong toàn bộ hệ thống.

Tại Việt Nam[sửa]

Liên quan đến “tích hợp cơ sở dữ liệu” được áp dụng trong các dự án công nghệ thông tin tại Việt Nam có thể kể đến một số sự kiện sau:

1. Năm 2019 Bộ TN&MTđã nâng cấp phần mềm tích hợp cơ sở dữ liệu tài liệu và cơ sở dữ liệu về tư liệu môi trường. Việc ứng dụng công nghẹ thông tin vào công tác thông tin và dữ liệu đòi hỏi nâng cao tinh thần trách nhiệm trong quản lý, bảo quản văn bản, giấy tờ, tài liệu lưu trữ, đáp ứng yêu cầu nhiệm vụ cải cách và hiện đại hóa nền hành chính.

2. Cũng trong năm 2019 Bộ Tài chính ban hành Quyết định số 585/2019/QĐ-BTC phê duyệt Kiến trúc cơ sở dữ liệu quốc gia về tài chính nhằm phát triển hệ thống thông tin và dữ liệu chuyên ngành đồng bộ thống nhất cho toàn ngành Tài chính.

3. Năm 2016, Tổng cục Quản lý đất đai chủ trì dự án tích hợp cơ sở dữ liệu đất đai trong khuôn khổ dự án xây dựng cơ sở dữ liệu quốc gia về đất đai (giai đoạn 1).

Tài liệu tham khảo[sửa]

  1. Tehreem Naeem, Simplify Information Access with Database Integration, Astera, 2020.
  2. ElKindi Rezig, Mike Cafarella, Vijay Gadepally, An Overview of Data Integration and Preparation, Technical Report, May 2020..
  3. Quyết định số 585/2019/QĐ-BTC phê duyệt Kiến trúc cơ sở dữ liệu quốc gia về tài chính.