Mục từ này đã đạt chất lượng ở mức sản phẩm bước đầu của Đề án Biên soạn Bách khoa toàn thư Việt Nam giai đoạn 1
Khai phá dữ liệu

Khai phs dữ liệu (hay Khai phá tri thức từ dữ liệu,tiếng Anh Data Mining, Knowledge Discovery In Databases) là quá trình phân tích, tính toán trên một lượng lớn dữ liệu nhằm khám phá ra các mẫu dữ liệu có ý nghĩa, mang hàm lượng "tri thức" bằng các phương pháp máy học, thống kê toán học và các nguyên lý về cơ sở dữ liệu.

Mục tiêu của khai phá dữ liệu là trích xuất thông tin từ tập dữ liệu được biến đổi thành dạng cấu trúc dễ hiểu để sử dụng cho các tiến trình tiếp theo trong hệ thống xử lý thông tin.

Quy trình thực hiện[sửa]

Quá trình khai phá tri thức thường gồm các công đoạn chủ yếu sau:

  • Xác định bài toán và không gian dữ liệu để có thể biểu diễn, phục vụ giải quyết vấn đề.
  • Chuẩn bị dữ liệu gồm các nhiệm vụ như: tiền xử lý làm sạch dữ liệu, tích hợp dữ liệu, lựa chọn dữ liệu và biến đổi dữ liệu qua không gian dễ xử lý và làm nổi bật đặc trưng dữ liệu.
  • Khai phá dữ liệu: Quá trình khám phá và trích xuất thông tin hữu ích từ dữ liệu bằng cách sử dụng các kỹ thuật khai phá dữ liệu. Kết quả thu được là nguồn tri thức thô.
  • Đánh giá mẫu: Dựa vào một số tiêu chí để tiến hành kiểm tra và trích lọc nguồn tri thức thu được.
  • Biểu diễn tri thức: Các tri thức có thể được trực quan hóa, biến đổi, loại bỏ các mẫu dư thừa từ các mẫu tri thức thô.

Quá trình khai phá tri thức là quá trình lặp lại các bước đã qua nhằm tinh chỉnh để có mô hình tốt nhất.

Cơ sở hình thành và phát triển[sửa]

Khai phá dữ liệu liên quan đến các lĩnh vực khác nhau như tổ chức dữ liệu, toán học thống kê, trí tuệ nhân tạo... Đứng trên quan điểm của học máy, các kỹ thuật trong khai phá dữ liệu bao gồm: học có giám sát, học không có giám sát, học nửa giám sát.

Thuật ngữ "Data mining" được giới thiệu vào những năm đầu thập niên 90, nhưng thực chất nó đã có quá trình phát triển lâu dài. Sự phát triển nhanh chóng, phổ biến và năng lực của công nghệ máy tính đã làm tăng khả năng thu thập dữ liệu, lưu trữ và thao tác dữ liệu tăng trưởng nhanh chóng. Vấn đề này được giải quyết bằng cách sử dụng các kỹ thuật khai phá tự động trong lĩnh vực khoa học máy tính.

Lịch sử phát triển của khai phá dữ liệu được xem xét theo các hướng tiếp cận chính như thống kê toán học cổ điển, trí tuệ nhân tạo và kỹ thuật học máy.

  • Thống kê: Thống kê là nền tảng được sử dụng để xây dựng nên hầu hết các kỹ thuật, công nghệ trong khai phá dữ liệu, như phân tích hồi quy, phân phối chuẩn, độ lệch chuẩn, phương sai, phân tích cụm và khoảng tin cậy.
  • Trí tuệ nhân tạo: Trí tuệ nhân tạo được xây dựng dựa trên các phương pháp thông minh. Nó cố gắng áp dụng cách xử lý thông tin giống như suy nghĩ của con người đối với các bài toán thống kê.
  • Học máy: Kỹ thuật học máy được dùng để xây dựng chương trình máy tính nhằm phân tích và đưa ra các quyết định khác nhau dựa trên chất lượng dữ liệu được sử dụng để học. Học máy hướng đến mục tiêu dự đoán một số thông tin của dữ liệu dựa trên những đặc trưng đã biết của dữ liệu. Như vậy, học máy là một trong những công cụ quan trọng phục vụ cho khai phá dữ liệu.

Ứng dụng[sửa]

Khai phá dữ liệu có phạm vi ứng dụng rộng rãi, từ các hệ thống phục vụ dân sự, quân sự, đến hàng không vũ trụ như thiên văn học, tin sinh học, thương mại điện tử, phát hiện lừa đảo, quảng cáo, quản lý quan hệ khách hàng, chăm sóc sức khỏe, viễn thông, thể thao - giải trí, đầu tư - chứng khoán, máy tìm kiếm,...

-
Lĩnh vực Ứng dụng
Thương mại khai phá dữ liệu có thể được sử dụng để phân tích dữ liệu bán hàng và phân tích thị trường, phân tích thông số đầu tư nhằm dự báo xu hướng phát triển, phát hiện các gian lận thương mại, đặc biệt trong vấn đề chứng thực khách hàng,...
Sản xuất khai phá dữ liệu được áp dụng để lập kế hoạch và quy trình sản xuất, hệ thống quản lý, phân tích thử nghiệm và đánh giá sản phẩm,...
Thông tin khoa học khai phá dữ liệu áp dụng các thuật toán thông minh nhằm phân tích dữ liệu, tham số môi trường trong dự báo thời tiết, bão lụt, động đất, tin-sinh học,...
Giáo dục khai phá dữ liệu giáo dục liên quan đến việc phát triển các phương pháp giúp khám phá kiến thức từ dữ liệu có nguồn gốc trong môi trường giáo dục. Mục tiêu của khai phá dữ liệu giáo dục là dự đoán hành vi học tập của người học trong tương lai, nghiên cứu tác động hỗ trợ giáo dục và nâng cao kiến thức khoa học về quá trình học tập. khai phá dữ liệu được sử dụng trong các tổ chức giáo dục để giúp đưa ra quyết định chính xác và dự đoán kết quả của người học một cách hiệu quả.

Định hướng phát triển[sửa]

Khai phá dữ liệu đã và đang được sử dụng rộng rãi trong hầu hết các lĩnh vực của đời sống xã hội, nhằm trích xuất dữ liệu từ các nguồn khác nhau và sắp xếp, tích hợp chúng lại để có thể khai thác và sử dụng tốt hơn. Nhiều công ty đã và đang đầu tư ứng dụng với kỳ vọng khai phá dữ liệu một cách hiệu quả hơn và thu thập dữ liệu mới nhất nhằm tạo ra vị thế vượt trội trong thương mại. Một số dự báo về như sau:

Lĩnh vực Ứng dụng
Khai phá dữ liệu đa phương tiện là lĩnh vực nghiên cứu có tiềm năng lớn để xử lý kho dữ liệu khổng lồ trên thế giới ảo, hứa hẹn trích rút được thông tin hữu ích và có độ tin cậy cao. Nó liên quan đến dữ liệu đa phương tiện khác nhau như âm thanh, video, hình ảnh, văn bản, siêu văn bản...
Khai phá dữ liệu phổ biến xử lý dữ liệu từ các thiết bị di động để lấy thông tin của cá nhân người dùng. Mặc dù vấn đề này đang gặp một số thách thức như độ phức tạp xử lý, quyền riêng tư của người dùng, chi phí... nhưng nó có nhiều cơ hội lớn phục vụ đắc lực cho các ngành công nghiệp khác nhau như phân tích đặc điểm người dùng, xu hướng sử dụng dịch vụ, đặc biệt là trong tương tác người-máy.
Khai phá dữ liệu phân tán hướng tiếp cận này đang trở nên phổ biến, liên quan đến việc khai phá lượng thông tin khổng lồ lưu trữ phân tán trên các máy chủ rộng khắp trên thế giới của các công ty, tổ chức khác nhau. Mục đích là trích xuất dữ liệu từ các nơi khác nhau và cung cấp tri thức về nhiều lĩnh vực khác nhau và có khả năng tổng hợp báo cáo, dự đoán xu hướng phát triển từ các nguồn dữ liệu phân tán.
Khai phá dữ liệu không gian và địa lý lĩnh vực triển vọng đầy hứa hẹn theo xu hướng mới, bao gồm trích xuất thông tin từ dữ liệu môi trường, thiên văn, địa lý, hình ảnh vệ tinh,... Nó có thể khám phá ra những vấn đề khác nhau như khoảng cách và cấu trúc liên kết được sử dụng chủ yếu trong các hệ thống GIS và giao thông thông minh,...
Khai phá dữ liệu chuỗi thời gian các ứng dụng chính của hướng tiếp cận khai phá dữ liệu này là nghiên cứu về xu hướng theo chu kỳ và theo mùa, phân tích các sự kiện ngẫu nhiên xảy ra không tuân thủ theo chuỗi sự kiện thông thường.
Phân tích dữ liệu sinh học khai phá dữ liệu sinh học trở thành một phần quan trọng của tin-sinh học. Vấn đề khai phá dữ liệu trong phân tích dữ liệu sinh học như: Tích hợp ngữ nghĩa của các cơ sở dữ liệu Gen và Protein phân tán, không đồng nhất; sắp xếp, lập chỉ mục, tìm kiếm sự tương tự và phân tích so sánh nhiều chuỗi nucleotide, khai phá các mẫu cấu trúc, phân tích mạng di truyền và protein...

Tài liệu tham khảo[sửa]

  1. "Data mining curriculum", ACM SIGKDD, 2012.
  2. Kantardzic, Mehmed, "Data Mining: Concepts, Models, Methods, and Algorithms", John Wiley & Sons, 2003.
  3. Baker, Ryan SJD, Kalina Yacef, "The state of educational data mining in 2009: A review and future visions", Journal of Educational Data Mining, vol.1, pp.3-17, 2009.
  4. Hans-Peter Kriegel, Borgwardt Karsten, Peer Kroger, Alexey Pryakhin, Matthias Schubert, Arthur Zimek, "Future trends in data mining", Data Mining and Knowledge Discovery, vol.15, pp.87-97, 2007.
  5. Cayci, Aysegul, Ernestina Menasalvas, Yucel Saygin, Santiago Eibe, "Self-configuring data mining for ubiquitous computing", Information Sciences, vol. 246, pp.83-99, 2013.