Học sâu là một nhánh của lĩnh vực học máy liên quan đến các thuật toán bắt chước cách thức hoạt động của bộ não cả về cấu trúc và chức năng. HS chủ yếu được phát triển dựa trên nguyên lý kỹ thuật mạng nơ ron nhân tạo. Hiện nay chưa có sự thống nhất trong định nghĩa về HS.
Theo tác giả Lecun (một trong những cha đẻ của HS) thì HS có thể hiểu là lớp các thuật toán học máy cho phép mô hình tính toán tổng hợp nhiều lớp xử lý để khám phá nhiều mức độ trừu tượng khác nhau của dữ liệu (đặc trưng mức cao của dữ liệu) từ tập dữ liệu thô đầu vào.
HS có thể hiểu là một hệ thống gồm nhiều thành phần mà tất cả chúng đều có thể huấn luyện được. Nó được gọi là "sâu" vì quá trình xử lý có rất nhiều giai đoạn để tri nhận về một đối tượng và tất cả các giai đoạn này đều tham gia vào quá trình học.
Mạng nơ ron sâu. Mạng nơ ron sâu (Deep Neural Network - DNN) là một dạng cụ thể của lĩnh vực HS. Mạng nơ ron sâu là một mạng nơ ron nhân tạo nhưng có kiến trúc phức tạp và "sâu" hơn nhiều so với kiến trúc của mạng nơ ron truyền thống (mạng nơ ron nông). Nghĩa là nó có số nút trong mỗi lớp và số lớp ẩn lớn hơn rất nhiều và cách thức hoạt động của nó phức tạp hơn so với kiến trúc mạng nơ ron truyền thống.
Mạng nơ-ron tích chập. Mạng nơ ron tích chập (Convolutional neural network - CNN) là một dạng cụ thể của mạng nơ ron sâu. Mạng nơ ron tích chập có một lớp vào, một lớp ra và nhiều lớp ẩn khác nhau. Các lớp ẩn gồm các loại như: lớp tích chập (convolution). lớp giảm kích thước (pooling). lớp sửa dữ liệu (ReLU). lớp chuẩn hóa (normalization). lớp kết nối đầy đủ (full connection)... Trong đó, lớp tích chập được sử dụng nhằm tạo liên kết giữa các lớp liền kề trong phạm vi nhỏ, giới hạn trong “vùng” cục bộ. Điều này giúp giảm đáng kể các việc tính toán các hàm truyền giữa các lớp mà vẫn duy trì được mối liên hệ giữa các nơ ron để trích xuất đặc trưng của dữ liệu ở các lớp sau đó của mạng.
Mạng HS niềm tin. Mạng HS niềm tin (Deep belief net-DBN) là một mô hình mạng nơ-ron nhân tạo nhiều lớp. Quá trình huấn luyện mạng DBN gồm hai pha: tiền huấn luyện (pre-training) và hiệu chỉnh trọng số (fine-tuning). Trong pha tiền huấn luyện, máy học Boltzman được sử dụng để khởi tạo trọng số tốt nhất cho mô hình với dữ liệu không cần được gán nhãn. Trong pha tiếp theo hiệu chỉnh trọng số, DBN tiếp tục được huấn luyện bằng phương pháp lan truyền ngược cổ điển với dữ liệu được gán nhãn.
Mạng tự mã hóa. Để huấn luyện mạng nơ-ron thường sử dụng học có giám sát, trong đó sử dụng các tập mẫu có gán nhãn. Mạng nơ-ron tự mã hóa thưa (sparse autoencoder) là một thuật toán học không giám sát sử dụng thuật toán lan truyền ngược, đặt giá trị đầu ra bằng với đầu vào trên dữ liệu không gán nhãn.
Một số thư viện liên quan đến HS:
• Tensor Flow: là thư việc mã nguồn mở được xây dựng và phát triển bởi Google Brain. Thư việc sử dụng đồ thị luồng dữ liệu (data flow graphs) để tính toán, hỗ trợ API cho python, C++… TensorFlow hỗ trợ các nền tảng lập trình trên hầu hết các hệ điều hành phổ biến như Linux, macOS, Windows, Android và iOS.
• Caffe: là nền tảng HS được phát triển bởi Berkeley AI Research và cộng đồng. Nó hỗ trợ nhiều loại kiến trúc HS khác nhau. Caffe hỗ trợ các thư viện có tốc độ tính toán nhanh toán, hoạt động tốt trên GPU và CPU.
• Torch: là framework hỗ trợ các tính toán khoa học, thuật toán học máy dựa trên ngôn ngữ Lua. Torch được hỗ trợ phát triển bởi Facebook, Google, DeepMind, Twitter…
• Pytorch: là thư viện học máy mã nguồn mở, đặc biệt mạng HS thực thi trên GPU, được phát triển bởi Facebook. PyTorch được viết bằng Python, C và CUDA.
• Keras: là thư viện về mạng HS được viết bằng Python, thư viện có thể thực thi trên GPU và CPU. thân thiện với người dùng.
Khái niệm HS lần đầu tiên được đề cập bởi Rina Dechter trong một công trình công bố năm 1986. Đến năm 1989, Lecun và cộng sự đã công bố kết quả đề xuất một kiến trúc mạng nơ ron HS (gọi là LeNet) áp dụng các thuật toán truyền ngược tiêu chuẩn nhằm xử lý nhận dạng chữ viết và kết quả thực nghiệm đạt độ chính xác cao.
Năm 2006, Geoffrey Hinton công bố một cách thức huấn luyện mạng nơ ron nhiều lớp mới được gọi là mạng HS niềm tin DBN. DBN đã vượt qua tất cả các thuật toán học máy khác trong việc phân loại chính xác bộ chữ số viết tay MNIST.
Năm 2012, cũng tại một cuộc thi thường niên có tên ImageNet Large Scale Visual Recognition Challenge - ILSVRC, mạng AlexNet đạt kết quả tốp 5 đánh giá theo chỉ số lỗi (16%). Mạng AlexNet có kiến trúc mạng tương tự với LeNet nhưng sử dụng một số lượng các lớp, số bộ lọc và số nơ ron lớn hơn rất nhiều. Sau AlexNet, tất cả các mô hình giành giải cao trong các năm tiếp theo đều là các mạng HS. Với những thành công này, HS trở thành một lĩnh vực nghiên cứu được đặc biệt quan tâm trong trí tuệ nhân tạo, khoa học máy tính.
Là một xu hướng nóng trong công nghệ thông tin, HS không những là chủ đề được cộng động nghiên cứu khoa học máy tính quan tâm hàng đầu mà đã vượt ra khuôn khổ của các phòng, dự án nghiên cứu, để trở thành công nghệ được ứng dụng trong thực tiễn. Một số ứng dụng nổi bật của HS có thể kể đến: Trợ lý ảo (Alexa, Siri, Cortana). dịch thuật, chatbots, thiết bị không người lái, nhận dạng đối tượng, xác định danh tính người (qua khuôn mặt, hình dáng). các hệ thống không người lái, chẩn đoán bệnh và các hệ thống hỗ trợ y tế, gian lận điện tử, thương mại điện tử và cá nhân hóa người dùng,...
Những năm gần đây, kỹ thuật HS đang trở thành một trong những lĩnh vực được quan tâm nghiên cứu và ứng dụng đặc biệt trong lĩnh vưc khoa học máy tính. Kỹ thuật HS đã đạt được những kết quả khả quan với độ chính xác vượt trội so với cách tiếp cận truyền thống, đồng thời thúc đẩy tiến bộ trong đa lĩnh vực như nhận dạng đối tượng, dịch tự động, nhận dạng giọng nói, các trò chơi thông minh và những bài toán khó trong trí tuệ nhân tạo.
BusinessWire, thuộc tập đoàn Bershire Hathaway, dự đoán thị trường liên quan đến công nghệ HS trên toàn cầu dự tính đạt khoảng 4 tỉ USD vào năm 2025.
Các hãng công nghệ tập trung đầu tư và được hưởng lợi nhuận nhiều nhất trong việc bán các sản phẩm hỗ trợ HS có thể kế đến NVIDIA (chuyên về sản xuất GPU). Google (sử dụng HS trong các công cụ tìm kiếm, phân tích thông tin). Amazon (thương mại điện tử) …
Nhiều nhà khoa học trong lĩnh vực Khoa học máy tính chuyển sang các tập đoàn công nghệ lớn trong đó có Geoffrey Hinton (Google). Yann Lecunn (Phó chủ tịch, giám đốc AI của Facebook). Andrew Ng (Baidu) … đều xuất thân là các nhà nghiên cứu chuyên sâu, tiên phong về công nghệ HS.
Những thông tin và phân tích trên cho thấy HS vẫn sẽ là xu hướng phát triển nóng của ngành công nghệ thông tin, tiếp tục nhận được sự đầu tư lớn từ các tập đoàn công nghệ.
Các chuyên gia trí tuệ nhân tạo và HS đều có nhận định rằng để phát triển tốt lĩnh vực này trong cả nghiên cứu lẫn công nghiệp, vấn đề quan trọng là hình thành các cơ sở dữ liệu đủ lớn và đủ tốt dùng trong huấn luyện các mô hình HS. Những cơ sở dữ liệu lớn như vậy về ảnh y tế, tiếng nói, tín hiệu điện tim, điện não, ảnh giao thông… đang dần được xây dựng bởi các tập đoàn công nghệ, cộng đồng nghiên cứu trong các trường, viện nghiên cứu dưới sự bảo trợ của Chính phủ.
TÀI LIỆU THAM KHẢO
1. Yann LeCun, Yoshua Bengio, Geoffrey Hinton, "Deep learning", Nature, 521(7553). pp.436-444, 2015.
2. Jason Brownlee, "Deep Learning for Natural Language Processing: Develop Deep Learning Models for your Natural Language Problems", Machine Learning Mastery, 2017.
3. Hinton, G.E. and Salakhutdinov, R.R., 2006. Reducing the dimensionality of data with neural networks. Science, 313(5786). pp.504-507.