Phân loại hoa quả bằng mạng nơ ron học sâu

Tóm tắt:

Bài toán tự động nhận dạng hoa quả đã xuất hiện từ lâu và đã có rất nhiều bài báo, công trình khoa học được đưa ra nhằm đề xuất hoặc cải tiến các thuật toán nhận dạng. Trong đó, xuất hiện sớm nhất là các phương pháp Xử lý ảnh – Image Processing, các phương pháp này tập trung vào phát triển các thuật toán nhằm trích xuất thông tin [4], ví dụ các tham số về màu sắc, hình dạng, kết cấu, kích thước…, từ bức ảnh đầu vào để nhận dạng hoa quả. Do chỉ đơn thuần xử lý trên một vài ảnh đầu vào trong khi sự biến thiên về màu sắc, hình dạng, kích thước… của hoa quả quá phức tạp, kết quả đạt được của các phương pháp này không được cao và phạm vi áp dụng trên số lượng loại hoa quả cũng bị hạn chế. Trong bài báo này, các tác giả nghiên cứu mạng nơ ron tích chập (CNN – Convolutional Neural Network) [1,7,8,9] là một trong những mô hình Deep Learning tiên tiến cho bài toán nhận dạng và phân loại hoa quả từ video.

Từ khóa: Mạng nơ ron học sâu; Mạng nơ ron tích chập; Phân loại hoa quả; Deep learning.

  1. GIỚI THIỆU

Hiện nay, ở nước ta nói riêng và ở các nước đang phát triển có nền nông nghiệp là một trong các ngành sản xuất chủ yếu, quá trình thu hoạch, phân loại và đánh giá chất lượng các loại sản phẩm nông nghiệp, đặc biệt là các loại hoa quả, chủ yếu còn phải thực hiện bằng các phương pháp thủ công. Đây là công việc không quá khó, nhưng tiêu tốn nhiều thời gian, công sức của con người và là rào cản đối với mở rộng phát triển quy mô sản xuất nông nghiệp. Do đó, nhiều phương pháp tự động hóa công việc thu hoạch, nhận dạng và đánh giá chất lượng hoa quả đã được nghiên cứu và đưa vào ứng dụng thực tế, trong đó sử dụng chủ yếu các phương pháp Xử lý ảnh đơn thuần. Tuy nhiên, các phương pháp này vẫn chưa thực sự thỏa mãn yêu cầu về khả năng nhận dạng một số lượng lớn các loại hoa quả với độ chính xác cao do bị hạn chế bởi các đặc trưng của bài toán nhận dạng hoa quả: số lượng chủng loại lớn với nhiều loại hoa quả hết sức tương tự nhau, sự biến thiên về hình dạng, màu sắc, chi tiết trong từng loại quả cũng rất khó
dự đoán trước…

Trong thời gian gần đây, nhờ có sự phát triển mạnh mẽ về khả năng tính toán của các thế hệ máy tính hiện đại cũng như sự bùng nổ về dữ liệu thông qua mạng lưới Internet trải rộng, nhiều sự đột phá trong lĩnh vực Học máy, đặc biệt là trong lĩnh vực Thị giác máy tính. Sự quay lại và phát triển vượt bậc của các phương pháp Học sâu đã giúp Thị giác máy tính đạt được những thành tựu đáng kể trong lĩnh vực Nhận dạng ảnh, trong đó bài toán nhận dạng và phân loại dưa lưới dựa trên các chỉ số đặc điểm lưới và màu sắc là rất quan trọng, nó đánh giá đến 95% chất lượng dưa.

  • MẠNG NƠ RON CNN – ALEXNET

2.1. Kiến trúc mạng CNN

[Hình 1] trình bày một kiến trúc mạng nơ ron tích chập, các lớp cơ bản trong một mạng CNN bao gồm:

  • Lớp tích chập (Convolutional)
  • Lớp kích hoạt phi tuyến ReLU (Rectified Linear Unit)
  • Lớp lấy mẫu (Pooling)
  • Lớp kết nối đầy đủ (Fully connected)

được thay đổi về số lượng và cách sắp xếp để tạo ra các mô hình huấn luyện phù hợp cho từng bài toán khác nhau.

Lớp tích chập: Đây là thành phần quan trọng nhất trong mạng CNN [1,11,12], thể hiện sự liên kết cục bộ thay vì kết nối toàn bộ các điểm ảnh. Các liên kết cục bộ được tính toán bằng phép tích chập giữa các giá trị điểm ảnh trong một vùng ảnh cục bộ với các bộ lọc  filters có kích thước nhỏ.

 

Trả lời

Thư điện tử của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *