Đánh Giá Thuật Toán Knn

KNN là gì?

KNN (K-Nearest Neighbors) là một trong giữa những thuật tân oán học tập tất cả đo lường và tính toán đơn giản tốt nhất được thực hiện nhiều vào khai phá tài liệu với học tập máy. Ý tưởng của thuật toán này là nó ko học một điều gì từ tập dữ liệu học tập (đề nghị KNN được xếp vào loại lazy learning), phần lớn tính toán được tiến hành khi nó yêu cầu dự đoán nhãn của dữ liệu mới. Lớp (nhãn) của một đối tượng tài liệu bắt đầu hoàn toàn có thể dự đân oán trường đoản cú các lớp (nhãn) của k láng giềng ngay gần nó tốt nhất.

Bạn đang xem: Đánh giá thuật toán knn

Ví dụ:

Giả sử ta gồm D là tập những tài liệu đã làm được phân loại thành 2 nhãn (+) cùng (-) được trình diễn bên trên trục tọa độ nhỏng hình mẫu vẽ với một điểm dữ liệu new A không biết nhãn. Vậy có tác dụng biện pháp như thế nào để bạn cũng có thể xác định được nhãn của A là (+) hay (-)? Có thể thấy cách dễ dàng và đơn giản tuyệt nhất là đối chiếu tất cả các điểm lưu ý của tài liệu A cùng với toàn bộ tập dữ liệu học tập đã có gắn nhãn và xem nó giống loại như thế nào tốt nhất, giả dụ tài liệu (quánh điểm) của A kiểu như với tài liệu của điểm có nhãn (+) thì điểm A với nhãn (+), nếu như tài liệu A tương đương với tài liệu nhãn (-) hơn thế thì nó sẽ mang nhãn (-), trông có vẻ như khôn xiết dễ dàng tuy vậy đó là tất cả những gì nhưng KNN có tác dụng. Trong ngôi trường hòa hợp của KNN, thực tế nó không đối chiếu dữ liệu mới (ko được phân lớp) với toàn bộ những tài liệu khác, thực tiễn nó tiến hành một phxay tính toán thù học tập để đo khoảng cách thân tài liệu bắt đầu cùng với tất cả các điểm trong tập dữ liệu học D nhằm thực hiện phân lớp. Phxay tính khoảng cách thân 2 điểm hoàn toàn có thể là Euclidian, Manhatrã, trọng số, Minkowski, …

*

Các bước trong KNNTa gồm D là tập các điểm tài liệu đã được đính nhãn và A là dữ liệu không được phân một số loại.Đo khoảng cách (Euclidian, Manhattan, Minkowski, Minkowski hoặc Trọng số) từ bỏ dữ liệu bắt đầu A mang đến tất cả các dữ liệu khác đã có được phân các loại vào D.Chọn K (K là tyêu thích số nhưng mà chúng ta định nghĩa) khoảng cách nhỏ tuổi độc nhất.Kiểm tra list những lớp gồm khoảng cách ngắn thêm tuyệt nhất và đếm số lượng của mỗi lớp xuất hiện thêm.Lấy đúng lớp (lớp mở ra nhiều lần nhất).Lớp của dữ liệu bắt đầu là lớp nhưng bạn đã nhận được được sống bước 5.

Ví dụ:

*
Giả sử ta có tập dữ liệu D có thêm nhãn tất cả 15 điểm nhỏng trên hình ảnh.

Xem thêm: Hướng Dẫn Nâng Cấp Bios Cho Dell, Dell Bios Updates

Điểm cần dự đoán thù nhãn A(3,9)Ta tính khoảng cách trường đoản cú điểm A mang đến các điểm dữ liệu vào D bởi bí quyết Euclidian.Ta chọn K= 5, cùng tìm thấy 5 điểm tất cả khoảng cách gần cùng với điểm A độc nhất.Trong 5 điểm ta thấy có 4 điểm với nhãn (+) và 1 điều với nhãn (-).Vậy ta rất có thể đưa ra kết luận là vấn đề A đề nghị dự đoán thù mang nhãn (+).

*

Ưu điểmThuật toán đơn giản và dễ dàng, dễ dàng thực hiện.Độ tinh vi tính toán thù nhỏ dại.Xử lý xuất sắc cùng với tập dữ liệu nhiễuNhược điểmVới K nhỏ dễ gặp mặt nhiễu dẫn tới hiệu quả đưa ra không chủ yếu xácCần các thời hạn nhằm thực hiện vì chưng bắt buộc tính toán thù khoảng cách cùng với tất cả những đối tượng trong tập tài liệu.Cần chuyển đổi phong cách tài liệu thành những yếu tố định tính.

Trong bài bác tiếp theo sau họ sẽ xây dựng dựng một mã mối cung cấp tế bào rộp thuật tân oán KNN vào thực tiễn.