Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/72798
Title: Anomalous assemblage detection using nearest neighbor distance
Other Titles: การตรวจหากลุ่มผิดปกติโดยใช้ระยะทางเพื่อนบ้านใกล้สุด
Authors: Kayyasit Singkarn
Advisors: Krung Sinapiromsaran
Other author: Chulalongkorn University. Faculty of Science
Advisor's Email: Krung.S@Chula.ac.th
Issue Date: 2017
Publisher: Chulalongkorn University
Abstract: The outlierness of an instance in this thesis is defined based on the distance between two instances. For some datasets, outliers may not be isolated and formed small clusters. C-anomalous assemblage is a group of associated outliers having the number of instances less than or equal to C percent of the total instances. This thesis presents the anomalous assemblage detection algorithm called CND using a nearest neighbor distance for an anomalous score. The algorithm computes the index k equal to floor function of C percent times the total number of instances and uses the k-nearest neighbor distance for representing an anomalous score. Then, the adjusted boxplot based on medcouple for skew distribution is used to generate the threshold for detecting outliers. The performance of CND is tested on two types of datasets which are synthetic and real-world datasets from UCI website comparing with WOF and LOF. The experimental results show that CND is better than WOF and LOF on datasets based on precision, recall, and F1-measure.
Other Abstract: ความผิดปกติของข้อมูลในงานวิจัยนี้ถูกนิยามด้วยระยะทางระหว่างข้อมูลสองตัว สำหรับบางเซตข้อมูล ข้อมูลผิดปกติอาจไม่แยกแบบโดดเดี่ยวและก่อตัวเป็นกลุ่มเล็ก ๆ กลุ่มผิดธรรมดา-ซี คือ กลุ่มของข้อมูลผิดปกติซึ่งสัมพันธ์กันโดยมีจำนวนข้อมูลในกลุ่มน้อยกว่าหรือเท่ากับซีเปอร์เซ็นของจำนวนข้อมูลทั้งหมด วิทยานิพนธ์นี้นำเสนอขั้นตอนวิธีการตรวจหากลุ่มผิดธรรมดาเรียกว่า ซีเอ็นดี โดยใช้ระยะห่างเพื่อนบ้านที่ใกล้ที่สุดแทนคะแนนความผิดปกติ ขั้นตอนวิธีนี้คำนวณดัชนีเคให้มีค่าเท่ากับฟังก์ชันพื้นของซีเปอร์เซ็นต์คูณจำนวนข้อมูลทั้งหมด และใช้ระยะทางเพื่อนบ้านใกล้สุดเคเพื่อแทนคะแนนของข้อมูลผิดปกติ หลังจากนั้น การปรับกราฟบ๊อกด้วยเมดคลับเปิลสำหรับการกระจายแบบเบ้ถูกใช้ในการคำนวณขีดแบ่งสำหรับการจับจุดผิดปกติ ประสิทธิภาพของซีเอ็นดีได้ถูกทดสอบกับชุดข้อมูลสองแบบ คือ เซตข้อมูลที่สังเคราะห์และเซตข้อมูลจริงจากเว็บไซต์ยูซีไอ เปรียบเทียบกับ ดับเบิ้ลยูโอเอฟ และ แอลโอเอฟ ผลการทดลองแสดงให้เห็นว่าประสิทธิภาพของ ซีเอ็นดี ดีกว่า ดับเบิ้ลยูโอเอฟ และ แอลโอเอฟ ภายใต้ความแม่นยำ การเรียกคืน และตัววัดเอฟหนึ่ง
Description: Thesis (M.Sc.)--Chulalongkorn University, 2017
Degree Name: Master of Science
Degree Level: Master's Degree
Degree Discipline: Mathematics
URI: http://cuir.car.chula.ac.th/handle/123456789/72798
URI: http://doi.org/10.58837/CHULA.THE.2017.328
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2017.328
Type: Thesis
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
5871908723_Sc_2017.pdf1.58 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.