Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/79928
Title: Parameter-free outlier scoring using mass ratio variance for static and streaming data
Other Titles: การให้คะแนนจุดผิดปกติไร้พารามิเตอร์โดยใช้ความแปรปรวนของอัตราส่วนมวลสำหรับข้อมูลสถิตและสตรีมมิ่ง
Authors: Phichapop Changsakul
Advisors: Somjai Boonsiri
Krung Sinapiromsaran
Other author: Chulalongkorn University. Faculty of Science
Issue Date: 2021
Publisher: Chulalongkorn University
Abstract: Outlier detection is a significant problem that has been studied in a variety of research and real-world applications. However, little research has been conducted on unsupervised parameter-free outlier scoring. This thesis proposes Mass ratio variance-based Outlier Factor, or MOF, which is unsupervised parameter-free outlier scoring for static data. This algorithm calculates outlier scores based on the variance of mass ratio. The data points with high outlier scores are associated with outliers while the data points with low outlier scores are associated with normal data points. This thesis also proposes Streaming Mass ratio variance-based Outlier Factor or SMOF. This algorithm calculates outlier scores based on MOF and the non-overlapping sliding window model which keeps the dense data points by weighted random sampling making highly efficient storage. Extensive experiments have been conducted to evaluate the performance of MOF and SMOF using synthesized and real-world data sets. The experimental results show that they have better accuracy than the state-of-the-art outlier detection techniques.
Other Abstract: การตรวจจับจุดข้อมูลผิดปกติเป็นปัญหาสำคัญที่ได้รับการศึกษาวิจัยและการประยุกต์จริงกับข้อมูล อย่างไรก็ตามมีการวิจัยเพียงเล็กน้อยเกี่ยวกับการให้คะแนนค่าความผิดปกติที่ปราศจากพารามิเตอร์แบบไม่มีผู้สอน วิทยานิพนธ์นี้เสนอค่าปัจจัยความผิดปกติของความแปรปรวนอัตราส่วนมวลหรือเอ็มโอเอฟ ซึ่งเป็นการให้คะแนนค่าความผิดปกติที่ปราศจากพารามิเตอร์แบบไม่มีผู้สอนกับข้อมูลสถิต ขั้นตอนวิธีนี้คำนวณคะแนนความผิดปกติตามความแปรปรวนของอัตราส่วนของมวล จุดข้อมูลที่มีคะแนนผิดปกติสูงจะสัมพันธ์กับจุดผิดปกติ ในขณะที่จุดข้อมูลที่มีคะแนนผิดปกติต่ำจะสัมพันธ์กับจุดปกติ วิทยานิพนธ์นี้ยังเสนอขั้นตอนวิธีปัจจัยความผิดปกติของความแปรปรวนอัตราส่วนมวลในข้อมูลสตรีมมิ่งหรือเอสเอ็มโอเอฟ ขั้นตอนวิธีนี้จะคำนวณคะแนนความผิดปกติอิงตามเอ็มโอเอฟและแบบจำลองหน้าต่างบานเลื่อนที่ไม่ทับซ้อนกัน ซึ่งเก็บกลุ่มข้อมูลหนาแน่นโดยวิธีการสุ่มตัวอย่างตามน้ำหนัก ทำให้วิธีการจัดเก็บข้อมูลมีประสิทธิภาพสูง วิทยานิพนธ์นี้ได้ทำการทดลองที่ครอบคลุม หลากหลายกรณีเพื่อประเมินประสิทธิภาพของเอ็มโอเอฟและเอสเอ็มโอเอฟโดยใช้ชุดข้อมูลที่สังเคราะห์และใช้งานจริง ผลการทดลองแสดงให้เห็นว่าวิธีดังกล่าวมีความแม่นยำมากกว่าเทคนิคการตรวจจับจุดข้อมูลผิดปกติที่ล้ำสมัย
Description: Thesis (M.Sc.)--Chulalongkorn University, 2021
Degree Name: Master of Science
Degree Level: Master's Degree
Degree Discipline: Computer Science and Information Technology
URI: http://cuir.car.chula.ac.th/handle/123456789/79928
URI: http://doi.org/10.58837/CHULA.THE.2021.115
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2021.115
Type: Thesis
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
6278507823.pdf5.68 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.