Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/84449
Title: Random forest algorithm using quartile-patternbootstrapping for class imbalanced problem
Other Titles: ขั้นตอนวิธีป่าสุ่มด้วยบูทสแทรปรูปแบบควอไทล์สําหรับปัญหาคลาสไม่ดุล
Authors: Worawit Jitpakdeebodin
Advisors: Krung Sinapiromsaran
Other author: Chulalongkorn University. Faculty of Science
Issue Date: 2022
Publisher: Chulalongkorn University
Abstract: Nowadays, classification in machine learning serves as a valuable tool for extracting and analyzing real-world datasets. However, an important issue in classification is the problem of class imbalance, which significantly impacts the performance of classifiers. In 2019, a novel approach for a decision tree induction was introduced to address This problem—the Minority Condensation Entropy (MCE) measure that can effectively handle imbalanced datasets. Subsequently, in 2021, a new outlier factor called the Mass ratio - variance Outlier Factor (MOF) was presented that can rank instances based on the dataset density. This thesis proposes a random forest algorithm using quartile-pattern Bootstrapping that incorporates MOF and MCE building a random forest capable of handling binary Class imbalanced datasets. The experimental results on synthesized datasets and real-world datasets indicated that the proposed algorithm outperforms other existing algorithms in terms of Precision, Recall, F-measure, and geometric mean, showing its effectiveness in handling imbalanced datasets and improving classification accuracy.
Other Abstract: ในปัจจุบันการจำแนกประเภทในการเรียนรู้ของเครื่องเป็นเครื่องมือที่สำคัญสำหรับการ ดึงข้อมูลและการวิเคราะห์ข้อมูลโลกจริงอย่างไรก็ตามปัญหาที่สำคัญในการจำแนกประเภท คือปัญหาของความไม่ดุลของคลาสซึ่งมีผลกระทบต่อประสิทธิภาพของตัวจำแนกประเภท อย่างมีนัยสำคัญในปี 2019มีการนำเสนอวิธีการใหม่สำหรับการสร้างต้นไม้ตัดสินใจเพื่อแก้ ปัญหานี้ —ไมนอริตี้คอนเดนเซชันเอ็นโทรปี (MCE) ซึ่งสามารถจัดการกับชุดข้อมูลที่ไม่ ดุลได้อย่างมีประสิทธิภาพต่อมาในปี 2021มีการนำเสนอตัววัดปัจจัยความผิดปกติ เรียกว่า ปัจจัยความผิดปกติแมสเรโชแวเรียนซ์ (MOF)ที่สามารถจัดลำดับตัวอย่างตามความหนาแน่น ของข้อมูลวิทยานิพนธ์นี้นำเสนอขั้นตอนวิธีป่าสุ่มที่ใช้รูปแบบบูตสแทรปที่รวมMOFและ MCE เพื่อสร้างป่าสุ่มที่สามารถจัดการกับชุดข้อมูลสองคลาสที่ไม่ดุลผลการทดลองบนชุด ข้อมูลสังเคราะห์และชุดข้อมูลจริงแสดงให้เห็นว่าขั้นตอนวิธีที่นำเสนอมีประสิทธิภาพมากกว่า ขั้นตอนวิธีที่มีอยู่ในด้านพรีซีชันรีคอลตัววัดเอฟและค่าเฉลี่ยเรขาคณิตแสดงถึงความสามารถ ในการจัดการกับชุดข้อมูลที่ไม่ดุลและประสิทธิภาพที่ดีกว่าในการจำแนกประเภท
Description: Thesis (M.Sc.)--Chulalongkorn University, 2022
Degree Name: Master of Science
Degree Level: Master's Degree
Degree Discipline: Applied Mathematics and Computational Science
URI: https://cuir.car.chula.ac.th/handle/123456789/84449
Type: Thesis
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
6470133423.pdf2.38 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.