Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/81688
Title: การพัฒนาเวิร์กโฟลว์สําหรับตัวแบบต้นไม้จําแนกประเภทที่ดีที่สุด
Other Titles: A workflow development for the optimal classification tree model
Authors: พงศ์ทวัส ฮั่นวัฒนวงศ์
Advisors: เสกสรร เกียรติสุไพบูลย์
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี
Subjects: การโปรแกรมเชิงเส้น
ต้นไม้ (ทฤษฎีกราฟ)
ต้นไม้ตัดสินใจ
Linear programming
Trees (Graph theory)
Decision trees
Issue Date: 2565
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: งานวิจัยนี้มีวัตถุประสงค์เพื่อพัฒนาเวิร์กโฟลว์สำหรับสร้างต้นไม้จำแนกประเภทที่ดีที่สุด ด้วยตัวแบบเชิงเส้นจำนวนเต็มแบบผสม ทำการประเมินประสิทธิภาพของตัวแบบต้นไม้จำแนกประเภทที่ดีที่สุดบนชุดข้อมูลเยอรมันเครดิต และขยายตัวแบบให้รองรับชุดข้อมูลที่ตัวแปรต้นมีค่าสูญหายจำนวนมาก จากการพัฒนาเวิร์กโฟลว์พบว่าการสร้างต้นไม้จำแนกประเภทที่ดีที่สุดโดยใช้ตัวแบบเชิงเส้นจำนวนเต็มแบบผสมในงานวิจัยของ Lin และ Tang (2021) และกำหนดค่าพารามิเตอร์ความซับซ้อนตั้งต้นเป็นค่าบวกใกล้เคียงศูนย์ให้ผลลัพธ์เป็นที่น่าพอใจ จากการเปรียบเทียบประสิทธิภาพระหว่างตัวแบบต้นไม้จําแนกประเภทที่ดีที่สุดกับต้นไม้ตัดสินใจบนชุดข้อมูลเยอรมันเครดิต พบว่าต้นไม้จำแนกประเภทที่ดีที่สุดให้อัตราความถูกต้องสูงกว่าต้นไม้ตัดสินใจทั้งบนชุดข้อมูลสร้างตัวแบบและบนชุดข้อมูลทวนสอบ 0.4% ถึง 3.2% ข้อดีของการพัฒนาเวิร์กโฟลว์โดยใช้โปรแกรมหาคำตอบสำหรับปัญหาเชิงเส้นจำนวนเต็มแบบผสม คือความสามารถในการขยายตัวแบบให้รองรับเงื่อนไขเพิ่มเติมได้ ในงานวิจัยนี้จึงเสนอตัวแบบต้นไม้จำแนกประเภทที่ดีที่สุดที่ถูกขยายให้รองรับชุดข้อมูลที่มีตัวแปรต้นสูญหายจำนวนมาก และแสดงให้เห็นว่าตัวแบบที่ถูกขยายสามารถทำงานอย่างมีประสิทธิผลบนเวิร์กโฟลว์ที่พัฒนาขึ้น
Other Abstract: This research aims to develop a workflow for creating an optimal classification tree (OCT) model by using mixed-integer optimization (MIO), to evaluate the performance of the optimal classification tree model on German Credit dataset, and to extend the model to support datasets that contain explanatory variables with a lot of missing values. By developing the workflow, we found that creating an optimal classification tree by solving an MIO problem using Lin and Tang’s (2021) formulation, with the complexity parameter as a positive value close to zero, provides satisfactory results. By comparing the performance between the OCT and CART on German credit dataset, we found that both in-sample and out-of-sample accuracy of the OCT is greater than CART by 0.4 – 3.2%. One advantage of creating the OCT model by using MIO is the ability to extend the model to support additional required conditions. In this research, we propose an extension to the OCT model that supports datasets containing explanatory variables with a lot of missing values and show that the extended model can work effectively on the workflow.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2565
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: สถิติ
URI: http://cuir.car.chula.ac.th/handle/123456789/81688
URI: http://doi.org/10.58837/CHULA.THE.2022.958
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2022.958
Type: Thesis
Appears in Collections:Acctn - Theses

Files in This Item:
File Description SizeFormat 
6380214026.pdf1.32 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.