Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/81683
Title: การเปรียบเทียบวิธีการคัดเลือกตัวแปรสำหรับการถดถอยโลจิสติกในข้อมูลที่มีมิติสูง
Other Titles: A comparison of feature selection methods for logistic regression in high dimensional data
Authors: รัชพงศ์ ปรัชญาเศรษฐ
Advisors: เสกสรร เกียรติสุไพบูลย์
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี
Subjects: สถิติ
ค่าเฉลี่ย
ตัวแปร (คณิตศาสตร์)
Statistics
Average
Variables (Mathematics)
Issue Date: 2565
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: Regularization เป็นวิธีการป้องกันปัญหา overfitting ด้วยการเพิ่มฟังก์ชันการลงโทษไปในตัวแบบเพื่อให้เกิดการคัดกรองตัวแปรเข้าสู่ตัวแบบ งานวิจัยนี้มีวัตถุประสงค์เพื่อศึกษาและเปรียบเทียบประสิทธิภาพของวิธีการคัดกรองตัวแปรสำหรับการวิเคราะห์การถดถอยโลจิสติกในข้อมูลที่มีมิติสูง ด้วยการใช้ฟังก์ชันการลงโทษในรูปแบบ (1) L0-regularization (2) L1-regularization (3) L0L2-regularization การวิจัยนี้ใช้การจำลองข้อมูลเพื่อทำการทดสอบ 18 กรณี โดยกำหนดค่าที่ต่างกันประกอบด้วย จำนวนตัวแปรอิสระมีจำนวน 200, 500 และ 1000 ตัวแปร ความสัมพันธ์ของตัวแปรอิสระมีค่าเท่ากับ 0, 0.5 และ 0.9 อัตราส่วนสัญญาณต่อสัญญาณรบกวนมีค่าเท่ากับ 1 และ 6 โดยจำลองข้อมูลแต่ละกรณีจำนวน 100 ชุด ในการศึกษานี้มุ่งเน้นที่การเปรียบเทียบประสิทธิภาพในการคัดกรองตัวแปรของตัวแบบ และประสิทธิภาพในการทำนายของตัวแบบ ซึ่งเปรียบเทียบประสิทธิภาพในแต่ละวิธีด้วย ความผิดพลาดในการตรวจจับเชิงบวก ค่าเฉลี่ยแบบฮาร์โมนิคของค่าความแม่นยำและค่าความไว และ พื้นที่ใต้เส้นโค้ง จากการศึกษาพบว่าวิธี L0 มีความแม่นยำในการคัดกรองตัวแปรมากที่สุดเมื่อพิจารณาด้วยความผิดพลาดในการตรวจจับเชิงบวก เมื่อพิจารณาด้วยค่าเฉลี่ยแบบฮาร์โมนิคของค่าความแม่นยำและค่าความไว  พบว่าวิธี L1 และ L0L2 มีประสิทธิภาพในการคัดกรองตัวแปรใกล้เคียงกัน แต่วิธี L0L2 จะมีประสิทธิภาพสูงกว่าเมื่อความสัมพันธ์ระหว่างตัวแปรอิสระมีค่าสูง และเมื่อพิจารณาประสิทธิภาพในการทำนายของตัวแบบด้วยพื้นที่ใต้เส้นโค้ง พบว่าวิธี L1 จะมีประสิทธิภาพสูงที่สุดในทุกกรณี
Other Abstract: Regularization is a method to circumvent the overfitting by adding penalty function to a model which results in a feature selection. This research aims to study and compare the performances of feature selection methods for binary logistic regression in high-dimensional data by using penalty function of the forms: (1) L0-regularization (2) L1-regularization and (3) L0L2-regularization. Simulated datasets are organized into 18 cases using various number of independent variables (features) (200, 500, 1000), correlation (0, 0.5, 0.9), and signal to noise ratio (1, 6), each with 100 simulated datasets. According to the performances, the study emphasizes on the accuracy of variables selection and predictive performance, which are compared in terms of False Positive, F1-Score, and Area under the Curve (AUC). This paper shows that L0-regularization yields the highest accuracy of the variables selection in terms of False Positive. For F1-Score, L1-regularization and L0L2-regularization, are comparable. However, L0L2-regularization tends to perform better when the correlations among independent variables are high. In addition, L1-regularization outperforms other methods in terms of predictive performance measured by AUC.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2565
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: สถิติ
URI: http://cuir.car.chula.ac.th/handle/123456789/81683
URI: http://doi.org/10.58837/CHULA.THE.2022.962
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2022.962
Type: Thesis
Appears in Collections:Acctn - Theses

Files in This Item:
File Description SizeFormat 
6280267126.pdf1.39 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.