Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/82735
Title: | การเปรียบเทียบวิธีการใส่ค่าสูญหาย ในตัวแบบการถดถอยเชิงเส้นพหุที่ตัวแปรอิสระมีการสูญหายแบบนอนอิกนอร์เรเบิลที่สัมพันธ์กัน |
Other Titles: | Comparison of the imputation methods in the multiple linear regression model with correlated-nonignorable-missing independent variables |
Authors: | ศุภสันติ์ ดีมาก |
Advisors: | อนุภาพ สมบูรณ์สวัสดี |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะพาณิชยศาสตร์และการบัญชี |
Issue Date: | 2565 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | งานวิจัยนี้มีจุดประสงค์เพื่อศึกษาและเปรียบเทียบวิธีการประมาณสูญหายในตัวแบบการถดถอยเชิงเส้นพหุคูณ ที่ตัวแปรอิสระมีการสูญหายแบบนอนอิกนอร์เรเบิลที่มีความสัมพันธ์กัน ในการศึกษานี้มีวิธีการที่ถูกพัฒนาขึ้นคือ Expected Regression Imputation (ERI) และ Conditional Expected Regression Imputation (CERI) โดยจะเปรียบเทียบประสิทธิภาพวิธีการที่พัฒนาขึ้นมากับอีก 3 วิธีการ ได้แก่ วิธี K-Nearest Neighbor Imputation (KNN), วิธี Expectation Maximization Algorithm (EM) และ วิธี Predictive Mean Matching Imputation (PMM) ) การศึกษานี้ได้ควบคุมปัจจัยความแปรปรวนของตัวแปรอิสระ, ความสัมพันธ์ของตัวแปรอิสระ, ส่วนเบี่ยงเบนมาตรฐานค่าความคลาดเคลื่อน, ร้อยละการสูญหายและระดับ Nonignorability โดยวิธีการที่ให้ค่าเฉลี่ยของค่าเฉลี่ยความคลาดเคลื่อนกำลังสอง (Average mean square error) น้อยที่สุดจะเป็นวิธีการที่มีประสิทธิภาพสูงที่สุด ผลการวิจัยพบว่า เมื่อข้อมูลมีการกระจายตัวสูงและกลางวิธี KNN มีประสิทธิภาพสูงสุดในทุกกรณีที่ศึกษา แต่ถ้าข้อมูลกระจายตัวต่ำ วิธี KNN จะดีเมื่อกรณีตัวแปรมีความสัมพันธ์กันสูงและร้อยละการสูญหายต่ำ วิธี EM จะประสิทธิภาพสูงเมื่อร้อยละการสูญหายสูงในทุกระดับความสัมพันธ์ วิธี ERI จะประสิทธิภาพสูงเมื่อตัวแปรมีความสัมพันธ์เชิงบวกในระดับกลางลงไปในเกือบทุกกรณีที่ศึกษา วิธี CERI จะประสิทธิภาพสูงเมื่อตัวแปรมีความสัมพันธ์เชิงลบในระดับกลางลงไปและร้อยละการสูญหายต่ำ |
Other Abstract: | The objective of this research was study and compare imputation methods for independent variables for multiple linear regression model with correlated-nonignorable-missing independent variables. In this study, methods were developed, namely the Expected Regression (ERI) and Conditional Expected Regression Imputation. Comparison of the efficiency of develop methods with 3 methods, namely K-Nearest Neighbor (KNN), Expectation Maximization (EM) and Predictive Mean Matching (PMM). This research has controlled the variance factor of independent variables, the correlation of independent variables, standard deviations of error, missing proportion of data and Nonignorability Level. By the method that makes the average mean square error as little as possible, it is considered the most effective method. The study found that when High and Middle dispersion The KNN method was most effective in all cases studied. But if Low dispersion, KNN was good when variable cases have a high relationship and low missing proportion. The EM method will be high efficiency when the missing proportion is high at all correlation levels. The ERI method was highly effective when variables have a positive correlation in the intermediate or low level in almost all cases studied. The CERI method was high efficiency when variables have a negative correlation in the middle or low to each other and the percentage of loss is low. |
Description: | วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2565 |
Degree Name: | วิทยาศาสตรมหาบัณฑิต |
Degree Level: | ปริญญาโท |
Degree Discipline: | สถิติ |
URI: | https://cuir.car.chula.ac.th/handle/123456789/82735 |
URI: | http://doi.org/10.58837/CHULA.THE.2022.964 |
metadata.dc.identifier.DOI: | 10.58837/CHULA.THE.2022.964 |
Type: | Thesis |
Appears in Collections: | Acctn - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
6480496726.pdf | 22.77 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.