Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/80735
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorAtiwong Suchato-
dc.contributor.authorPatawee Prakrankamanant-
dc.contributor.otherChulalongkorn University. Faculty of Engineering-
dc.date.accessioned2022-11-02T06:41:05Z-
dc.date.available2022-11-02T06:41:05Z-
dc.date.issued2021-
dc.identifier.urihttp://cuir.car.chula.ac.th/handle/123456789/80735-
dc.descriptionThesis (M.Eng.)--Chulalongkorn University, 2021en_US
dc.description.abstractTokenization is one of the most important data pre-processing steps in the text classification task and also one of the main contributing factors in the model performance. However, getting good tokenizations is non-trivial when the input is noisy, and is especially problematic for languages without an explicit word delimiter such as Thai. Therefore, we proposed an alternative data augmentation method to improve the robustness of poor tokenization by using multiple tokenizations. We evaluated the performance of our algorithms on different Thai text classification datasets. The results suggested our augmentation scheme makes the model more robust to tokenization errors and can be combined well with other data augmentation schemes.en_US
dc.description.abstractalternativeการทำให้เป็นโทเค็น (tokenization) เป็นหนึ่งในขั้นตอนการดำเนินการเบื้องต้น (pre-processing) ในระบบของแบบจำลองแบ่งประเภทข้อความ (text classification model) และเป็นส่วนหนึ่งที่ส่งผลต่อประสิทธิภาพของแบบจำลอง แต่อย่างไรก็ตามการทำให้เป็นโทเค็น ไม่ใช่ปัญหาทั่วไปสำหรับ noisy text หรือ ภาษาที่ไม่มีขอบเขตของคำ (word boundary) ที่ชัดเจนเช่น ภาษาไทย ในการศึกษานี้เราได้นำเสนอวิธีการเพิ่มข้อมูล (data augmentation) เพื่อเพิ่มความคงทน (robustness) และประสิทธิภาพโดยการใช้การทำให้ เป็นโทเคนหลากหลายรูปแบบ (multi-tokenization) เราวัดผลบนแบบจำลองแบ่งประเภท ข้อความภาษาไทย จากผลการศึกษาพบว่าแบบจำลองที่ถูกเรียนรู้ด้วยการเพิ่มข้อมูลที่เรานำ เสนอนั้น สามารถคงทนต่อ การตัดคำที่ผิดพลาด และสามารถใช้ร่วมกับ การเพิ่มข้อมูลแบบอื่นด้วยen_US
dc.language.isoenen_US
dc.publisherChulalongkorn Universityen_US
dc.relation.urihttp://doi.org/10.58837/CHULA.THE.2021.98-
dc.rightsChulalongkorn Universityen_US
dc.subjectNatural language processing (Computer science)-
dc.subjectThai language -- Sentences-
dc.subjectการประมวลผลภาษาธรรมชาติ (วิทยาการคอมพิวเตอร์)-
dc.subjectภาษาไทย -- ประโยค-
dc.titleData augmentation for Thai natural language processing using different tokenizationen_US
dc.title.alternativeการเพิ่มข้อมูลสำหรับระบบประมวลภาษาธรรมชาติภาษาไทยโดยใช้การแบ่งเป็นโทเค็นที่แตกต่างกันen_US
dc.typeThesisen_US
dc.degree.nameMaster of Engineeringen_US
dc.degree.levelMaster's Degreeen_US
dc.degree.disciplineComputer Engineeringen_US
dc.degree.grantorChulalongkorn Universityen_US
dc.identifier.DOI10.58837/CHULA.THE.2021.98-
Appears in Collections:Eng - Theses

Files in This Item:
File Description SizeFormat 
Eng_Patawee Pra_The_2021.pdf32.71 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.