Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/79305
Title: | การจำแนกคำโต้ตอบข่าวไทยเป็นแบบชนิดหัวข้อโดยใช้เทคนิคการเรียนรู้ของเครื่อง |
Other Titles: | Classifying Thai News Dialogues into Topic Types Using Machine Learning Technique |
Authors: | ศลิษา ชูชื่นพฤกษาพันธ์ ไอศวรรย์ ธโนศวรรย์ |
Advisors: | ศุภกานต์ พิมลธเรศ ศศิภา พันธุวดีธร |
Other author: | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิทยาศาสตร์ |
Subjects: | การเรียนรู้ของเครื่อง การรู้จำอักขระ (คอมพิวเตอร์) ภาษาไทย -- คำและวลี Machine learning Character recognition Thai language -- Terms and phrases |
Issue Date: | 2563 |
Publisher: | จุฬาลงกรณ์มหาวิทยาลัย |
Abstract: | รายการข่าวเป็นสื่อที่มีความสำคัญต่อการติดตามเหตุการณ์ใหม่และความเปลี่ยนแปลงของสังคมที่เกิดขึ้นตลอดเวลา ซึ่งรายการข่าวมักนำเสนอข่าวหัวข้อข่าวที่หลากหลายรวมอยู่ในรายการเดียวกัน โครงงานนี้มีจุดประสงค์เพื่อสร้างตัวจำแนกและเปรียบเทียบประสิทธิภาพการจำแนกคำโต้ตอบข่าวไทยเป็นแบบชนิดหัวข้อ ในการศึกษานี้ ตัวจำแนกชุดคำโต้ตอบภาษาไทยหกตัวที่ใช้ขั้นตอนวิธีที่แตกต่างกันได้นำมาใช้เพื่อจำแนกประเภทคำโต้ตอบข่าวไทยออกเป็นประเภทของข่าวหกประเภท ได้แก่ ข่าวการเมือง ข่าวเศรษฐกิจ ข่าวอาชญากรรม ข่าวบันเทิง ข่าวกีฬา และข่าวสิ่งแวดล้อม ตัวจำแนกประเภทห้าตัวได้แก่ นาอีฟเบย์แบบอเนกนาม เพื่อนบ้านใกล้ที่สุดเคตัว ป่าสุ่ม ซัพพอร์ตเวกเตอร์แมชชีน และเพอร์เซปตรอนหลายชั้นใช้เวกเตอร์คุณลักษณะที่ได้จากความถี่ของคำและความถี่ของเอกสารที่ผกผัน ทว่าตัวจำแนกอีกตัวคือเพอร์เซปตรอนหลายชั้นใช้เวกเตอร์ความน่าจะเป็นของหัวข้อที่ได้จากการจัดสรรของดีรีเคลท์แฝง ผลการทดลองพบว่าตัวจำแนกที่สามารถจำแนกคำโต้ตอบข่าวไทยได้ดีที่สุดคือ เพอร์เซปตรอนหลายชั้นที่ใช้เวกเตอร์คุณลักษณะบนพื้นฐานของความถี่ของคำและความถี่ของเอกสารที่ผกผัน และให้ค่าความเที่ยงเฉลี่ยเป็น 0.9622 ค่าความครบถ้วนเฉลี่ยเป็น 0.9609 และคะแนน F1 เฉลี่ยเป็น 0.9609 |
Other Abstract: | News programs are an important media to keep up with new events and social changes which happen all the time and news programs mostly present various news topics in the same program. The purpose of this project is to create classifiers and compare performance of classifying Thai news dialogues as topic types. In this study, six Thai news dialogues classifiers using different algorithms were used to classify Thai news dialogues into six types of news, which are political news, economic news, crime news, entertainment news, sports news, and environmental news. Five classifiers, which are Multinomial Naive Bayes, K-Nearest Neighbors, Random Forest, Support Vector Machines, and Multi-Layer Perceptron used feature vectors obtained from Term Frequency-Inverse Document Frequency whereas the other classifier is Multi-Layer Perceptron using the topic probability vectors obtained from Latent Dirichlet Allocation. The experimental results showed that the best Thai news dialogues classifier was Multi-Layer Perceptron using feature vectors based on Term Frequency-Inverse Document Frequency and yielded an average precision of 0.9622, average recall of 0.9609, and average F1-score of 0.9609. |
Description: | โครงงานเป็นส่วนหนึ่งของการศึกษาตามหลักสูตรปริญญาวิทยาศาสตรบัณฑิต สาขาวิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ปีการศึกษา 2563 |
URI: | http://cuir.car.chula.ac.th/handle/123456789/79305 |
Type: | Senior Project |
Appears in Collections: | Sci - Senior Projects |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
63-SP-COMSCI-047 - Salisa Chuchuenprueksaphan.pdf | 49.64 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.