Please use this identifier to cite or link to this item:
https://cuir.car.chula.ac.th/handle/123456789/37617
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | อติวงศ์ สุชาโต | - |
dc.contributor.advisor | โปรดปราน บุณยพุกกณะ | - |
dc.contributor.advisor | ชัย วุฒิวิวัฒน์ชัย | - |
dc.contributor.author | ณัฐชา ตังศิริรัตน์ | - |
dc.contributor.other | จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์ | - |
dc.date.accessioned | 2013-12-31T14:11:28Z | - |
dc.date.available | 2013-12-31T14:11:28Z | - |
dc.date.issued | 2555 | - |
dc.identifier.uri | http://cuir.car.chula.ac.th/handle/123456789/37617 | - |
dc.description | วิทยานิพนธ์ (วศ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2555 | en_US |
dc.description.abstract | ประโยคจัดได้ว่าเป็นองค์ประกอบพื้นฐานที่สำคัญมากในงานด้านการประมวลผลข้อความ เช่น การแปลภาษาอัตโนมัติ (Machine translation) การค้นคืนสารสนเทศ (Information retrieval) และการสรุปข้อความ (Text summarization) ประสิทธิภาพของการประมวลผลดังกล่าวขึ้นอยู่กับความถูกต้องของประโยคที่ใช้เป็นสิ่งเข้า (Input) โดยเฉพาะอย่างยิ่งในภาษาไทยซึ่งไม่มีการแสดงการสิ้นสุดประโยคอย่างชัดเจน ดังนั้นวิทยานิพนธ์นี้จึงเสนอ การใช้แคททิกอเรียลแกรมม่า จำนวนคำระหว่างการเว้นวรรคที่พิจารณากับการเว้นวรรคใกล้เคียง และจำนวนคำระหว่างการเว้นวรรคที่กำลังพิจารณากับจุดสิ้นสุดของข้อความ เป็นลักษณะสำคัญในระเบียบวิธีทางสถิติและเสนอการประยุกต์ใช้กฎบางส่วนจากหลักเกณฑ์การใช้เครื่องหมายวรรคตอน และหลักเกณฑ์การเว้นวรรคที่กำหนดโดยราชบัณฑิตยสถาน เพื่อเพิ่มความถูกต้องให้กับผลลัพท์ที่ได้จากระเบียบวิธีเรียนรู้ทางสถิติ เพื่อแก้ปัญหาการแบ่งประโยคภาษาไทย โดยการทดลองได้ใช้ข้อความและการกำกับข้อความจากฐานข้อมูล Thai speech corpus for speech synthesis (TsynC) และได้ผลการทดลองดังนี้ ความถูกต้องของการแบ่งประโยค (sentence-break-recall) เท่ากับ 84.11% ความถูกต้องโดยรวม (space-correct) เท่ากับ 93.54% และความผิดพลาดของการแบ่งประโยค (false-break) เท่ากับ 2.99% | en_US |
dc.description.abstractalternative | A sentence is regarded as a key fundamental element in many text processing tasks such as Machine translation, Information retrieval, and text summarization. So, performance of many text processing tasks relies on correct sentences used as input especially in Thai which has no explicit sentence boundary. This thesis proposes to use the integration of statistical method using Categorial grammar, number of words between the considering space and the preceding and succeeding space, and number of words between the considering space and the previous sentence-break as features and rule-based method derived from “Rules for punctuation, space, and abbreviation” composed by The royal institute to improve accuracy of Thai sentence-breaking. Rule-based method is applied to statistical method’s results in order to minimize false-break and increase total accuracy. This research uses Thai speech corpus for speech synthesis (TsynC) as training and testing data. The sentence-break-recall, space-correct and false-break scores are 84.11%, 93.54% and 2.99% respectively. | en_US |
dc.language.iso | th | en_US |
dc.publisher | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.relation.uri | http://doi.org/10.14457/CU.the.2012.1170 | - |
dc.rights | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.subject | ภาษาไทย -- ประโยค | en_US |
dc.subject | ภาษาไทย -- แคทิกอเรียลแกรมมา | en_US |
dc.subject | การประมวลผลภาษาธรรมชาติ (คอมพิวเตอร์) | en_US |
dc.subject | Thai language -- Sentences | en_US |
dc.subject | Thai language -- Categorial grammar | en_US |
dc.subject | Natural language processing (Computer science) | en_US |
dc.title | การแบ่งประโยคภาษาไทยโดยแคททิกอเรียลแกรมม่าและหลักเกณฑ์ไวยากรณ์ | en_US |
dc.title.alternative | Thai sentence segmentation using categorial grammar and grammar rules | en_US |
dc.type | Thesis | en_US |
dc.degree.name | วิศวกรรมศาสตรมหาบัณฑิต | en_US |
dc.degree.level | ปริญญาโท | en_US |
dc.degree.discipline | วิศวกรรมคอมพิวเตอร์ | en_US |
dc.degree.grantor | จุฬาลงกรณ์มหาวิทยาลัย | en_US |
dc.email.advisor | Atiwong.S@Chula.ac.th | - |
dc.email.advisor | Proadpran.Pu@Chula.ac.th | - |
dc.email.advisor | ไม่มีข้อมูล | - |
dc.identifier.DOI | 10.14457/CU.the.2012.1170 | - |
Appears in Collections: | Eng - Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
nathacha_ta.pdf | 2.75 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.