Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/45852
Title: FINDING SETS OF HIGH-FREQUENCY QUERIES FOR HIGH-FREQUENCY-QUERY-BASED FILTER FOR SIMILARITY JOIN
Other Titles: การค้นหาเซตของข้อคำถามที่ใช้บ่อยสำหรับตัวกรองอิงข้อคำถามที่ใช้บ่อยสำหรับการเชื่อมด้วยสายอักขระคล้าย
Authors: Kamolwan Kunanusont
Advisors: Jaruloj Chongstitvatana
Other author: Chulalongkorn University. Faculty of Science
Advisor's Email: Jaruloj.C@Chula.ac.th,jaruloj@gmail.com
Subjects: Keyword searching
Issue Date: 2014
Publisher: Chulalongkorn University
Abstract: Similarity search and similarity join are important operations in text databases. Similarity search finds all records which are similar to the given text query while similarity join matches pairs of similar records from two relations. In some situations, some similar queries are repeated over a period of time. These queries are called high-frequency queries. High-frequency-query-based filter is used to facilitate this type of queries. This method uses an index structure called similarity table to prune non-related text records in relations. A similarity table is created based on a chosen high-frequency query obtained from the query set. However, the performance of this filter method depends mostly on these chosen queries. This thesis proposes a method to find high-frequency queries for the high-frequency-query-based filter. The proposed method is based on a density-based cluster analysis, called DBSCAN, to capture the main characteristics of the query set by grouping them and find the representative points from each group. Two methods – DBRAN and DBSM - to deal with redundant high-frequency queries are proposed. DBRAN finds clusters high-frequency queries, by DBSCAN, and randomly chooses one high-frequency query from a cluster as a representative. DBSM also uses DBSCAN to finds clusters, and repeatedly merge the queries in these clusters until it cannot give any improvement on similarity tables. For evaluation, the proposed method is applied on various sets of queries to find high-frequency queries for three datasets. It is found that DBSM performs better than DBRAN when the similarity between high-frequency queries is low. However, when the similarity between high-frequencies is high, the performance of both DBRAN and DBSM are about the same.
Other Abstract: การค้นด้วยสายอักขระคล้าย และการเชื่อมด้วยสายอักขระคล้ายเป็นตัวดำเนินการที่สำคัญในฐานข้อมูลสายอักขระ การค้นด้วยสายอักขระคล้ายจะคืนค่าระเบียนในตารางที่คล้ายกับข้อความคำถาม ในขณะที่การเชื่อมด้วยสายอักขระคล้ายคืนค่าคู่ของระเบียนทุกคู่ระหว่างสองตารางที่คล้ายกัน ในบางสถานการณ์ การค้นหาดังกล่าวจะค้นหาด้วยข้อคำถามที่คล้ายกันในช่วงเวลาเดียวกัน ข้อคำถามเหล่านี้เรียกว่า ข้อคำถามที่ใช้บ่อย จึงมีผู้ออกแบบการกรองโดยอิงกับข้อคำถามที่ใช้บ่อยเพื่ออำนวยความสะดวกในการค้นข้อคำถามชนิดนี้ ผู้ออกแบบใช้โครงสร้างเรียกว่าตารางค่าความคล้ายเพื่อตัดระเบียนที่ไม่เกี่ยวข้องออก การสร้างตารางค่าความคล้ายจะสร้างโดยอิงกับเซตของข้อคำถามที่ใช้บ่อยที่ได้จากเซตของข้อคำถาม อย่างไรก็ตาม ประสิทธิภาพของการกรองนี้ขึ้นอยู่กับเซตเหล่านี้โดยตรง เป้าหมายของวิทยานิพนธ์นี้คือเพื่อออกแบบวิธีค้นหาข้อคำถามที่ใช้บ่อยที่เหมาะสมจะใช้กับการกรองโดยอิงกับข้อคำถามที่ใช้บ่อย วิธีที่ออกแบบใช้ขั้นตอนการวิเคราะห์จัดกลุ่มประเภทอิงกับความหนาแน่นชื่อ DBSCAN เพื่อจัดกลุ่มเซตของข้อคำถามที่ใช้บ่อยที่คล้ายกันและค้นหาข้อคำถามตัวแทนจากแต่ละกลุ่ม ผู้เขียนออกแบบขั้นตอนวิธีสองวิธี คือ DBRAN และ DBSM เพื่อกำจัดความซ้ำซ้อนของข้อคำถามที่ใช้บ่อย DBRAN จัดกลุ่มข้อคำถามที่ใช้บ่อยโดยใช้ DBSCAN และเลือกข้อคำถามที่ใช้บ่อยอย่างสุ่มหนึ่งข้อคำถามต่อหนึ่งกลุ่ม DBSM ใช้ DBSCAN เพื่อจัดกลุ่มเช่นกัน และผสานข้อคำถามในกลุ่มจนกระทั่งไม่สามารถเพิ่มประสิทธิภาพการกรองได้ ชั้นตอนการวัดผลคือ นำวิธีที่ออกแบบไปใช้กับเซตของข้อคำถามหลากหลายเซตสำหรับเซตของข้อมูลสามเซต และวัดประสิทธิ์ภาพของการเชื่อมด้วยสายอักขระคล้ายที่ใช้การกรองชนิดนี้เป็นตัวกรอง พบว่า DBSM มีประสิทธิภาพดีกว่า DBRAN เมื่อแต่ละข้อคำถามที่ใช้บ่อยคล้ายกันน้อย อย่างไรก็ตาม เมื่อข้อคำถามที่ใช้บ่อยคล้ายกันมาก ประสิทธิภาพของทั้งสองวิธีใกล้เคียงกัน
Description: Thesis (M.Sc.)--Chulalongkorn University, 2014
Degree Name: Master of Science
Degree Level: Master's Degree
Degree Discipline: Computer Science and Information Technology
URI: http://cuir.car.chula.ac.th/handle/123456789/45852
URI: http://doi.org/10.14457/CU.the.2014.264
metadata.dc.identifier.DOI: 10.14457/CU.the.2014.264
Type: Thesis
Appears in Collections:Sci - Theses

Files in This Item:
File Description SizeFormat 
5772601023.pdf1.78 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.