การพัฒนาการถ่ายโอนและสอบถามข้อมูลในรูปแบบอาร์ดีเอฟบนกรอบการทำงานฮาดูป

จุฑามาศ กะวิเศษ

Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/50710

Title:	การพัฒนาการถ่ายโอนและสอบถามข้อมูลในรูปแบบอาร์ดีเอฟบนกรอบการทำงานฮาดูป
Other Titles:	A DEVELOPMENT OF RDF DATA TRANSFER AND QUERY ON HADOOP FRAMEWORK
Authors:	จุฑามาศ กะวิเศษ
Advisors:	วิวัฒน์ วัฒนาวุฒิ
Other author:	จุฬาลงกรณ์มหาวิทยาลัย. คณะวิศวกรรมศาสตร์
Advisor's Email:	Wiwat.V@Chula.ac.th,wiwatv@gmail.com,wiwat@chula.ac.th
Issue Date:	2558
Publisher:	จุฬาลงกรณ์มหาวิทยาลัย
Abstract:	ข้อมูลอาร์ดีเอฟที่ถูกเก็บไว้ในรูปแบบของเอ็กซ์เอ็มแอลหรือระบบฐานข้อมูลเชิงสัมพันธ์โดยในปัจจุบันเป็นที่นิยมนำมาประยุกต์ใช้ในการเก็บข้อมูลต่างๆ ที่มีขนาดใหญ่มากๆ อย่างไรก็ตามเมื่อข้อมูลมีแนวโน้มเพิ่มขึ้น ส่งผลให้เซตของข้อมูลมีขนาดใหญ่ขึ้นตามไปด้วย ดังนั้นทางเลือกในการจัดการข้อมูลและการค้นหาข้อมูลอาร์ดีเอฟ หรือข้อมูลที่มีความเชื่อมโยงกันที่เรียกว่าลิงค์เดต้าคือ การใช้อัลกอริทึมของแมปรีดิวซ์ บนกรอบการทำงานของฮาดูป วิทยานิพนธ์นี้จึงนำเสนอการดำเนินการถ่ายโอนข้อมูลและการค้นหาข้อมูลอาร์ดีเอฟจากฮาดูปคลัสเตอร์ เพื่อวัดประสิทธิภาพด้านเวลาในการเข้าถึงข้อมูลและค้นหาข้อมูลบนฮาดูป โดยข้อมูลอาร์ดีเอฟขนาดใหญ่ที่ใช้ในการทดลองจะถูกแปลงให้อยู่ในรูปของเอ็นทริปเปิ้ล และถูกถ่ายโอนเข้าไปยังฮาดูปคลัสเตอร์ซึ่งเป็นแหล่งเก็บข้อมูลของฮาดูปซึ่งอาศัยหลักการของเอชดีเอฟเอส ในการแบ่งข้อมูลขนาดใหญ่เพื่อจัดเก็บเข้าสู่ระบบ การค้นหาข้อมูลอาร์ดีเอฟในระบบโดยใช้สปาร์เคิล ซึ่งจะถูกแปลงให้อยู่ในรูปแบบของการสอบถามแบบเอ็นทริปเปิ้ล ที่เรียกว่า เบสิคกราฟแพทเทิร์น ด้วยจีน่าอัลจีบร้า เพื่อส่งเข้าไปประมวลผลในอัลกอริทึมของแมปรีดิวซ์ เพื่อให้ได้ผลลัพธ์สุดท้ายที่ตรงกับความต้องการของการค้นหาข้อมูล
Other Abstract:	An RDF graph is typically stored in an XML file or a relational database. However, when it becomes a large RDF graph, an alternative way to handle the storing and query RDF graph or linked data is to use the MapReduce algorithm and Hadoop framework. In this thesis, we propose a supporting tool far data transfer and query on big RDF graph. We aim to reduce the access time and query response time by using Hadoop Framework. The RDF/XML or linked data are converted into a huge set of N-triples and they are uploaded onto Hadoop and stored in data nodes of Hadoop Distributed File System (HDFS). The query of RDF graph in SPARQL is analyzed and converted into a specific N-triple format as to search the answer using Jena Algebra. The MapReduce algorithm is developed to relevantly manipulate the RDF graph.
Description:	วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2558
Degree Name:	วิทยาศาสตรมหาบัณฑิต
Degree Level:	ปริญญาโท
Degree Discipline:	วิศวกรรมซอฟต์แวร์
URI:	http://cuir.car.chula.ac.th/handle/123456789/50710
Type:	Thesis
Appears in Collections:	Eng - Theses

Files in This Item:

File	Description	Size	Format
5570970021.pdf		2.72 MB	Adobe PDF	View/Open

Show full item record