Please use this identifier to cite or link to this item: https://cuir.car.chula.ac.th/handle/123456789/79552
Title: การศึกษาเปรียบเทียบประสิทธิภาพระหว่างระบบคอมพิวเตอร์ปัญญาประดิษฐ์ 2 ระบบ ในการการช่วยตรวจจับติ่งเนื้อลำไส้ใหญ่โดยใช้ค่าเกณฑ์ชี้วัดที่เหมาะสม เพื่อลดอัตราการเกิดผลบวกลวงในผู้ที่มาส่องกล้องคัดกรองมะเร็งลำไส้ใหญ่
Other Titles: Comparative analysis of diagnostic performance between two artificial intelligence-assisted polyp detection systems using a selected optimal false positive thresholds.
Authors: จุฬาลักษณ์ คฤหาสน์สุวรรณ
Advisors: ภาฤทธิ์ เมฆอรุณกมล
รังสรรค์ ฤกษ์นิมิตร
Other author: จุฬาลงกรณ์มหาวิทยาลัย. คณะแพทยศาสตร์
Subjects: ลำไส้ใหญ่ -- มะเร็ง
การส่องตรวจลำไส้ใหญ่
ปัญญาประดิษฐ์ -- การใช้ในการแพทย์
Intestine, Large -- Cancer
Colonoscopy
Artificial intelligence -- Medical applications
Issue Date: 2564
Publisher: จุฬาลงกรณ์มหาวิทยาลัย
Abstract: ความสำคัญและที่มา: จำนวนของผลบวกลวง (false positive) ปริมาณมากที่เกิดขึ้นในการส่องลำไส้ใหญ่โดยใช้ระบบคอมพิวเตอร์ปัญญาประดิษฐ์ช่วยในการ หาติ่งเนื้อลำไส้อาจทำให้แพทย์ผู้ทำการส่องกล้องเกิดความรำคาญ เสียสมาธิในการส่องกล้อง เสียเวลามากขึ้นในการเข้าไปตรวจเช็คซ้ำบริเวณที่มีกรอบขึ้น ทำให้ใช้เวลาในการ ส่องกล้องลำไส้ใหญ่นานขึ้น อย่างไรก็ตาม การปรับค่าเกณฑ์ชี้วัดที่ช่วยลดบวกลวงทำให้ความไวและความถูกต้องของประสิทธิภาพของระบบคอมพิวเตอร์ปัญญาประดิษฐ์ในการ ตรวจพบติ่งเนื้อลำไส้ใหญ่ลดลง วัตถุประสงค์: เพื่อเปรียบเทียบประสิทธิภาพระหว่างระบบคอมพิวเตอร์ปัญญาประดิษฐ์2 ระบบคือ CAD EYE และ Deep-GI ในการการช่วยตรวจจับติ่งเนื้อ ลำไส้ใหญ่ในผู้ที่มาส่องกล้องคัดกรองมะเร็งลำไส้ใหญ่ และหาค่าเกณฑ์ชี้วัดที่เหมาะสมเพื่อลดอัตราการเกิดผลบวกลวง ระเบียบวิธีการวิจัย: ระบบ Deep-GI ได้ถูกพัฒนาขึ้น โดยใช้กระบวนการเรียนรู้เชิงลึกของคอมพิวเตอร์บน Model ทางวิศวกรรมศาสตร์ชื่อ YOLOv5 deep learning framework ซึ่งมีการใช้ข้อมูลตัวอย่างในการพัฒนา Deep-GI ถึง 15,188 ภาพ และใช้ในการทดสอบอีก 1,520 ภาพ เมื่อเริ่มทำการศึกษา จะมีการบันทึก วีดีโอขณะกำลังถอยกล้องตรวจดูลำไส้ใหญ่ ทั้งวีดีโอที่มีระบบ CAD EYE (CAD EYETM ; Fujifilm, Tokyo, Japan) และ วีดีโอที่นำระบบ Deep-GI มาใส่เข้าไปภายหลัง หลังจาก นั้น วีดีโอที่มีระบบคอมพิวเตอร์ปัญญาประดิษฐ์ทั้ง 2 วีดีโอ จะถูกตรวจสอบและบันทึกข้อมูลต่าง ๆ โดยอายุรแพทย์ทางเดินอาหารที่มีความเชี่ยวชาญด้านการส่องกล้องลำไส้ ใหญ่ 2 คน ข้อมูลใดที่มีความเห็นไม่ตรงกันจะถูกตรวจสอบซ้ำโดยอายุรแพทย์ทางเดินอาหารที่มีความเชี่ยวชาญพิเศษ ผลบวกจริง (true positive) คือ การที่ปัญญาประดิษฐ์ขึ้น กรอบเตือนว่ามีติ่งเนื้อในบริเวณที่มีติ่งเนื้อจริง หลังจากแพทย์ตรวจสอบวีดีโลและบันทึข้อมูลแล้ว จะนำข้อมูลต่าง ๆ เช่น อัตราการพบติ่งเนื้อลำไส้ใหญ่ (polyp detection rate), อัตราการไม่พบติ่งเนื้อลำไส้ใหญ่ (polyp miss rate) และอัตราการพบผลบวกลวง (false positive rate) มาคำนวณเปรียบเทียบประสิทธิภาพของระบบคอมพิวเตอร์ ปัญญาประดิษฐ์ทั้ง 2 ระบบโดยเปรียบเทียบในหลายๆเกณฑ์ชี้วัด ทั้งเกณฑ์ชี้วัด ≥ 0.5 วินาที, ≥ 1 วินาที, ≥ 1.5 วินาทีและ ≥ 2 วินาที ผลการวิจัย: จากผู้ป่วยที่มาส่องกล้องเพื่อคัดกรองมะเร็งลำไส้ใหญ่ทั้งหมด 170 ราย พบว่า มีผู้ป่วย 137 รายที่ส่องกล้องพบติ่งเนื้อลำไส้ใหญ่อย่างน้อย 1 ติ่ง เนื้อ โดยมีค่าเฉลี่ยระยะเวลาในการถอยกล้องเท่ากับ 7.8 ± 2.7 นาทีจากผู้ป่วย 137 ราย พบติ่งเนื้อลำไส้ใหญ่ทั้งหมด 501 ติ่งเนื้อ แบ่งเป็นติ่งเนื้อชนิด adenoma 262 ติ่งเนื้อ คิดเป็นร้อยละ 52.3 และติ่งเนื้อชนิด hyperplastic 239 ติ่งเนื้อ คิดเป็นร้อยละ 47.7 มีติ่งเนื้อลำไส้ใหญ่ 3 ติ่งเนื้อที่ไม่ถูกตรวจพบโดยระบบ Deep-GI คิดเป็นร้อยละ 0.6 ในขณะที่มีติ่งเนื้อลำไส้ใหญ่ 73 ติ่งเนื้อที่ไม่ถูกตรวจพบโดยระบบ CAD EYE คิดเป็นร้อยละ 14.6 ซึ่งสูงกว่าอย่างมีนัยยะสำคัญทางสถิติ (p<0.01, ตามลำดับ) และยังพบว่า อัตราการพบผลบวกลวง (False positive alarm rate) น้อยกว่า 5 ครั้ง/การส่องกล้องลำไส้ใหญ่ในทั้ง 2 ระบบและ อัตราการพบผลบวกลวงในระบบ CAD EYE จะสูงกว่าระบบ Deep-GI อย่างมีนัยยะสำคัญทางสถิติเมื่อปรับเกณฑ์ชี้วัดสำหรับผลบวกลวงเป็น ≤ 1.5 วินาทีแต่อัตราการไม่พบ ติ่งเนื้อลำไส้ใหญ่จะเพิ่มสูงขึ้นเป็น 10-25% ถ้าปรับค่าเกณฑ์ชี้วัดสำหรับผลบวกลวงเป็น ≥1.5 วินาที สรุปผลการวิจัย: การศึกษานี้พบว่า เมื่อเปรียบเทียบประสิทธิภาพระหว่างระบบคอมพิวเตอร์ปัญญาประดิษฐ์2 ระบบ ในการการช่วยตรวจจับติ่งเนื้อลำไส้ ใหญ่ ระบบ Deep-GI มีอัตราการตรวจพบติ่งเนื้อลำไส้ใหญ่ (overall polyp detection rate) ที่สูงกว่า ในขณะที่ทำให้เกิดผลบวกลวงน้อยกว่า ที่เกณฑ์ชี้วัดสำหรับผลบวกลวง ≥0.5 วินาที และ ≥1 วินาทีอย่างมีนัยยะสำคัญทางสถิติค่าเกณฑ์ชี้วัดสำหรับผลบวกลวงที่ ≥1 วินาทีเป็นค่าเกณฑ์ชี้วัดที่เหมาะสมสำหรับระบบ Deep-GI และ CAD EYE เนื่องจากเป็นค่าที่ทำให้อัตราการไม่พบติ่งเนื้อลำไส้ใหญ่ (polyp miss rate) และเกิดผลบวกลวงต่ำที่สุด
Other Abstract: BACKGROUND AND AIMS: High false positive (FP) rate in artificial intelligence (AI)-assisted colonoscopy for polyp detection can induce visual disturbance, unnecessary checking on non-pathological areas, and prolonged procedural time. However, a higher FP threshold inevitably results in decreased polyp detection sensitivity. This study aims to compare diagnostic performance between our newly developed AI model and previously validated AI-based computer-aided polyp detection (CADe) system using optimal FP thresholds. METHODS: We developed an AI software for polyp detection, “Deep-GI”, using a convolutional neural network based on the YOLOv5 deep learning framework. Deep-GI was trained and tested using 15,188 and 1,520 colonoscopy images, respectively. Consecutive screening colonoscopy videos were collected prospectively at our center.   Two AI models, the validated CADe system (CAD EYETM; Fujifilm, Tokyo, Japan) and our Deep-GI system, were run and analyzed on each video. The AI-labeled videos were independently reviewed by two experienced gastroenterologists. True positive was defined as a polyp detected by AI that both gastroenterologists confirmed. Another senior gastroenterologist resolved any disagreement. Polyp detection rates, polyp miss rates, and FP rates were calculated and compared using different FP thresholds (≥0.5 seconds, ≥1 second, ≥1.5 seconds, and ≥2 seconds) for the duration of an alert box appearing on the screen. RESULTS: A total of 170 colonoscopies from 170 patients were enrolled. Mean withdrawal time was 7.8 ± 2.7 min. A total of 501 polyps (52.3% adenomatous polyps, n=262) were detected in 137 colonoscopies. Three polyps (0.6%) were missed by Deep-GI, and 73 polyps (14.6%) were missed by CADe with a statistically significant difference; p<0.01. Sixty-four (85%) of the missed polyps were <5 mm, while 2.7% were 5-10 mm hyperplastic polyps. When compared to the validated CADe model, Deep-GI demonstrated higher polyp detection rate (99.4% vs. 85.4%; p<0.01), lower polyp miss rate (0.6% vs. 14.6%; p<0.01), and lower FP alarm per colonoscopy (349 ± 169 vs. 624 ± 468; p<0.01). There was a significant difference in adenoma detection between both systems in FP threshold ≥0.5, and ≥1 second. Deep-GI has a significantly higher overall polyp detection rate with lower FP alarm than CADe at ≥0.5, and ≥1 second of FP threshold (99.4% vs. 85%; p<0.01 and 98% vs. 84.2%; p<0.01, respectively). The false-positive-alarm rates were lower than 5 frames/colonoscopy in both groups for all FP thresholds with significantly higher FP rate in the CADe system when the FP threshold was ≤1.5 seconds. The polyp miss rate increased to 10-25% as FP thresholds were adjusted to ≥1.5 second. CONCLUSION: Compared to a validated CADe system, Deep-GI demonstrated a higher overall polyp detection rate with significantly lower false positive alarm at ≥0.5 and ≥1 second thresholds. The ≥1 second threshold was optimal for the Deep-GI model and CADe system as it provided the lowest polyp miss rate and false positive alarm for each system.
Description: วิทยานิพนธ์ (วท.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2564
Degree Name: วิทยาศาสตรมหาบัณฑิต
Degree Level: ปริญญาโท
Degree Discipline: อายุรศาสตร์
URI: http://cuir.car.chula.ac.th/handle/123456789/79552
URI: http://doi.org/10.58837/CHULA.THE.2021.1136
metadata.dc.identifier.DOI: 10.58837/CHULA.THE.2021.1136
Type: Thesis
Appears in Collections:Med - Theses

Files in This Item:
File Description SizeFormat 
6370076030.pdf1.53 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.