นักวิจัย Amazon ใช้ AI พัฒนาการรู้จำข้อความแบบโค้ง

0

การแปลงไฟล์ภาพเอกสารให้เป็นไฟล์ข้อความโดยอัตโนมัติ (Optical Character Recognition หรือ OCR) จะทำงานได้ดีเมื่อข้อความอยู่ในแนวราบ หากไม่ได้เป็นเช่นนั้น ระบบอัลกอริธึมอาจจะทำงานได้ลำบากและข้อความที่ถอดออกมาอาจจะผิดเพี้ยนไม่สมบูรณ์ แต่ตอนนี้นักวิจัยจาก Amazon ได้แก้ปัญหานั้นด้วยการพัฒนา TextTubes สำหรับใช้ตรวจจับข้อความแบบโค้งในภาพแล้วถอดเป็นข้อความออกมาได้

ในงานวิจัยได้ระบุไว้ว่า ข้อความที่ถ่ายด้วยกล้องจะถูกแตกย่อยผ่านกระบวนการสองส่วน คือ ส่วนตรวจจับข้อความ (text detection) และส่วนรู้จำข้อความ (text recognition) โดยส่วนตรวจจับข้อความจะเกี่ยวข้องกับการหาตัวอักษร คำ และเส้น ด้วยการใช้บริบทเป็นนัย ส่วนรู้จำข้อความใช้ถอดความเนื้อหาออกมา

วิธีการของทีมวิจัยนี้ก็คือใช้การนำเสนอ “tube” ของกรอบข้อความที่จับการเรียงตัวของข้อความที่มักจะเป็นตัวอักษรขนาดเดียวกัน ซึ่งถูกกำหนดเป็นสูตรทางคณิตศาสตร์ที่ฝึกระบบเรียนรู้ที่ใช้ตรวจจับข้อความจากภาพได้

Amazon curved text OCR ai
Image credit: TextTubes for Detecting Curved Text in the Wild (via VentureBeat)

นักวิจัยประเมินการทำงานของ TextTubes บน CTW-1500 ซึ่งเป็นชุดข้อมูลที่ประกอบไปด้วยภาพ 1,500 รูปที่เก็บมาจากสถานที่ทั่วไปและคลังภาพ ข้อความอีกกว่า 10,000 ข้อความที่มีส่วนโค้งอย่างน้อยหนึ่งจุดในภาพ และประเมินบน Total-Text ซึ่งประกอบภาพใช้ฝึกระบบ 1,255 รูป และภาพทดสอบที่มีข้อความแบบโค้ง 300 ภาพ ทีมวิจัยรายงานว่า ผลลัพธ์ที่ได้มีความแม่นยำถึง 83.65% บน  CTW-1500 เทียบกับวิธีที่ใกล้เคียงที่มีความแม่นยำ 75.6%

ด้วยความแม่นยำระดับนี้ คาดว่า สักวัน TextTubes น่าจะเป็นประโยชน์ต่ออุตสาหกรรมที่ต้องอาศัยเทคโนโลยี OCR เป็นหลัก ซึ่งจากข้อมูลของ Grand View Research คาดว่าตลาด OCR โซลูชั่นน่าจะมีมูลค่าถึง 13.38 พันล้านดอลลาร์ภายในปี 2568