Dropbox เพิ่มฟีเจอร์ใหม่ ใช้ Deep Learning ตรวจจับตัวอักษรในรูปภาพอัตโนมัติ เพื่อการค้นหาที่ง่ายขึ้น

October 10, 2018

Dropbox ประกาศฟีเจอร์ใหม่ ตรวจจับตัวอักษรในไฟล์รูปภาพหรือ PDF โดยอัตโนมัติ เพื่อการค้นหาที่ง่ายขึ้น จะเริ่มเปิดใช้งานเร็วๆนี้สำหรับผู้ใช้ Dropbox Professional

ปัจจุบันในระบบของ Dropbox นั้นมีไฟล์รูปภาพและ PDF อยู่ประมาณ 20,000 ล้านไฟล์ ซึ่งกว่า 10-20% ในจำนวนนั้นเป็นภาพสแกนของเอกสาร การที่เอกสารถูกจัดเก็บในไฟล์เช่นนี้ทำให้ผู้ใช้เสียโอกาสในการค้นไฟล์เช่นไฟล์เอกสารทั่วไป และมันอาจกลายมาเป็นปัญหาที่น่าปวดหัวหากใน Dropbox นั้นมีไฟล์จำนวนมาก Dropbox จึงออกฟีเจอร์ตรวจจับอักษรอัตโนมัติสำหรับไฟล์ PDF หรือไฟล์ภาพสกุลต่างๆอันได้แก่ไฟล์ JPEG, PNG, GIF (ภาพนิ่ง), และ TIFF

ในการทำเช่นนี้ Dropbox ใช้เทคโนโลยีที่เรียกว่า Optical Character Recognition (OCR) ซึ่งทางบริษัทเคยพัฒนาขึ้นเพื่อช่วยให้ผู้ใช้สามารถทำการคัดลอกและค้นหาข้อความจากรูปเอกสารที่ถูกสแกนผ่านแอปพลิเคชัน Dropbox เท่านั้น โดย OCR เป็น library เฉพาะของ Dropbbox ที่มีส่วนประมวลผลประกอบไปด้วย neural network หลายชั้น ไก้แก่ Convolutional Neural Network (CNN) สำหรับเก็บรายละเอียดตัวอักษรในภาพ, Bidirectional LSTM สำหรับทำความเข้าใจตัวอักษร, และ Connectionist Temporal Classification (CTC) เพื่อทำนายว่าตัวอักษรเหล่านั้นควรเป็นคำว่าอะไรกันแน่ (รายละเอียดเพิ่มเติมในบล็อก)

ฟีเจอร์ตรวจจับคำในภาพอัตโนมัตินี้ในเบื้องต้นยังคงทำงานได้ในภาษาอังกฤษเท่านั้น โดย Dropbox จะเริ่มเปิดใช้งานฟีเจอร์นี้ให้กับผู้ที่สมัครใช้งานในแผน Dropbox Professional เร็วๆนี้ และสำหรับทีมหรือองค์กรที่ใช้งานในแผน Dropbox Business Advanced และ Dropbox Enterprise ใดที่สนใจใช้งานฟีเจอร์ดังกล่าว ก็สามารถเข้าไปทำการร้องขอใช้งานได้ในหน้า admin console เช่นกัน

Share this: