NVIDIA ได้เปิดตัว TensorRT 4 ที่มีฟีเจอร์ใหม่ๆ หลายอย่างเพื่อเพิ่มความเร็วในการทำ inference สำหรับแอปพลิเคชันแปลภาษาด้วยวิธี Neural Machine Translation หรือ NMT บน GPU โดย NMT นั้นได้ทำให้เกิดวิธีการแปลภาษาข้อความโดยใช้ระบบ AI สำหรับแอปพลิเคชันระดับ consumer จำนวนมาก รวมทั้งในเว็บไซต์ ป้ายตามท้องถนน การสร้างซับไตเติ้ลในภาษาต่างชาติ และอื่นๆ อีกมากมาย
โดย TensorRT 4 ที่เปิดตัวใหม่นี้ได้นำการรองรับสำหรับเลเยอร์ RNN แบบใหม่ เช่น Batch MatrixMultiply, Constant, Gather, RaggedSoftMax, Reduce, RNNv2 และ TopK ซึ่งเลเยอร์เหล่านี้สามารถทำให้นักพัฒนาแอปพลิเคชันเร่งความเร็วในส่วนที่จะต้องประมวลผลจำนวนมากๆ ของโมเดล NMT ได้ง่ายขึ้นบน TensorRT
ในส่วนของประสิทธิภาพ เมื่อทดสอบโดยวิธี beam search บนคอมโพเนนท์ data-writer-benchmark ระบบสามารถดำเนินการได้เร็วกว่าเดิมที่ใช้ CPU เท่านั้นในการทำ inference ได้ถึง 170 เท่าเมื่อใช้ batch เท่ากับ 1 และเร็วมากกว่าเดิมถึง 100 เท่าเมื่อ batch size เท่ากับ 64
TensorRT นั้นได้ช่วย optimize และทำให้เกิด runtime engine สำหรับการ deploy แอปพลิเคชัน deep learning บนสภาพแวดล้อม Production ได้จริง โดยโมเดล Google’s Neural Machine Translation หรือ GNMT นั้นสามารถดำเนินการ inference ได้เร็วกว่าเดิม 60 เท่าเมื่อใช้ TensorRT บน Tesla V100 GPU หากเทียบกับการใช้แพลตฟอร์มที่ใช้เพียง CPU เท่านั้น
คุณสามารถอ่านรายละเอียดเพิ่มเติมได้ใน NVIDIA’s Developer Blog
Source : https://news.developer.nvidia.com/neural-machine-translation-now-available-with-tensorrt/