การพัฒนา Large Language Model หรือ LLM ซึ่งเป็นโมเดลปัญญาประดิษฐ์เบื้องหลังการทำงานของ Generative AI นั้นต้องใช้ข้อมูลปริมาณมหาศาล และเพื่อให้ LLM ทำงานได้อย่างถูกต้องแม่นยำ ข้อมูลคุณภาพสูงจึงเป็นที่ต้องการเพิ่มขึ้น The New York Times รายงานว่าOpenAI ได้มีการใช้ Whisper เครื่องมือถอดคำในการถอดคำจากวิดีโอบน YouTube นำมาเทรนโมเดล GPT-4
Whisper เป็นเครื่องมือ AI สำหรับการถอดคำจากไฟล์เสียงที่ OpenAI พัฒนาขึ้นซึ่งสามารถถอดคำพูดจากไฟล์เสียงบทสนทนาทั่วไปได้อย่างแม่นยำ The New York Times รายงานว่า OpenAI กำลังใช้เครื่องมือตัวนี้ถอดคำจากวิดีโอบน YouTube เพื่อนำข้อมูลที่ได้มาเทรนโมเดล GenAI ให้ดียิ่งขึ้น
เหตุหนึ่งที่ OpenAI ต้องทำเช่นนี้ ก็เพราะว่าในปัจจุบันข้อมูลที่เปิดเป็นสาธารณะส่วนใหญ่นั้นได้ถูกใช้งานในการเทรน GenAI ไปหมดแล้ว ไม่ว่าจะเป็นหนังสือ แบบเรียน ข้อสอบ โค้ดโปรแกรมมิ่งจาก Github ข้อมูลในฐานข้อมูลหมากรุก โดย The New York Times รายงานว่า OpenAI ได้ใช้ข้อมูลที่มีประโยชน์เท่าที่จะหาได้ไปหมดแล้วตั้งแต่ช่วงปี 2021 ส่งผลให้พวกเขามองหาชุดข้อมูลใหม่ๆอย่างต่อเนื่อง
โฆษกของ OpenAI กล่าวกับ The Verge ว่าพวกเขานั้นเลือกสรรชุดข้อมูลที่เป็นเอกลักษณ์มาพัฒนาโมเดล AI เพื่อช่วยให้ AI เข้าใจโลกได้มากขึ้นและเพิ่มความสามารถในการแข่งขัน โดยระบุว่า OpenAI ใช้แหล่งข้อมูลที่หลากหลาย ทั้งข้อมูลที่เปิดเผยต่อสาธารณะและข้อมูลจากพาร์ทเนอร์ รวมไปถึงการสังเคราะห์ข้อมูลใหม่ขึ้นมาเช่นกัน
อย่างไรก็ตาม การทำเช่นนี้นั้นละเมิดข้อตกลงการใช้งานของ YouTube โดยในกรณีคล้ายๆกันที่มีรายงานออกมาว่า Sora จาก OpenAI นั้นใช้ข้อมูลจากวิดีโอยูทูปในการพัฒนา Neal Mohan – CEO แห่ง YouTube ได้กล่าวว่า Google จะมีมาตรการเชิงเทคนิคและทางกฎหมายเพื่อป้องกันการนำข้อมูลไปใช้โดยไม่ได้รับอนุญาต
ด้าน Google นั้นมีการใช้ข้อมูลที่ถูกถอดคำมาจาก YouTube ในการเทรน AI เช่นกัน ทว่าโฆษกของ Google กล่าวว่าเป็นเพียงบางวิดีโอเท่านั้น และได้มีข้อตกลงร่วมกับครีเอเตอร์เจ้าของวิดีโอเหล่านั้นแล้ว
ที่มา:
- OpenAI transcribed over a million hours of YouTube videos to train GPT-4
- How Tech Giants Cut Corners to Harvest Data for A.I.
Cover Photo: Omar Al-Ghosson