การสร้างเสียงสังเคราะห์ (artificial speech) กำลังได้รับการพัฒนาอย่างต่อเนื่อง ซึ่งแน่นอนว่า Google เป็นผู้นำในด้านนี้ ทางบริษัทก็ได้ล้ำหน้าไปอีกขั้นกับการเปิดตัวของ Tacotron 2 ซึ่งเป็นวิธีฝึกโครงข่ายประสาทเทียม (Neural Network) ให้สร้างเสียงสมจริงจากข้อความโดยแทบจะไม่ต้องพึ่งความเชี่ยวชาญด้านไวยากรณ์เลย
เทคนิคใหม่นี้เป็นการผสานรวมของโปรเจคการสร้างเสียงก่อนหน้าของ Google ทั้งสองอัน นั่นคือ WaveNet และ Tacotron โดยดั้งเดิม WaveNet นั้นสร้างเสียงโดยใช้ metadata ของภาษาเป็นจำนวนมากตั้งแต่การออกเสียง ลักษณะทางภาษาศาสตร์ และอื่นๆ ส่วน Tacotron นั้นสังเคราะห์ข้อมูลชั้นสูงมากขึ้น เช่น ทำนองเสียงและจังหวะ แต่ก็ยังไม่เหมาะกับการสร้างเสียงที่สมจริงนัก
Tacotron 2 ใช้องค์ประกอบของทั้งสองอย่างนี้ โดยใช้ข้อความและการเล่าเรื่องบรรยายของข้อความนั้นคำนวณกฎภาษาศาสตร์ทั้งหมดที่ระบบได้เรียนรู้มา ตัวข้อความนั้นจะถูกแปลงเป็น “mel-scale spectrogram” ในรูปแบบของ Tacotron เพื่อดูจังหวะและการเน้น ในขณะที่ตัวคำเองก็ถูกสร้างโดยใช้ระบบแบบ WaveNet
ผลลัพธ์เสียงที่ได้นั้นดีขึ้นกว่าแต่ก่อน จังหวะการพูดชัดเจน แม้อาจจะฟังขาดๆ ไปบ้าง โดยไปสะดุดกับคำที่การออกเสียงนั้นเป็นสำเนียงนอกเหนือจากภาษาอังกฤษแบบอเมริกัน เช่น คำว่า decorum ที่เน้นพยางค์แรก และในบางกรณีก็มีการออกเสียงแปลกๆ ไปบ้าง อย่างไรก็ดี ยังไม่มีวิธีควบคุมน้ำเสียงตามอารมณ์ได้ เช่น อารมณ์กังวล แม้ว่าจะสามารถผนวกสำเนียงและเรื่องละเอียดอ่อนอื่นๆ เช่นเดียวกับที่ทำได้กับ WaveNet