Amazon baru saja meluncurkan model kecerdasan buatan generatif terbaru mereka, Nova Sonic, yang dirancang untuk merevolusi cara komunikasi manusia dengan asisten digital. Model suara ini mampu memproses suara secara native dan menghasilkan ucapan yang lebih alami dibandingkan model-model suara sebelumnya, termasuk Amazon Alexa. Dalam sebuah laporan yang diterbitkan oleh TechCrunch pada 9 April 2025, Nova Sonic dihadirkan sebagai solusi untuk meningkatkan interaksi manusia dan teknologi yang lebih responsif dan realistis.
Sebagai upaya untuk menjawab tantangan dari model suara AI yang lebih canggih, Amazon mengembangkan Nova Sonic untuk menawarkan kualitas suara yang jauh lebih baik. Hal ini membuat asisten digital lama, seperti Alexa dan Siri dari Apple, terlihat kalah bersaing dalam hal akurasi dan kemampuan beradaptasi dalam berbicara. “Nova Sonic dirancang untuk mengubah cara interaksi pengguna dengan teknologi, dengan struktur yang memungkinkan pemrosesan konteks yang lebih baik,” ujar Rohit Prasad, Senior Vice President sekaligus Kepala Ilmuwan AGI Amazon, dalam konferensi pers.
Nova Sonic tidak hanya hadir dengan kemampuan suara yang lebih baik, tetapi juga menggunakan platform Bedrock, yang merupakan generasi terbaru dari pengembangan aplikasi AI Amazon. Melalui API streaming dua arah yang baru, pengembang dapat mengakses kemampuan Nova Sonic dengan lebih mudah. Amazon mengklaim bahwa model suara ini memiliki biaya operasional yang jauh lebih rendah dibandingkan dengan model lain di pasaran, dengan biaya sekitar 80% lebih hemat dibandingkan GPT-4o milik OpenAI.
Salah satu fitur unggulan dari Nova Sonic adalah kemampuan untuk mengarahkan permintaan pengguna ke berbagai Application Programming Interfaces (API). Ini berarti model ini dapat mengambil informasi dari internet secara real-time, menggunakan data internal, atau berinteraksi dengan aplikasi eksternal secara efisien. Selain itu, Nova Sonic mampu mengerti percakapan dua arah dan menunggu untuk berbicara pada waktu yang tepat, dengan mempertimbangkan jeda dan interupsi yang terjadi selama berkomunikasi.
Keunggulan Nova Sonic dalam pengenalan suara juga sangat menonjol. Menurut klaim Amazon, model ini lebih tahan terhadap kesalahan pengenalan ucapan daripada model suara AI lainnya. Nova Sonic dapat memahami dan merespons ucapan dengan baik, meski pengguna berbicara cepat, salah dalam pengucapan, atau berada dalam lingkungan yang bising. Pada tolok ukur Multilingual LibriSpeech, contohnya, model ini mencatatkan rasio kesalahan kata (WER) hanya 4,2% untuk beberapa bahasa utama seperti Inggris, Prancis, Italia, Jerman, dan Spanyol. Angka ini menunjukkan bahwa sekitar empat dari seratus kata yang diucapkan berbeda dari transkripsi manusia.
Dalam tolok ukur Augmented Multi Party Interaction, Nova Sonic menunjukkan akurasi 46,7% lebih tinggi dibandingkan dengan model transkripsi yang setara seperti GPT-4o OpenAI. Model ini juga menunjukkan latensi terdepan dalam industri, dengan waktu respons rata-rata hanya 1,09 detik, lebih cepat daripada model GPT-4o yang memerlukan waktu 1,18 detik untuk memberikan respons.
Peluncuran Nova Sonic merupakan bagian dari strategi jangka panjang Amazon dalam mengembangkan kecerdasan umum buatan atau artificial general intelligence (AGI). Tujuan ini mencakup pembangunan sistem AI yang mampu melakukan segala hal yang dapat dilakukan manusia di komputer, termasuk dalam pengolahan berbagai modalitas seperti gambar, video, suara, dan data sensorik lainnya. Ke depannya, Amazon berencana untuk merilis lebih banyak model AI yang akan terintegrasi ke dalam dunia fisik, memperluas kemampuan interaksi pengguna dengan teknologi, dan memberikan pengalaman yang lebih menyeluruh dan intuitif.
Dengan peluncuran Nova Sonic, Amazon mengukuhkan posisinya sebagai pemimpin dalam inovasi teknologi AI, menawarkan kemampuan yang tidak hanya efisien, tetapi juga mampu meningkatkan interaksi manusia dan mesin dengan cara yang lebih alami dan menyenangkan.