Ağustos ayında Meta, metin için yaklaşık 100 dili ve konuşma için 36 dili destekleyen çok modlu yapay zeka çeviri modeli SeamlessM4T’yi tanıtmıştı. Güncellenmiş bir mimariyle teknoloji devi, konuşma çevirilerini daha spontane ve anlamlı hale getirmek için şimdi bu aracı genişletiyor.

İki yeni özellikten ilki, çevrilmiş konuşmaları düzenleyen “Sorunsuz İfade Edici” olarak adlandırılacak. Bunlar ses tonunuzu, duygusal tonunuzu (heyecan, üzüntü veya fısıltılar), konuşma hızınızı ve duraklamalarınızı içeren özelliklere odaklanacak. Yani siz konuşurken duygulanırsanız ya da üzülürseniz bunları da alt yazı olarak sunacak. Çevrilen konuşmaların şimdiye kadar kulağa hep robotik geldiği göz önüne alındığında, bu atılımın hem günlük yaşamlarımızda hem de içerik üretiminde potansiyel olarak ezber bozan bir gelişme olduğu söylenebilir. Desteklenen diller arasında İngilizce, İspanyolca, Almanca, Fransızca, İtalyanca ve Çince bulunmakta.

Meta

İkinci özellik ise, konuşmacı hala konuşurken bir konuşmayı tercüme etmeye başlayan ve böylece diğerlerinin tercümeyi daha hızlı duymasını sağlayan “Kesintisiz Akış” olarak adlandırılacak. Hala iki saniyenin biraz altında kısa bir gecikme süresi söz konusu, ancak en azından birinin cümlesini bitirmesini beklemek zorunda kalmayacaksınız. Meta’ya göre buradaki zorluk, farklı dillerin farklı cümle yapılarına sahip olması. Dolayısıyla çevrilmiş bir çıktı oluşturmaya başlamak için yeterli bağlamın olup olmadığına veya dinlemeye devam edilip edilmeyeceğine karar vermek için kısmi ses girdisini incelemeye adanmış bir algoritma geliştirmek zorundaydı.

Kaynak: TELE1