
Xiaomi MiMo-V2.5 Ses Teknolojisi ile Yapay Zekada Yeni Dönemi Başlatıyor
Xiaomi, Xiaomi MiMo-V2.5 ses teknolojisi ailesini resmen tanıtarak yapay zeka ajanları döneminde sesli iletişimi yeniden tanımlayacak adımı attı. Şirketin 23-24 Nisan 2026’da duyurduğu bu yeni seri, konuşma sentezinden (TTS) ses tanımaya (ASR) kadar uzanan bütüncül bir yapı sunuyor. Daha bir ay önce MiMo-V2 serisini tanıtan Xiaomi, bu kez işin ses boyutuna odaklanarak geliştiricilere ve son kullanıcılara çok daha doğal bir deneyim vaat ediyor. Xiaomi kurucusu Lei Jun, modellerin yayınlanmasının ardından yaptığı kısa paylaşımda “Gelişmeye devam ediyoruz!” ifadelerini kullandı.
Üç Farklı TTS Modeli: VoiceDesign ve VoiceClone Öne Çıkıyor
MiMo-V2.5-TTS Serisi, üç ayrı modelden oluşuyor ve her biri farklı bir ihtiyaca cevap veriyor. Temel MiMo-V2.5-TTS modeli, konuşma hızı, tonlama, duygu ve vurgu gibi parametreler üzerinde kapsamlı kontrol sağlıyor. Kullanıcılar, tıpkı bir seslendirme yönetmeni gibi doğal dil komutlarıyla (Director Mode) modele istediği tarzı dikte edebiliyor. Model, herhangi bir komut verilmese bile düz metindeki noktalama işaretlerine ve duygusal geçişlere duyarlı bir okuma performansı sergiliyor.
Serinin asıl yıldızları ise VoiceDesign ve VoiceClone. VoiceDesign, herhangi bir referans sese ihtiyaç duymadan, yalnızca metinle tarif ettiğiniz yaş, cinsiyet, aksan veya karakter özelliklerine uygun yepyeni bir ses profili yaratabiliyor. VoiceClone ise 30 saniye gibi kısa bir ses örneğinden hedef konuşmacının sesini yüksek doğrulukla kopyalayabiliyor. Bu modeller, oyun NPC’lerinden sanal asistanlara, sesli kitap prodüksiyonundan içerik üretimine kadar geniş bir alanda kullanılabilecek.
ASR Modeli Açık Kaynak Kodlu Olarak Yayınlandı
Ses girişi tarafında konumlanan MiMo-V2.5-ASR modeli, yayınlandığı an itibarıyla model ağırlıkları ve koduyla birlikte açık kaynak haline getirildi. ASR modeli, arka planda yüksek gürültü olsa bile konuşmayı ayırt edebiliyor. Çince ve İngilizce arasında dil etiketi gerektirmeden otomatik geçiş yapabilmesi, çok dilli ortamlarda büyük kolaylık sağlıyor.
Bununla da kalmıyor; Wu, Kantonca, Minnan ve Sichuan gibi Çince lehçelerini tanıyabiliyor. Çoklu konuşmacının olduğu toplantı kayıtlarında kimin ne söylediğini ayırt ederek noktalama işaretleriyle birlikte kullanıma hazır transkript metinler üretebiliyor. Hatta müzikle karışık vokallerde dahi şarkı sözlerini metne dökebiliyor.
Geliştiriciler İçin Kapılar Açık
Xiaomi, bu yeni modelleri MiMo Studio ve MiMo API platformu üzerinden geliştiricilerin kullanımına sundu. TTS modellerine şimdilik ücretsiz erişim imkanı tanınıyor. ASR modelinin açık kaynaklı olması ise topluluk katkısıyla modelin daha da gelişmesinin önünü açıyor. Şirket, bu hamlesiyle ses teknolojileri alanındaki rekabette agresif bir konum alırken, sunduğu esnek fiyatlandırma planlarıyla da bireysel geliştiriciden kurumsal ölçeğe kadar herkesi hedefliyor. hedefbilgitoplumu.com
