1
Speech synthesis1 insan konuşmasının yapay üretimidir. Bir bilgisayar sistemi bir konuşma synthesizer çağırılan bu amaç için kullandı Bir bilgisayar sistemi tamamlanın, yazılımda veya donanım tamamla olan bir konuşma synthesizeri çağırılan bir konuşma synthesizeri çağırılan bu amaç için kullandı ve Oldu. Bir metin--konuşma( TTS) Sistem konuşmaya normal dil metine çevirir; Diğer sistemler konuşmaya fonetik kopyalamalar gibi sembolik dilbilimsel göstermeleri icra eder. [ Alıntı ihtiyaç duydu]
Synthesized konuşma konuşmayı kaydedilen bir veritabanıda saklanan concatenating parçaları tarafından yaradan olur. Sistemler saklanmış konuşma birimlerinin büyüklüğünde ayrılır; mağaza telefonları olduğu bir sistem. veya Diphones en geniş çıktı aralığını sağlar , Fakat açıklık yoksun olabilir Belirli kullanım bilgi alanları için , tam kelimelerin deposu veya cümleler yüksek-kalite çıktıyı hesaba katar. Alternatif olarak , Bir synthesizer sese ait arazinin bir örneği ve diğer insan sesi özelliğini bir tamameni yaratmak için birleştirebilir" Sentetik" Çıktıyı dile getirin. [ Alıntı ihtiyaç duydu] Bir konuşma synthesizerin
The kalitesi insan sesine benzerliği tarafından , ve yeteneği tarafından anlaşılmış olmak için yargılanır. Kolay anlaşılır bir metin--konuşma program görsel impairmentsle insanlar veya okuma yetersizliklerine bir ev bilgisayarında yazılı işleri dinlemek için izin verir. Çok bilgisayar işletim sistemleri erken 1980sten beri konuşma synthesizersi içerdi. Metin processing 2 tarih
//
A metin--konuşma sistem( Veya" Motor" ) İki bölümünü birleştirilir mi: Bir ön-son ve bir arka-son. Ön-sonun iki majör görevleri var. İlk , O numaralar ve yazılı-dış kelimelerin karşılığına kısaltmalardan hoşlanan sembolları içeriyor olan çiğ metine çevirir. Bu işlem metin normalization , pre-processing , veya tokenizationu sık sık çağırılır. Ön-son her bir kelimeye fonetik kopyalamaları o zaman tayin eder ve böler ve Vezinsel birimlere metini isaretler , İfadeler , maddeler , ve cümlelerden hoşlanır. Kelimelere fonetik kopyalamalar tayin etmenin işlemi metin--sesbirim veya grapheme--sesbirim dönmeyi çağırılır. [ Alıntı ihtiyaç duydu] Fonetik kopyalamalar ve ölçü bilgisi ön-son tarafından çıktı olan sembolik dilbilimsel göstermene beraber hazırlanır. Arka-end—often synthesizer—then sese sembolik dilbilimsel göstermeye çevirdiği gibi başvurdu.
Long elektronik sinyalı icat edilen işlem yapıyor olmadan önce.
Long elektronik sinyalı icat edilen işlem yapıyor olmadan önce elektronik sinyalı insan konuşmasını yaratmak için işleyeni icat edilen icat edilen işlem yapıyor olmadan önce. , Konuşma araştırmacıları oluşturmayı denedi Erken örnekleri" Başlar konuşma" Aurillac 'ın Gerberd'i tarafından yapıldı mı( D. 1003 ilan) , Albertus Magnus( 1198–1280) , ve Evet domuz pastırması( 1214–1294) .
In 1779 , Danimarka dili bilim adamı hristiyanı Kratzenstein , bilimlerin Rus akademisindeki çalışma , beş uzun sesli harf seslerini üretebilen insan sese ait arazinin örneklerini oluşturdu( Uluslararası fonetik alfabe simgeleniminde , onlar[ AË] ,[ EË] ,[ İË] ,[ OË] Ve[ UË] ) . [ 1] Bu körük-operated tarafından takibetildi" Akustik-mekanik konuşma makinesi" Viyananın Wolfgang von Kempelen'i tarafından , Avusturya , bir 1791 kağıtta tanımladı. [ 2] Bu makine dilin örneklerini ilave etti ve Dudaklar , sesli harflar gibi ona ünsüzleri üretmek için bile imkan veriyor. 1837 'de , Charles Wheatstone biri üretti" Makine konuşma" Von Kempelen'in dizaynına dayalı , ve 1857 'de ki , M. Faber oluşturdu" Euphonia" . Wheatstone'nin dizaynı Paget tarafından 1923 'te yeniden dirildildi. [ Alıntı ihtiyaç duydu]
In 1930s , çan laboratuarları açıkça kolay anlaşılır olmak için söylenen VOCODER , bir klavye-operated elektronik konuşması çözümleyicisi ve synthesizeri geliştirdi. Yuvasına dönen güvercin Dudley onun, 1939 New York dünyanın dürüsdünde sergilediği VODER 'a bu cihaz ,ı arıttı.
The örnek tekrarı Dr tarafından oluşturuldu. Franklin S. Cooper ve geç 1940staki Haskins laborotuarlardaki meslektaşları ve 1950 'da tamamladı. Bu donanım cihazının birkaç farklı versiyonları vardı fakat Yalnızca olan şu anda kurtulur. Sese bir spectrogram arkanın formundaki konuşmanın akustik örneklerinin makine dönmeler resimleri. Bu cihaz kullanma , Alvin Liberman ve meslektaşlar fonetik parçaların algısı için akustik işaretleri keşfetebildi( Ünsüzler ve sesli harflar) .
Early elektronik konuşması synthesizers robotici çaldı ve Sık sık ancak kolay anlaşılırdı. bununla beraber Kalitesi geliştirilen konuşmanı durmadan sentezledi , Ve çağdaş konuşma sentezi sistemlerinden çıktı gerçek insan konuşmasından bazen seçilemezdir.
The ilk bilgisayar tabanlı konuşma sentezi sistemleri geç 1950sta yaradıldı , Ve ilk tam metin--konuşma sistem 1968 'de tamamlandı. 1961 'de , Fizikçi John Larry Kelly , Jr bir IBM 704 bilgisayarı çan laboratuarları tarihinde en ünlünün arasında bir olay , konuşmayı sentezlemek için kullandı. Kelly'in ses teyp synthesizeri( Vocoder) Şarkıyı canlandırdı" Papatya çanı" , Max Mathews 'ten ahenkli eşlikle. Coincidentally , Arthur C. Clarke arkadaşını ziyaret ediyordu ve Meslektaş John çan laboratuarları Murray tepe tesisinde deler. Clarke bu yüzden Onun, yeni 2001i için senaryosunun climactic sahnesinde onu kullandığı kanıtlama tarafından etkiledi: Bir uzay Odyssey ,[ 3] Nerede HAL 9000 bilgisayar o astronot Dave okçu uyumak için saklayan oluyor olduğun ile aynı şarkı şarkı söyler. [ 4] Sadece elektronik konuşması sentezinin
Despite başarısı , araştırma humanoid robotlarda kullanmak için mekanik konuşma synthesizerse davranılan hala oluyor. Hatta mükemmel bir elektronik synthesizer güç çeviricinin kalitesi tarafından sınırlanır( Ekseriyetle bir hoparlör) O küçük bir hoparlörden sesi üretir , Bu yüzden , bir robottaki , mekanik bir sistem daha fazla doğal bir sesi üreten yapabilen olur. [ Alıntı ihtiyaç duydu] Bir konuşma sentezi sisteminin
The en önemli kaliteleri doğallık ve anlaşılırlıktır. Doğallık anlaşılırlık çıktının, anlaşılmış olan kolaylık iken çıktının, yakından insan konuşması gibi , nasıl çaldığını tanımlar. İdeal konuşması synthesizer her ikisi doğaldır ve Kolay anlaşılır ve çoğu konuşma sentezi sistemleri her ikisi özelliği yükseltmeyi dener. [ Alıntı ihtiyaç duydu] Sentetik konuşma waveforms üretme için
The iki ilk teknoloji concatenative sentez ve formant sentezdir. Her bir teknolojinin güçleri var ve Zayıflıklar , ve bir sentez sisteminin kasıtlı kullanmaları yaklaşmanın, hangi kullandığını tipik olarak belirleyecek.
Concatenative sentez concatenationa dayalıdır( Veya stringing beraber) Parçalarınını konuşmayı kaydetti. , concatenative sentez konuşmayı sentezlenen çoğu doğal-soundingi genellikle üretir. Bununla beraber , konuşmadaki doğal değişmeler arasında ayrılıklar ve bölümleme waveforms için otomatik tekniklerin doğası çıktıda işitilebilir glitchesle bazen sonuçlanır. Concatenative sentezin üç ana alt-tipleri var.
Unit seçme sentezi konuşmayı kaydedilen geniş veritabanılarını kullanır. Veritabanı yaratılışı boyunca , Söyleyiş kaydedilen her bir Bazıya segmented veya takip edenin tamamıdır: Kişisel telefonları , heceler , morfemler , kelimeler , ifadeler , ve cümleler. , parçalara bölüm özel olarak modifiye edilmiş bir konuşma recognizer kavga bir kullanmayı tipik olarak yapılır" Mecburi sıraya koyma" Mod bazı elkitabı düzeltme sonra , Görsel göstermeler meselâ waveform ve spectrogramı kullanıyor. [ Alıntı ihtiyaç duydu] Konuşma veritabanısındaki birimlerin bir indeksi kesimlemeye dayalı o zaman yaradılır ve Akustik parametreler esas sıklıktan hoşlanır( Saha) , devam , hecedeki pozisyon , ve telefonlara komşu oluyor. Çalışma aşamasında , arzu edilmiş hedef söyleyişi veritabanıdan aday birimlerinin en iyi zinciri belirleme tarafından yaradılır( Birim seçmesi) . Bu işlem özel olarak bir weighted karar üç kullanmayı tipik olarak başarılır.
Unit seçme en muhteşem doğallığı sağlar , Çünkü o dijital sinyal işlem yapmasının yalnızca küçük bir miktarına başvurur( DSP) Kaydedilmiş konuşmaya. DSP bazı sistemler waveformu düzlemek için concatenationun tam o zamanı işlem yapıyor olan sinyalın küçük bir miktarını kullanmasına rağmen kaydedilmiş konuşma sağlam daha az doğal ,ı sık sık yapar. En iyi birim-seçme sistemlerden çıktı TTS sistemin, ayarlanmış olan özellikle gerçek insan insan seslerinden sık sık seçilemez , bağlamlardadır. bununla beraber Maksimum doğallık birim-seçme konuşma veritabanılarını çok geniş olmak için tipik olarak gerektirir , Bazı sistemlerde veri kaydedilen gigabytesine diziyor , Konuşma saatlarının düzinelerini gösteriyor. [ Alıntı ihtiyaç duydu]
Diphone sentez tüm diphonesi içeriyor olan en az bir konuşma veritabanısını kullanır( Ses--ses geçişler) Bir dildeki olma. Diphonesin numarası dilin phonotacticsine bağlı olur: örneğin İspanyolcanın. diphone sentez , her bir diphonenin yalnızca olan örneği konuşma veritabanısında içerilir. Çalışma aşamasında , Bir cümlenin hedef ölçüsü teknikler meselâ çizgisel predictive kodlama , PSOLA veya MBROLA işlem yapıyor olan dijital sinyalın aracılığıyla Bu en az birimlerde üzerine koydu. [ Alıntı ihtiyaç duydu] Sonuçlanma konuşmasının
The kalitesi birim-seçme sistemlerin osu , fakat daha fazla doğal-sounding formant synthesizersin çıktısıdandan genellikle kötü. Diphone sentez concatenative sentezin sonik glitchesinden ıstırap çeker ve Formant sentezin robotic-sounding doğasının , ve hem yaklaşma başka küçük büyüklüğün avantajlarının azı var. , Ticari uygulamalarındasındaki kullanmak ticari uygulamalarındasındaki kullanmak ,a azalıyor , Ticari uygulamalarındasındaki kullanmak ticari uygulamalarındasındaki kullanmak ,a azalıyor çünkü Var. çünkü O araştırmada kullanılmış olmak için devam etmesine rağmen var. , Ticari uygulamalarındasındaki kullanmak ticari uygulamalarındasındaki kullanmak ,aya azalıyor
Domain-belirli sentez concatenates prerecorded kelimeler ve tam söylemeleri yaratmak için uygun şekilde anlatır. O metin sistemi çıktının çeşitliliğinin, özel bir bilgi alanına nerede sınırladığı uygulamalarda kullanılır. , Ulaşım programı ilanları veya hava raporlarından hoşlanılır Teknoloji tamamlamak için çok basittir ve Uzun bir zaman için kullanan ticaride oldu , Cihazlarda saatlar konuşma ve hesap makinalarından hoşlanır. Bu sistemlerin doğallığının düzeyi çok yüksek olabilir çünkü Cümle tipleri çeşitliliği sınırlanır ve Onlar ölçü ve orijinal kayıtların ses ahengisiyle yakından uyuşurlar. [ Alıntı ihtiyaç duydu] çünkü Bu sistemler kelimeler tarafından sınırlanır ve Veritabanılarındaki ifadeler , Onlar genel amaç değiller ve Onların, preprogrammed oldıkları kelimelerin birleşimleri ve ifadeleri yalnızca sentezleyebilir.
Formant sentez çalışma aşamasında deneyen insan konuşmasını kullanmaz. , sentezlenmiş konuşma çıktısı akustik bir örnek kullanmayı yerine yaradılır. Parametreler meselâ esas sıklığı , dile getiriyor , Ve gürültü yapay konuşmanın bir waveformunu yaratmak için zamanın üzerinde değişilen düzeltir. Bu yöntem yönetimler-based sentezi bazen çağırılır; Bununla beraber , çok concatenative sistemlerin hatta yönetimler-based bileşenleri var. Formant sentez teknolojisine dayalı
Many sistemler asla benzetilmiş insan konuşması olmayacak olmayan yapay , robotic-sounding konuşmanı üretir. bununla beraber Maksimum doğallık her zaman bir konuşma sentezi sisteminin gayesi değildir , Ve formant sentez sistemlerinin concatenative sistemlerin üzerinde avantajları var. Formant-synthesized konuşma reliably kolay anlaşılır olabilir , Çok yüksek hızlarda , akustik glitches o commmonly bela concatenative sistemlerden hatta kaçınıyor. Yüksek hızlı bir ekran okuyucusunu kullanıyor olan bilgisayarlara inceleyen çabucağa bozan visually tarafından kullanan konuşma sentezledi. [ Alıntı ihtiyaç duydu] Formant synthesizers concatenative sistemlerin çünkü onların yapmadıklarından ekseriyetle daha küçük programlardır. Onlar sistemler , iyice yerleştirilen kullanılmış o yüzden olurlar ve Mikroişlemci güçü nerede bellek olduğunu özellikle sınırlanır. [ Alıntı ihtiyaç duydu] çünkü Formant-based sistemlerin çıktı konuşmasının tüm görünüşlerinin tam kontrolu var , Ölçülerin geniş bir çeşitliliği ve Ses ahengleri çıktı olabilir , Sadece sorular ve ifadeler , fakat duyguların bir çeşitliliği ve özelleştirmeyi taşıyor. Non-gerçek-zamanın
Examplesi fakat Formant sentezdeki çok doğru ses ahengi kontrol & amperi konuşan Texas alet oyuncağı için iş yorgun bitkin geç 1970sı içerir; Büyü , ve erken 1980s Sega arkat makinalarındaki. [ 5] Bu projeler için uygun ses ahengi yaratma özenliydi , Ve sonuçların gerçek-zaman metin--konuşma arayüzler tarafından uyuşan olmak için henüz.
Articulatory sentez insan sese ait arazinin örneklerine dayalı konuşma sentezleme için sayısal tekniklere başvurur ve Net telaffuz işlemleri orada oluyor. İlk mafsallı synthesizer Philip Rubin tarafından ortası-1970sta Haskins laborotuarlarda , Tom Baer , ve Paul Mermelstein geliştirilen laborotuar deneyleri için düzenli olarak kullandı. Bu synthesizer , bilinen , ASY gibinin, 1960sta çan laborotuarlarında ve Paul Mermelstein tarafından 1970s , Cecil Coker , ve meslektaşlar geliştiren sese ait arazi örneklerine dayalıydı.
Articulatory sentez geçenlerdeye kadar akademik ilginini çoğunlukla oldu. [ Alıntı ihtiyaç duydu] Bu örneklerin azı ticari konuşması sentezi sistemlerinde kullanılmış olmak için şu anda kâfi derecede gelişmiş veya computationally verimlidir. Dikkate değer bir istisna geliştiren özgün biçimde sonraki-based sistemdir ve Orijinal araştırmanın çoğu nerede davrandığı Trillium ses araştırması tarafından , Calgary 'ın üniversitesinin bir değiştirme-off şirketi , mal sattı. Sonrakinin çeşitli vücut bulmalarının vefadı takibetme( Steve işler geç 1980s tarafından çalışmaya başlattı ve 1997 'de elma bilgisayarıyla birleşti) , Trillium yazılım bir öküz başlı kıvrık boynuzlu genel halk Licence 'nin altında yayımlandı , İşle gnuspeech gibi devam ediyor. Sistem , İlk 1994 'te mal sattı , Bir waveguide kullanıyor olan mafsallı-based metin--konuşma dönmeni tamamen sağlar veya İnsan sözlünün iletim-çizgi benzeri ve buruna ait araziler Carré'ın tarafından idare eder" Farklı bölge örneği" .
HMM-based sentez modelini yapan gizli Markov 'a dayalı bir sentez yöntemdir. Bu sistemde , sıklık tayfı( Sese ait arazi) , esas sıklık( Sese ait kaynak) , ve devam( Ölçü) Konuşmanını HMMs tarafından eş zamanlı olarak modelini yapılır. Konuşma waveforms maksimum olasılık kriterine dayalı HMMs kendileriden üretilir.
Sinewave sentez formants değiştirme tarafından konuşma sentezleme için bir tekniktir( Enerjinin ana şeritleri) Saf ton düdükleriyle. Metin normalleştirmenin
The işlemi nadiren apaçıktır. Metinler heteronymsla dolu , numaralar , ve fonetik bir göstermeye kısaltmalar o tüm gerektirme genişletmedir. İngilizce 'de ki çok imla başka şekilde bağlama dayalı telaffuz edilen var. Örneğin ," En son projem nasıl proje daha iyi sesimileceği öğrenmektir" İki telaffuzunu içerir" Proje" .
Most metin--konuşma( TTS) Sistemler giriş metinlerinin anlama ait göstermeleri ,ı üretmez bu yüzden Güvenilir değildir , Yapma için işlem yaptığı gibi , veya computationally etkiliyi iyi anladı. Çeşitli keşfe yarayan teknikler disambiguate homographsa uygun yol tahmin ederdi , Komşu olma kelimeler incelemeden hoşlanırdı ve bir sonuç gibi oluş sıklığı hakkında istatistiği kullanıyor.
Deciding dönme numaraları adrese TTS sistemler olduğu nasıl başka problemileceği. O programlıyor olan basit birdir , Kelimelere bir numaraya çevirmek için meydan okuyandan hoşlanıyor" 1325" Oluş" Bir bin üç yüz yirmi-beş. " Bununla beraber , numaralar çok farklı bağlamda olur; Bir adresin bölümü , ne zaman" 1325" Okuyan muhtemelen olur mu" On üç yirmi-beş" , veya , bir sosyal sigorta numarasının bölümü , iken" Bir üç iki beş" . Bir TTS sistem eğer o belirsiz olursa etraftaki kelimelere dayalı bir numarayı nasıl genişletileceğini sık sık anlayabilir. , Numaralar , ve noktalama , ve sistem bir yolu bağlamı belirtmek için bazen sağlar [ Alıntı ihtiyaç duydu]
Similarly , kısaltmalar belirsiz olabilir. Örneğin , kısaltma" " " Puslar" Kelimeden" " . Zeki ön sonlarıyla TTS sistemler belirsiz kısaltmalar hakkında eğitimli tahminler ,ı yapabilir , Diğerleri tüm durumlarla sonuçlanan aynını sağla saçmayla sonuçlanıyor( Ve bazen komik) Çıktılar.
1
Speech synthesis1 sistemler bir işlem , imlasına dayalı bir kelimenin telaffuzunu belirlemek için sık sık metin--sesbirim veya grapheme--sesbirim dönmeyi çağırılana yaklaşan iki temeli kullanır( Sesbirim bir dilde farklı sesleri tanımlamak için dilbilimciler tarafından kullanan dönemdir) . Metin--sesbirim dönmeye en basit yaklaşma sözlük-based yaklaşma ,dir ve Doğru telaffuzları geniş bir sözlüğün, bir dilin tüm kelimelerini nerede içerdiği program tarafından saklanır. Her bir kelimenin doğru telaffuzu belirleme sözlükte her bir kelime bakmanın bir sorunudur ve Sözlükte belirdilen telaffuzla imlanı değiştiriyor. Diğeri yaklaşması telaffuz yönetimlerinin, imlalarına dayalı telaffuzlarını belirlemek için kelimelere başvurulan olduğu kural-baseddir. Bu benzerdir" Dış çalma" , veya sentetik phonics , öğrenme readingilizceye yaklaşır:
Each yaklaşmanın avantajları ve sakıncaları var. Sözlük-based yaklaşma çabuktur ve Eğer o sözlüğünde olmayan bir kelimeni verilen olsaydı doğru , fakat tamamen başarısız olur. [ Alıntı ihtiyaç duydu] Sözlük büyüklüğü büyüdüğü gibi sentez sisteminin bellek uzay gereksinimlerini çok dahi yapar. diğer taraftan Kural-based yaklaşma herhangi bir girişte çalışır fakat Yönetimlerin karmaşıklığı sistem düzensiz imlalar veya telaffuzları hesaba kattığı gibi esasen büyür. ( O kelimeyi düşünün" " Çok yaygın İngilizce 'de mi , Henüz hangisi mektupta yalnızca kelimedir" F" Telaffuz edilir mi[ V] . ) Neredeyse tüm konuşma sentezi sistemleri bir sonuç gibi Bu yaklaşmaların bir birleşimini kullanır.
Some diller , İspanyolcadan hoşlanın , Çok düzenli bir yazı sistemi var , Ve imlalarına dayalı kelimelerin telaffuzunun tahmini tamamen başarılıdır. [ Alıntı ihtiyaç duydu] Bunun gibi diller için 1
Speech synthesis1 sistemler kural-based yöntemi sık sık geniş surette kullanır , Şu az kelime için sözlüklere yalnızca gidiyor , Yabancı adları ve borç almalar ,den hoşlanıyor ki telaffuzları imlalarından açık. diğer taraftan Diller için konuşma sentez sistemler İngilizce ,den hoşlanır , sözlüklerinde olmayan aşırı derecede düzensiz imla sistemleri var olan kelimeler veya , alışılmadık kelimeler için kural-based yöntemler kullanmak için ve , sözlüklere güvenmek için yalnızca daha fazla muhtemeldir. Bir işletim sistemine tamamlanan
The ilk konuşma sistemiyle çıkış yerleri Elma bilgisayarın 1984 'te bilgisayarın MacInTalğıydı. Erken 1990sın çoğu boyunca , elma insan sesleri sentetikti. Daha fazla , elma dile getiren sample-basedi geçenlerde ilave etti. Başlama bir merak gibi. , Elma Macintosh 'un konuşma sistemi bir tamamen-supported programa , vizyon problemleriyle insanlar için PlainTalk sonunda geliştirdi Gelişmiş konuşma sentezi kabiliyetleriyle
The ikinci işletim sistemi AmigaOSdı , 1985 'te içeri soktu. Ses sentezi bir üçüncü-parti yazılım evinden tuğamiral uluslararası tarafından izin verildi( Yazılım , Softvoice , Inc'i şimdi sorma. ) ve O her ikisi erkekle ses benzemesinin tam bir sistemi ve dişi insan sesleri veyi karakterize etti" Stres" Gösteren şey markacıları , amiga donanımı işitsel yonga setinin gelişmiş özellikleri tarafından mümkünü yaptı. [ Alıntı ihtiyaç duydu] O bir anlatıcı cihazına ve bir çevirmen kütüphanesi bölündü. Amiga bir metin--konuşma çevirmeni karakterize edilen işleyicini konuşur. AmigaOS konuşma sentezi sanal bir donanım cihazını düşündü , Bu yüzden kullanıcı ona çıktıyı avudanı hatta yeniden salık verir. Bazı amiga programları , meselâ kelime işlemciler , konuşma sisteminin geniş kullanmasını yaptı.
Modern pencereler sistemleri bir konuşma tanıması motorunu içeren SAPI4- ve SAPI5-based konuşma sistemlerini kullanır( SRE) . SAPI 4.0 pencereler 95 gibi Microsoft-based işletim sistemlerinde müsait ve pencereler 98di. Pencereler XP anlatıcı , kullanıcılara doğrudan müsaidi çağırılan bir konuşma sentezi programını karakterize etti. Tüm pencereler-uyuşan programlar konuşma sentezi özelliklerini kullanabildi , Menülerden geçerek müsait sistemde bir defa kurdu. Microsoft konuşma sunucusu ses sentezi için tam bir paket ve ticari uygulamaları meselâ bağırma merkezleri için tanımadır.
Recently , web sitesiteleri meselâ Bluemountain. Com bir bilgisayar-generatedden ısmarlama sese ait salamları üretmek için dile getiren bir kullanıcına izin veren eCardsı karakterize etti. Bunlar eCards pre-yapılmış şekillerden ekseriyetle oluşur , Fakat bazı kullanıcı isterse kullanıcıya bir resimini seçmek için izin verir[ 6] . ECardsın tamamı kullanıcıya bilgisayarın kelime haznesini seçmek için izin verir.
A numarası bir XML-yumuşak başlı formatta konuşma gibi metin tercümesi için kurulmuş. En yeni konuşma sentezi fiyat yükselişi dilidir( SSML) 2004 'te bir W3C tavsiye olan ,. Daha eski konuşma sentezi fiyat yükselişi dilleri Java konuşması fiyat yükselişi dilini içerir( JSML) Ve samur. Onların hiç birisi bunların her biri bir standart gibi teklif edilmiş olmasına rağmen geniş çapta benimsenmemiş.
1
Speech synthesis1 fiyat yükselişi dilleri diyalog fiyat yükselişi dillerinden ayırt edilir. VoiceXML örneğin Konuşma tanıması , diyalog yönetimi ve metin--konuşma fiyat yükselişine ek olarak tuşlu telefon numara çevirmeyle ilgili olulan etiketleri içerir.