Synthèse par sélection dynamique des unités





télécharger 77.34 Kb.
titreSynthèse par sélection dynamique des unités
date de publication10.11.2017
taille77.34 Kb.
typeThèse
m.20-bal.com > droit > Thèse








Synthèse par sélection dynamique des unités

Etude bibliographique dans le cadre du projet SYMPATEX

Ref. : 0610A



Sommaire



1. Introduction 3

2. Sélection dynamique des unités 4

2.1. De la sélection statique à la sélection dynamique 4

2.2. Problématique 4

2.3. Fonctions de coût 5

3. Les systèmes de recherche et les systèmes industriels 7

3.1. Le système CHATR 7

3.2. Le système CNET-Elan Informatique 7

3.3. Le système Next-Gen TTS ou Speechify 8

3.4. Le système Actor 9

3.5. Le système RealSpeak 9

3.6. Le système rVoice 10

3.7. Le nouveau système FT R&D 10

4. Le nouveau système ELAN 12

4.1. Le corpus 12

4.2. Le synthétiseur 12

4.3. Perspectives 13

5. Conclusion 14

Bibliographie 15

Sites web 18

1. Introduction



Le projet SYMPATEX étudie une nouvelle technique de codage de la parole par indexation d’unités de taille variable. Cette nouvelle technique originale s’inscrit dans la famille des codeurs à très bas débit [2], en combinant les principes de la reconnaissance et de la synthèse, qui partagent le dictionnaire d’unités de taille variable et leur représentation paramétrique. Développé dans le cadre de la thèse de Jan Cernocky [11], le codeur est un système de reconnaissance, qui décompose la parole d’entrée en une séquence de segments acoustiques, et qui attribue à chaque segment l’unité du dictionnaire qui lui est la plus proche. Le décodeur est un système de synthèse, qui concatène les unités du dictionnaire.

Ces dernières années, une nouvelle génération de systèmes de synthèse par concaténation est apparue. L’augmentation des performances des ordinateurs, en termes de vitesse de calcul et surtout de quantité de mémoire vive disponible, rend désormais possible l’utilisation de dictionnaires de grande taille (plus d’une heure de parole). La sélection des unités, essentiellement statique dans les systèmes classiques de synthèse par concaténation, devient alors dynamique dans cette nouvelle génération de systèmes. En effet, afin de limiter la taille du dictionnaire, les systèmes classiques utilisent une seule réalisation acoustique de l’unité, laquelle est soigneusement choisie lors du processus de fabrication du dictionnaire, tandis que les nouveaux systèmes disposent en général de plusieurs réalisations acoustiques d’une même unité.

Le projet SYMPATEX et cette nouvelle génération de systèmes de synthèse partagent l’utilisation de dictionnaires où plusieurs réalisations acoustiques (ou représentants) décrivent la même unité symbolique. C’est pourquoi, le projet SYMPATEX étudie l’utilisation d’un système de synthèse nouvelle génération. Les unités des systèmes de synthèse par sélection dynamique sont définies par leur transcription phonétique, tandis que les unités, dans le cadre du projet SYMPATEX, sont définies de manière automatique et indépendamment du language (approche « Automatic Language Independent Speech Processing » [12]). Une correspondance entre les unités phonétiques et les unités ALISP est d’ailleurs envisagée pour de la synthèse à partir du texte.

Cette étude bibliographique de la synthèse par sélection dynamique des unités a pour objectif de mieux connaître cette nouvelle génération de systèmes, pour en préciser l’intégration dans le cadre du projet SYMPATEX. La première partie décrit le fonctionnement d’un tel système. La deuxième partie donne quelques exemples de systèmes de recherche et de systèmes déjà commercialisés.

2. Sélection dynamique des unités

2.1. De la sélection statique à la sélection dynamique



Dans un système classique de synthèse par concaténation, les unités acoustiques sont mono-représentées et choisies lors du processus de fabrication du dictionnaire. Les diphones sont les unités les plus utilisées et sont en général enregistrés dans un contexte neutre, des mots isolés sans signification appelés logatomes. La seule instance (ou représentant) du diphone dans le dictionnaire ne permet pas de tenir compte des phénomènes de coarticulation (l’assimilation progressive ou régressive), ce qui provoque en général une discontinuité spectrale importante au point de concaténation [9].

D’autre part, le diphone décrit très mal les phonèmes de transition et les phonèmes instables. C’est pourquoi des unités plus longues, appelées polyphones, protégeant les semi-voyelles /j/ et /w/ et les liquides /l/ et /r/ de la concaténation, sont par exemple proposées pour la synthèse du français [6]. En résumé, la sélection statique des unités est une approche essentiellement phonétique, qui ne tient pas assez compte des variantes acoustiques d’un même son.

Pour répondre aux limitations intrinsèques des unités mono-représentées choisies de manière statique, des unités non-uniformes sont d’abord proposées pour la synthèse du japonais [22]. La sélection statique des unités est remplacée par une sélection dynamique, dans un module qui précède le module de concaténation lors du processus de synthèse. Le dictionnaire est constitué de parole naturelle : des mots isolés dans les premiers systèmes, des paragraphes entiers dans les systèmes les plus récents. Les unités du dictionnaire doivent seulement assurer la plus grande converture phonétique possible de la langue. Elles sont segmentées en phonèmes.

2.2. Problématique



Dans [7] et [17], la problématique de la sélection dynamique des unités est formalisée à partir du système CHATR des laboratoires ATR. L’entrée du module de sélection est une séquence de phonèmes munis de paramètres prosodiques (pitch, durée, énergie).

La sélection utilise deux coûts de nature différente : un « target cost », Ct(ui,ti), qui sanctionne la différence entre l’unité candidate et sa cible, et un « concatenation cost », Cc(ui-1,ui), qui estime la qualité de la concaténation de deux unités consécutives (ui-1 et ui) (figure 1).



Le dictionnaire d’unités (ici, des phones) est représenté par un réseau de transition d’états, dans lequel chaque représentant d’unité représente un état. Le coût d’occupation de l’état est donné par le « target cost » et le coût de transition par le « concatenation cost ». Le réseau est complètement connecté, car chaque représentant d’unité (ou phone) peut être potentiellement suivi ou précédé de n’importe quel autre. Un phonème cible est toujours synthétisé par un représentant portant la même étiquette phonétique.

2.3. Fonctions de coût



Chaque phonème cible et chaque représentant sont décrits par un vecteur de caractéristiques prosodiques et contextuels. Les caractéristiques cibles sont le pitch, la durée, l’énergie du phonème cible, l’identité phonétique du phonème précédent et du phonème suivant (classe, trait de voisement, etc). Les mêmes caractéristiques intrinsèques sont déterminées pour chaque représentant d’unité du dictionnaire. Le « target cost » est la somme pondérée de coûts, qui sanctionnent les différences entre caractéristiques. Etant données p caractéristiques et leur poids associé wjt, le « target cost » est calculé de la manière suivante :


Le « concatenation cost » est également la somme pondérée de coûts, qui sanctionnent des différences entre les unités ui-1 et ui au point de concaténation. Ces coûts sont par exemple la distance cepstrale, la différence d’énergie, la différence de pitch, etc. Si q représente le nombre de coûts et wjc leur poids associé, le « concatenation cost » est calculé de la manière suivante :


Le coût total d’une séquence de n représentants, séquence qui représente un chemin possible dans le réseau de transition d’états, est la somme des « target cost » et « concatenation cost ». Si S désigne le segment de silence au début et à la fin du groupe de soufle, à l’échelle duquel la sélection dynamique est effectuée, le coût total d’une séquence de n représentants s’exprime de la manière suivante :


La sélection dynamique des unités se traduit alors par la recherche de la séquence optimale de représentants, c’est-à-dire le meilleur chemin, qui minimise le coût total, et donc l’équation ci-dessus :


L’algorithme de Viterbi est en général utilisé pour optimiser cette recherche du meilleur chemin [3] [4] [17]. Le dictionnaire d’unités peut être réduit aux unités effectivement sélectionnées [3] [4] [7], sans dégradation perceptible de la qualité.

Enfin, la determination des poids wjt et wjc reste le principal problème de la sélection dynamique des unités. Une première approche consiste à juger de manière subjective la qualité obtenue à partir de plusieurs combinaisons de poids (w1t, …, wpt, w1c, …, wqc), avec p+q supérieur à 20 dans les systèmes les plus avancés [17]. Cette approche se révèle en pratique très difficile à mettre en oeuvre, étant donné le nombre de combinaisons possibles. Une seconde approche consiste à qualifier de manière objective la qualité de la parole synthétique obtenue à partir d’une certaine combinaison de poids, afin d’optimiser automatiquement ces poids. Une distance cepstrale entre la parole synthétique et la parole naturelle contenue dans le dictionnaire d’unités est proposée dans [17] et [19]. Cette seconde approche améliore la qualité de la parole produite par sélection dynamique des unités, ce qui tend à démontrer l’importance de la pondération des différents critères de sélection.

3. Les systèmes de recherche et les systèmes industriels



Ces dernières années, la synthèse par sélection dynamique des unités est devenue un thème de recherche à part entière. Il semble difficile de dresser une liste exhaustive des systèmes de synthèse de ce type en cours de développement dans les laboratoires de recherche. On peut cependant en estimer le nombre à plusieurs dizaines.

3.1. Le système CHATR



Historiquement, le système CHATR des laboratoires ATR succède au premier système de synthèse par sélection dynamique des unités, le système -talk, qui introduit à la fin des années 80, des unités non-uniformes pour la synthèse du japonais [22]. Les unités sont des séquences de phones; le lieu de concaténation est situé en frontière de phonèmes. Grâce à ce premier système, de nombreuses expériences de sélection dynamique des unités démontrent la pertinence des critères contextuels et prosodiques d’une part [26] [27], et des critères de distortion spectrale au point de concaténation d’autre part [18].

Le système CHATR est développé dans un contexte multilingue, pour la synthèse du japonais et de l’anglais britannique [10] [29]. Le choix du lieu de cancaténation en frontière de phonèmes limite la qualité de la synthèse de l’anglais. Si le japonais a une struture syllabique régulière et simple de type « CV », l’anglais présente des « clusters » consonantiques de type « CC » difficiles à réaliser par des séquences de phones.

3.2. Le système CNET-Elan Informatique



Le système CNET-Elan Informatique [19] s’inspire très largement du système CHATR. Adaptée aux polyphones multi-représentés, la fonction de coût combine plusieurs critères :

  • le premier vise à minimiser les discontinuités au point de concaténation,

  • le deuxième, les différences contextuelles phonétiques, à l’échelle du phonème précédent et suivant,

  • le troisième, les différences contextuelles morphologiques (pour l’instant, les frontières de mots),

  • le quatrième, les différences prosodiques de durée,

  • le cinquième, les différences prosodiques de pitch.

Les poids associés aux critères de sélection des unités sont appris automatiquement, par comparaison du signal synthétique au signal naturel de plusieurs phrases. L’algorithme du Recuit Simulé, utilisé pour l’optimisation des poids, converge vers une fonction de coût optimale.

Des tests subjectifs d'écoute montrent l'importance d'une sélection adéquate des unités : la fonction de coût optimale est préférée à une fonction de coût non optimale. Des tests montrent également que la synthèse par sélection dynamique des unités fournit globalement une meilleure qualité sonore que la synthèse par sélection statique des unités, en l’occurrence des diphones. Ces tests sont menés avec ou sans modification des unités par la technique TD-PSOLA [20].

Développé à partir d’une voix de femme du français, ce système est récemment adapté à la synthèse de l’américain. Une voix de femme du « Boston University Radio Speech Corpus », diffusé par le consortium LDC (http://morph.ldc.upenn.edu), est mise en forme. Le dictionnaire d’unités comprend environ
1 h 15 min de parole.

3.3. Le système Next-Gen TTS ou Speechify



Le système Next-Gen TTS des laboratoires AT&T utilise le module de sélection des unités du système CHATR pour la synthèse de l’américain [3] [4] [25]. Dans un premier temps, ce module est adapté aux diphones, qui conviennent mieux à la structure syllabique de l’anglais. Les dernières unités proposées sont les demi-phones, qui présentent plus de flexibilité [13]. Les demi-phones, avec plus de diphones que de phones sélectionnés (environ 2 diphones pour 1 phone), semblent fournir une meilleure qualité.

Les travaux des laboratoires AT&T étudient l’importance de plusieurs facteurs sur la qualité de la parole synthétique [3] [4] [25] :

  • la sélection du locuteur [24],

  • le post-traitement lexical pour améliorer la correspondance entre la transcription phonétique et la description des unités,

  • la réduction du dictionnaire aux unités effectivement sélectionnées,

  • la modification ou non des unités.

La qualité obtenue sans modification des unités est préférée à la qualité fournie par la technique TD-PSOLA [20] ou HNM [23]. Une optimisation du calcul des fonctions de coût est également proposée [5].

Le système Next-Gen TTS fournit aujourd’hui l’une des meilleures qualités de synthèse de l’américain (http://www.research.att.com/projects/tts), avec une voix d’homme et une voix de femme qui représentent chacune environ 1 h 30 min de parole. L’espagnol castillan, l’allemand et le coréen sont en cours de développement.

Ce système est aujourd’hui industrialisé par la société SpeechWorks sous le nom Speechify (http://www.speechworks.com/demos/speechify.cfm) et directement par AT&T Labs Natural Voices (http://www.naturalvoices.att.com). Ces derniers annoncent qu’ils peuvent fabriquer complètement automatiquement une voix synthétique indistinguable de la parole naturelle, à partir de l’enregistrement en studio du locuteur.

3.4. Le système Actor



Le CSELT, dont les activités de synthèse / reconnaissance de parole et dialogue sont aujourd’hui regroupées dans la nouvelle société Loquendo, développe un nouveau système de synthèse multilingue, appelé Actor, à partir de leur système Eloquens, de synthèse de l’italien [1]. Les unités sont de taille variable et multi-représentées : la plus petite unité est le demi-phone. Le dictionnaire d’unités d’Actor est 40 fois plus important que le dictionnaire de diphones d’Eloquens.

La fonction de coût combine un critère de continuité spectrale, un critère de continuité prosodique, un critère de recherche du meilleur contexte phonétique et un critère de recherche du meilleur contexte prosodique. Seulement si nécessaires, des modifications prosodiques sont appliquées autour du point de concaténation par la technique propriétaire CSELT-SEQUENCE, une technique temporelle synchrone du pitch.

Actor est aujourd’hui, avec le système RealSpeak, le seul à appliquer ces nouvelles techniques de synthèse à un nombre conséquent de langues. 11 voix dans 8 langues sont dès à présent disponibles : l’italien, l’espagnol castillan et mexicain, le portugais brésilien, l’anglais britannique et américain, l’allemand et récemment le français (http://actor.loquendo.com).

3.5. Le système RealSpeak



Le système RealSpeak (http://www.lhsl.com/realspeak) de la société Lernout & Hauspie est de loin le plus grand projet de synthèse par sélection dynamique des unités [21]. De nombreuses langues, 19 au total, sont aujourd’hui disponibles : l’anglais britannique et américain, l’allemand, le français, l’italien, l’espagnol castillan et mexicain, le portugais continental et brésilien, le hollandais des Pays-Bas et de Belgique (flamand), le suédois, le norvégien, le danois, le polonais, le coréen, le mandarin, le cantonais, et enfin le japonais. A l’exception de l’anglais américain qui dispose de deux voix féminines et d’une voix masculine, toutes les langues disposent d’une voix standard unique et féminine.

L’approche du système RealSpeak est classique : une sélection probablement de type Viterbi des diphones candidats, la concatenation avec modification minimale des unités acoustiques de taille variable [14]. L’originalité du système réside plus dans le calcul et la pondération des fonctions de coût. En effet, des fonctions de masque, définies par un seuil de transparence et un seuil de qualité, leur sont appliquées de manière à rendre leur sanction la plus perceptuelle possible. La pondération des focntions de coûts est essentiellement experte et peut dépendre du phonème dans son contexte.

Ce système est aujourd’hui vendu essentiellement sur le marché des télécommunications, même s’il est plus lent (quelques canaux) qu’un système classique de synthèse par diphones (plus de 200 canaux pour les systèmes les plus rapides). A la fréquence d’échantillonnage de 8 kHz, 25-28 Mo sont nécessaires lors de la phase d’initialisation et 1 Mo par canal de synthèse. Les voix sont également disponibles pour un sytème mono-canal, à la fréquence d’échantillonnage de 11 kHz (30-35 Mo) et de 22 kHz (75-85 Mo).

3.6. Le système rVoice



La société Rethorical Systems, « spin-off » du fameux centre de recherche CSTR (Centre for Speech Technology Research), produit et commercialise un nouveau système de synthèse par sélection dynamique des unités : rVoice (http://www.rhetoricalsystems.com/rvoice.html). Outre l’excellente qualité de la parole synthétique, les systèmes rVoice et Next-Gen TTS partagent la même architecture logicielle, festival (http://www.cstr.ed.ac.uk/projects/festival), et une application unique à l’anglais, pour l’instant.

Le système rVoice se distingue des autres systèmes en mettant en œuvre une étape de pré-sélection des unités candidates par comparaison de leur structure phonologique à la structure phonologique cible [28]. Des arbres de même origine phonologique sont ainsi comparées. Les avantages sont essentiellement le gain en temps de calcul : la réduction du nombre d’unités candidates, qui sont de taille variable, entraîne une diminution drastique de la complexité de l’algorithme de Viterbi. Cet avantage est encore plus justifiée lorsque le corpus de parole est dopé par des phrases de l’application.

3.7. Le nouveau système FT R&D



Les informations publics concernant la construction d’un nouveau système de synthèse par sélection dynamique des unités en français chez FT R&D sont rares, puisqu’elles ne sont accessibles qu’au travers une collaboration avec l’IRISA (http://www.irisa.fr/ra2000/cordial/cordial.html). L’approche privilégiée est ambitieuse : une sélection dynamique des unités directement identifiées par leur modèle HMM (Hidden Markov Models). D’abord proposée par Donovan [15], la synthèse HMM est également retenue par IBM dans la construction de son nouveau système.

Le choix des textes à enregistrer, pour construire le corpus de parole en français, est considérée comme un problème statistique de couverture d’ensemble [16]. Et la sélection dynamique des unités est également abordée sous l’angle statistique, formalisée dans le cadre de la théorie des multi-grammes [13].

4. Le nouveau système ELAN



Bénéficiant des nombreux points communs entre le projet SYMPATEX et la construction d’un système de synthèse par sélection dynamique des unités, ELAN développe son propre système, en français d’abord. Les deux projets partagent l’enregistrement d’un corpus conséquent, le développement d’une technique d’analyse/modification/synthèse de la parole, et seulement en partie, la sélection dynamique des unités.

4.1. Le corpus



Souhaitée dans le cadre du projet SYMPATEX, pour améliorer la technique de codage mono-locuteur, et première étape du développement du système de synthèse par corpus d’ELAN, une base de données (BDD) de parole naturelle est enregistrée par une locutrice. La description de cette BDD fait l’objet d’un document séparé.

La segmentation en unités ALISP pour le codeur SYMPATEX et la segmentation en unités phonétiques pour de la synthèse à partir du texte seront comparées. En effet, si les correspondances entre ces deux types d’unités sont suffisamment claires, un lien entre unités ALISP et unités phonétiques peut alors être formalisé. Et une application directe de la plus grande flexibilité des unités ALISP à la synthèse à partir du texte peut alors être envisagée.


4.2. Le synthétiseur



La synthèse par sélection dynamique des unités a l’avantage, par rapport à la synthèse par diphones, de capturer dans la multi-représentation des unités, plus de richesse acoustique (prosodique et spectrale) et linguistique (morphologique et/ou syntaxique et/ou phonologique). Cette avantage est d’autant mieux exploitée que les modifications prosodiques deviennent inutiles, voire mineures, car ces modifications détruisent le naturel de la parole [1]. C’est pourquoi, il est souhaitable d’envisager globalement ces nouvelles techniques de synthèse par corpus comme une sélection des unités destinée à minimiser le traitement du signal de parole.

La technique d’analyse-modification-synthèse qui présente le plus d’intérêt en synthèse par corpus est celle qui exploite le modèle HNM (Harmonic + Noise Model) [23]. En effet, cette technique sans modification est transparente : en d’autres termes, le codage HNM est un excellent candidat pour compresser le corpus. Par rapport à la technique PSOLA [20], les autres avantages sont l’accès aux paramètres du modèle HNM pour calculer le coût de concaténation, le lissage (par interpolation des paramètres) de la transition entre les unités acoustiques, une implémentation asynchrone de la fréquence fondamentale, etc.

La sélection dynamique des unités se déroule en deux étapes. Dans une première étape, une liste d’unités candidates sont pré-sélectionnées : les critères sont essentiellement morphologiques (mots, syllabes, sinon diphones). Optimisée grâce à l’algorithme de Viterbi, la deuxième étape est plus classique : toutes les séquences de représentants des unités pré-sélectionnées sont explorées afin de minimiser des coûts cibles, de type phonétique et prosodique, et des coûts de concaténation, qui exploitent les paramètres HNM.

Déjà développé dans le cadre du projet SYMPATEX, la synthèse HNM est utilisée par ELAN pour de la synthèse par corpus. Les fonctions de coût acoustiques (prosodiques et spectrales) mise au point en synthèse par corpus, peuvent être utilisées dans le cadre du projet SYMPATEX, lors de la phase de codage.

4.3. Perspectives



Les perspectives d’ELAN, dans le contexte international d’une R&D très active en synthèse par corpus, se traduisent par des objectifs très ambitieux. La synthèse du français sera disponible sous la forme d’un prototype en ligne dès la fin de cette année. ELAN prévoit ensuite de construire un corpus américain, un corpus allemand, etc., jusqu’à la couverture linguistique actuelle de sa synthèse par diphone.

5. Conclusion



Plusieurs expériences montrent que la synthèse par sélection dynamique des unités fournit globalement une meilleure qualité sonore que la synthèse par sélection statique. La qualité augmente avec la taille du dictionnaire, même si 1 h 30 min de parole utile semble suffisant. La meilleure qualité sonore est obtenue sans modification des unités.

La fonction de coût est généralement une combinaison linéaire de plusieurs critères : la continuité spectrale, la continuité prosodique (pitch, énergie), le contexte phonétique, le contexte prosodique (pitch, durée), etc. Avec une telle fonction de coût, la détermination des poids associés aux différents critères reste un problème important, qu’il est préférable de résoudre par apprentissage automatique.

L’approche proposée dans le projet SYMPATEX est la synthèse par sélection dynamique des unités ALISP. Cette sélection des unités ALISP est réalisée soit dans la phase de codage par le sytème de reconnaissance, quand la synthèse sert de décodeur au système, soit dans le système de synthèse lui-même pour de la synthèse à partir du texte. Dans les deux cas, les critères phonétiques de sélection des unités peuvent être écartées.

Bibliographie



[1] M. Balestri, A. Pacchiotti, S. Quazza, P.L. Salza & S. Sandri (1999)

« Choose the best to modify the least : a new generation concatenative synthesis system »,

Eurospeech, Budapest, pp. 2291-2294, 1999
[2] G. Baudoin, J. Cernocky, P. Gournay & G. Chollet (1999)

« Codage de la parole à bas et très bas débit », Annales des Télécoms, 1999
[3] M. Beutnagel, A. Conkie & A. Syrdal (1998)

« Diphone synthesis using unit selection », ESCA Workshop on Speech Synthesis, Australia, 1998
[4] M. Beutnagel, A. Conkie, J. Schroeter, Y. Stylianou & A. Syrdal (1999)

« The AT&T Next-Gen TTS system », Acoustical Society of America meeting, Berlin, 1999
[5] M. Beutnagel, M. Mohri & M. Riley (1999)

« Rapid unit selection from a large speech corpus for concatenative speech synthesis »,

Eurospeech, Budapest, pp. 607-610, 1999
[6] D. Bigorgne, O. Boëffard, B. Cherbonnel, F. Emerard, D. Larreur, J.L. Le Saint-Milon, I. Metayer,

C.Sorin & S. White (1993)

« Multilingual Psola text-to-speech system », ICASSP, Minneapolis, vol. 2, pp. 187-190, 1993
[7] A. Black & N. Campbell (1995)

« Optimising selection of units from speech databases for concatenative synthesis »,

Eurospeech, Madrid, pp. 581-584, 1995
[8] O. Boëffard (2001)

« Variable-length acoustic units inference for text-to-speech synthesis », Eurospeech, Scandinavia, pp. 983-986, 2001

[9] R. Boite, H. Bourlard, T. Dutoit, J. Hancq & H. Leich (2000)

« Traitement de la parole », chapitre « Synthèse de la parole à partir d’un texte », pp. 345-441, Collection Electricité,

Presses polytechniques et universitaires romandes, 2000
[10] N. Campbell (1994)

« Prosody and the selection of units for concatenation synthesis »,

ESCA Workshop on Speech Synthesis, New York, pp. 61-64, 1994

[11] J. Cernocky (1998)

« Speech processing using automatically derived segmental units », Thèse de Doctorat, Université Paris XI Orsay, 1998
[12] G. Chollet, J. Cernocky, A. Constantinescu, S. Deligne & F. Bimbot (1999)

« Computational models of speech pattern processing », chapter « Towards ALISP : a proposal for Automatic Language

Independent Speech Processing », NATO ASI Series, Springer Verlag, pp. 375-388, 1999
[13] A. Conkie (1999)

« Robust unit selection system for speech synthesis », Acoustical Society of America meeting, Berlin, 1999
[14] G. Coorman, J. Fackrell, P. Rutten & B. Van Coile (2000)

« Segment selection in the L&H RealSpeak laboratory TTS system », ICSLP, Bejiing, 2000

[15] R. Donovan & P. Woodland (1995)

« Improvements in an HMM-based speech synthesiser », Eurospeech, Madrid, pp. 573-576, 1995
[16] H. François & O. Boëffard (2001)

« Design of an optimal continuous speech database for text-to-speech synthesis considered as a set covering problem »,

Eurospeech, Scandinavia, pp. 829-832, 2001

[17] A. Hunt & A. Black (1996)

« Unit selection in a concatenative speech synthesis system using a large speech database »,

ICASSP, Atlanta, vol. 1, pp. 373-376, 1996
[18] N. Iwahashi & Y. Sagisaka (1992)

« Speech segment network approach for an optimal synthesis unit set », ICSLP, Banff, pp. 479-482, 1992
[19] P.Y. Le Meur (1996)

« Synthèse de parole par unités de taille variable », Thèse de Doctorat, ENST, 1996
[20] E. Moulines & F. Charpentier (1990)

« Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones »,

Speech Communication, no. 5/6, pp. 453-467, 1990
[21] P. Rutten, G. Coorman, J. Fackrell & B. Van Coile (2000)

« Issues in corpus based speech synthesis »,

Seminar IEE, State of the art in speech synthesis, Savoy Place, pp. 16/1-16/7, 2000

[22] Y. Sagisaka (1988)

« Speech synthesis by rules using an optimal selection of non-uniform synthesis units »,

ICASSP, New York, pp. 679-682, 1988

[23] Y. Stylianou (1996)

« Modèles harmoniques plus bruit combinés avec des méthodes statistiques pour la transformation de la parole et du

locuteur », Thèse de Doctorat, ENST, 1996
[24] A. Syrdal, A. Conkie & Y. Stylianou (1998)

« Exploration of acoustic correlates in speaker selection for concatenative synthesis »,

ICSLP, Sidney, paper no. 882, 1998
[25] A. Syrdal, C. Wightman, A. Conkie, Y. Stylianou, M. Beutnagel, J. Schroeter, V. Strom,

K.S. Lee & M. Makashay (2000)

« Corpus based techniques in the AT&T NextGen synthesis system », ICSLP, Bejiing, 2000

[26] K. Takeda, K. Abe & Y. Sagisaka (1990)

« On the unit search criteria and algorithms for speech synthesis using non-uniform units »,

ICSLP, Kobe, pp. 341-344, 1990
[27] K. Takeda, K. Abe & Y. Sagisaka (1992)

« On the basic scheme and algorithms in non-uniform unit speech synthesis »,

« Talking machines : theories, models, and designs », pp. 93-105, 1992
[28] P. Taylor & A. Black (2000)

« Speech synthesis by phonological structure », ICSLP, Bejiing, 2000

Eurospeech, Budapest, 1999
[29] W.J. Wang, N. Campbell, N. Iwahashi & Y. Sagisaka (1993)

« Tree-based unit selection for English speech synthesis », ICASSP, Minneapolis, vol. 2, pp. 191-194, 1993

Sites web










reads aloud what’s written

elan informatique

4, rue Jean Rodier - 31400 Toulouse - FRANCE

Tél : +33 (0)561 36 89 10 - Fax : +33 (0)561 36 89 11
http://www.elan.fr


similaire:

Synthèse par sélection dynamique des unités iconSynthèse Les unités de soins de longue durée : gros plan sur une réforme

Synthèse par sélection dynamique des unités iconNote explicative alumicor
«Matériau acceptable». Cette section est rédigée à l’intention de l’industrie canadienne et utilise les unités de mesure métriques...

Synthèse par sélection dynamique des unités iconNote explicative alumicor
«Matériau acceptable». Cette section est rédigée à l’intention de l’industrie canadienne et utilise les unités de mesure métriques...

Synthèse par sélection dynamique des unités iconTd : Réaliser une fiche de synthèse
«Nombre de chômeurs en milliers et dont hommes et femmes». Copier cette sélection du tableau dans votre document en remettant les...

Synthèse par sélection dynamique des unités iconRapport de synthèse
«Modélisation physique de résonateurs» et enfin «Développements». Les travaux en analyse et synthèse proprement dits concernent l’amélioration...

Synthèse par sélection dynamique des unités iconEtudes par mécanique et dynamique moléculaire des interactions d’inha...

Synthèse par sélection dynamique des unités iconCommuniqué de Presse
Nous avons été convaincus par les fonctionnalités intégrées de sécurité, dont le pare-feu dynamique et la prévention des intrusions...

Synthèse par sélection dynamique des unités iconL'agriculture guyanaise, un secteur économique et social dynamique...
«multiculturelle» et principalement caractérisée par une forte hétérogénéité des rapports au territoire

Synthèse par sélection dynamique des unités iconPortant autorisation unique de certains traitements de données à...

Synthèse par sélection dynamique des unités iconCritères de sélection : patients ayant développé une manifestation...





Tous droits réservés. Copyright © 2016
contacts
m.20-bal.com