L’accès à l’information multilingue joue en rôle très important. IL existe de plus en plus de systèmes, outils linguistiques commerciaux pour faciliter l’accès





télécharger 336.76 Kb.
titreL’accès à l’information multilingue joue en rôle très important. IL existe de plus en plus de systèmes, outils linguistiques commerciaux pour faciliter l’accès
page1/12
date de publication16.09.2017
taille336.76 Kb.
typeDocumentos
m.20-bal.com > documents > Documentos
  1   2   3   4   5   6   7   8   9   ...   12


Introduction

L’accès à l’information multilingue joue en rôle très important. Il existe de plus en plus de systèmes, outils linguistiques commerciaux pour faciliter l’accès aux sources d’information multilingue [Compendium of Translation Software 2005]. Le thème du TAL (Traitement Automatique des Langues) a donc pris une place croissante dans la recherche en informatique.

Dans une application linguistique, il y a en général des ressources comme : dictionnaire, grammaire, corpus … et des traitements internes. Ces données sont stockées et traitées tout à fait différemment (syntaxe, structure de données, plate-forme, architecture, distribution, …).

Pour aider les linguistes à travailler sur les données linguistiques, il est préférable que ces produits soient rassemblés dans un même environnement. De plus, on souhaite de plus en plus accéder aux données (dictionnaires, corpus …) et aux traitements (compilateur, transformateur …) disponibles sur différents systèmes. D’où l’idée de départ du mémoire CNAM de V.Carpena : créer un programme d’interface cliente pour le pilotage des serveurs linguistiques. Un tel programme doit être générique et portable, de façon à s’adapter à de nombreuses applications différentes et à s’installer sur de nombreuses machines clientes et aussi à être utilisable directement à partir du Web. WICALE 1.0 réunit ces qualités, mais n’offre que des fonctionnalités de base.

Le but de notre mémoire M2R est de progresser dans la compréhension et dans les méthodes de réalisation des EDL (Environnement de Développement Linguistique). Le but ultime est de construire un EDL générique complet permettant la construction mutualisée d’applications linguistiques hétérogènes en combinant des composants compilés et exécutés sur des serveurs différents.

Pour cela, il ne suffit pas d’étudier les LSPL (Langage Spécialisé pour Programmation Linguistique) existants, il faut aussi découvrir concrètement les problèmes de génie logiciel et linguiciel associés. C’est pourquoi une partie de cette recherche consiste en l’étude et la réalisation d’une extension de WICALE 1.0, le tout premier prototype d’EDL générique, développé au GETA-CLIPS en 2003-2004 par V.Carpena sous la direction de D.Genthial.

Nous débuterons cette étude par une présentation succincte de l’environnement du projet en présentant le contexte du domaine, les motivations, la terminologie utilisée, et un bilan de WICALE version 1.0.

Dans une deuxième partie, nous étudions plus précisément les systèmes équivalents ou proches existants, puis définissons les fonctions souhaitées et présentons la solution envisagée.

L’implémentation et l’expérimentation sont décrites dans la troisième partie : spécification externe, interne et réalisation de ce sujet.

Enfin, comme ce sujet s’est révélé très riche, ouvrant sur de nombreuses questions théoriques et axes de R&D, nous consacrons une partie complète à leur présentation.

Nous terminerons par une conclusion et des perspectives sur notre recherche future.

1.Motivations et définition du sujet

1.1.Contexte général et besoins de développement de linguiciels hétérogènes

1.1.1.Équipe (GETA) et laboratoire (CLIPS)


J’ai effectué mon stage au sein de l’équipe GETA (Groupe d'Étude pour la Traduction Automatique) dans le laboratoire CLIPS (Communication Langagière et Interaction Personne-Système).

Le GETA (voir [GETA]) est une équipe pluridisciplinaire formée d'informaticiens et de linguistes.

Les thèmes de recherche du GETA1 concernent tous les aspects théoriques, méthodologiques et pratiques de la TAO (Traduction Automatisée par Ordinateur), et plus généralement de l'informatique multilingue. Du point de vue des orientations scientifiques, la TAO du réviseur reste active, mais le GETA a réorienté sa recherche, depuis 1988, vers la TAO individuelle, qui comporte deux volets, la TAO du traducteur et la TAO du rédacteur :

  • La TAO du traducteur consiste à offrir des outils de bureautique linguistique à des traducteurs (professionnels ou occasionnels). C’est l’homme qui traduit. Dans ce domaine, l’équipe travaille en coopération avec d’autres groupes de recherche, qui apportent des données ou outils linguistiques (lexiques, lemmatiseurs), et elle s’intéresse aux problèmes informatiques liés à l’intégration de ces éléments sous une forme utilisable par des traducteurs occasionnels, désireux de les employer depuis leurs applications favorites.

  • La TAO du rédacteur est l’objectif principal des travaux en cours sur l'écrit. L’idée de base est d’offrir à un rédacteur unilingue la possibilité de rédiger dans sa langue, et, au prix d'un dialogue de standardisation et de désambiguïsation le moins lourd et le plus convivial possible, d’être traduit dans plusieurs langues, sans révision ou avec une révision minimale. Il s'agit donc de TAO fondée sur le dialogue (TAFD, ou DBMT, pour Dialogue-Based Machine Translation) et de pré-édition indirecte, mais c'est bien la machine qui traduit.

Par exemple, voici quelques projets en cours et à venir dans le domaine :

    • De la traduction de l'écrit

      • UNL (1996-). Fondé à l'IAS (Institute of Advanced Studies) de l'UNU (Université des Nations Unies) à Tokyo en novembre 1996, le projet UNL rassemble des partenaires du monde entier, avec plus de 17 langues abordées2. Le but de ce projet est la définition d'un format d'échange (le langage UNL) codant la sémantique d'un document de manière suffisamment précise pour permettre sa « déconversion » dans la langue maternelle du lecteur. Le GETA a développé un site complet pour la déconversion UNL-FR, et travaille sur l'enconversion.

    • De la traduction de la parole

      • C STAR-III (2000-2006). Ce projet international a commencé officiellement en avril 2000. Les partenaires sont ATR (Japon), CLIPS (France), CMU (USA), Karlsruhe Universität (Allemagne), ETRI (Corée), IRST (Italie), et NLPR (Chine). Le but initial était de développer une plate-forme d'expérimentation et de collecte, distribuée dans chaque site, disponible 24h/24. Depuis 2001, le projet s’est réorienté vers la production (automatique ou non) de corpus multilingues de référence et vers l’évaluation de systèmes de TA (appliqués à des résultats de reconnaissance de parole).

      • Nespole! (2001-2003) Il s'agit d'un projet européen IST de 30 mois vers le e-commerce, et réunissant les partenaires européens et américains de CSTAR-III. L'accent est mis sur deux démonstrateurs (tourisme et centre d'appel). Une partie plus exploratoire concernait la multimodalité.

    • Des bases de données lexicales monolingues et multilingues

      • PAPILLON (2000-) Il s'agit de la construction coopérative d'une base lexicale multilingue comprenant jusqu’ici l'anglais, le français, le japonais, le malais, le lao, le thaï et le vietnamien, le chinois, l’allemand.

      • DECID (Dictionnaire Explicatif et Combinatoire). C’est un éditeur pour informatiser le processus de rédaction du dictionnaire explicatif et combinatoire (DEC) du français contemporain.

    • Des outils informatiques de base

Il s’agit de poursuivre les efforts investis dans ARIANE.

  • Ariane-Y. L'évolution d'Ariane-G5 vers un système pouvant tourner sur plusieurs architectures est une priorité majeure.

  • PRISM (Projet de Recherche d’Information Sémantique Multilingue). C’est un projet de recherche d'information multilingue avec l'équipe MRIM du CLIPS, labellisé « projet IMAG ».

  • LexALP (Legal Language Harmonisation System for Environment and Spatial Planning in the Multilingual Alps). Ce projet européen a pour objectif d’offrir des services innovants d’harmonisation linguistique pour soutenir les institutions, administrations publiques et entreprises privées du sillon alpin, opérant au niveau supranational et souhaitant une communication plus claire et plus efficace.

1.1.2.Cadre du projet


La première version du système WICALE a été créée par V.Carpena sous la direction de D.Genthial en 2003-2004. Cette version constitue une base à la fois de réflexion et de réalisation pour notre projet de recherche sur l’architecture d’un EDL générique, le génie linguiciel et le génie logiciel spécifique pour les systèmes linguistiques.

1.1.3.Thème du stage de M2R


Le but de mon stage de M2R est de progresser dans la compréhension et dans les méthodes de réalisation des EDL avec la perspective de pouvoir construire un EDL générique et complet qui permettra la construction mutualisée d’applications linguistiques hétérogènes en combinant des composants compilés et exécutés sur des serveurs différents.
  1   2   3   4   5   6   7   8   9   ...   12

similaire:

L’accès à l’information multilingue joue en rôle très important. IL existe de plus en plus de systèmes, outils linguistiques commerciaux pour faciliter l’accès iconL’accès au bon moment et à la bonne information obtenue entre les trois sous-systèmes suivants
La raison d’être d’un système d’information c’est l’accès au bon moment et à la bonne information obtenue entre les trois sous-systèmes...

L’accès à l’information multilingue joue en rôle très important. IL existe de plus en plus de systèmes, outils linguistiques commerciaux pour faciliter l’accès iconPour renforcer l'efficience de la lutte contre les attaques informatiques,...
«il n’est pas nécessaire pour que l’infraction existe que l’accès soit limité par un dispositif de protection», mais qu’il suffit...

L’accès à l’information multilingue joue en rôle très important. IL existe de plus en plus de systèmes, outils linguistiques commerciaux pour faciliter l’accès iconTraitement de la d?ression par combinaison d'acupuncture abdominale et de pharmacop?
«attaquer» la Rate et l'Estomac et en bloquer le fonctionnement, ce qui va encore aggraver les choses; le Foie joue donc aussi un...

L’accès à l’information multilingue joue en rôle très important. IL existe de plus en plus de systèmes, outils linguistiques commerciaux pour faciliter l’accès iconRécurrence d'accès dépressifs uniquement, jamais d’épisode maniaque...

L’accès à l’information multilingue joue en rôle très important. IL existe de plus en plus de systèmes, outils linguistiques commerciaux pour faciliter l’accès iconComité préparatoire de la Conférence diplomatique pour la conclusion...

L’accès à l’information multilingue joue en rôle très important. IL existe de plus en plus de systèmes, outils linguistiques commerciaux pour faciliter l’accès iconAccès à la santé, accès aux soins
«refus de guichet», sur la base de leur apparence physique par les structures chargées de l’accueil et de l’évaluation (4)

L’accès à l’information multilingue joue en rôle très important. IL existe de plus en plus de systèmes, outils linguistiques commerciaux pour faciliter l’accès iconAméliorer les conditions de prévention et d’accès aux soins, en réaffirmant...

L’accès à l’information multilingue joue en rôle très important. IL existe de plus en plus de systèmes, outils linguistiques commerciaux pour faciliter l’accès iconLe Carrefour accès loisirs est un organisme communautaire établi...
«Famille» et «Accès», tel que défini par la Ville de Sherbrooke, et saisit les données dans l’ordinateur

L’accès à l’information multilingue joue en rôle très important. IL existe de plus en plus de systèmes, outils linguistiques commerciaux pour faciliter l’accès iconSur le site de la manifestation, les internautes trouveront le programme...
«Montpellier notre ville». En page 2 de ce document un sommaire a été créé pour faciliter l’accès aux différents articles du journal....

L’accès à l’information multilingue joue en rôle très important. IL existe de plus en plus de systèmes, outils linguistiques commerciaux pour faciliter l’accès iconCours très important pour bien comprendre la pathologie expliquée...
«Il y aura probablement une question sur mon cours pour le contrôle de la rentrée, je ne peux pas vous l’assurer, mais habituellement...





Tous droits réservés. Copyright © 2016
contacts
m.20-bal.com