Prévia do material em texto
ISSCO La Traduction Automatique (TA) P. Bouillon et M. Starlander Bureau 6333 Master + DESS http:// www.unige.ch/eti/courstim/ puis Traduction Automatique ISSCO Cours 1 Introduction De quoi s'agit-il ? Problèmes posés par la traduction automatique Organisation du cours et des examens ISSCO Définition de la TA Application de l'informatique au processus de traduction d'un texte en langue source (Ts) dans un texte équivalent en langue cible (Tc). Traduction Ts (français) Tc (anglais) ISSCO Types de Traduction Automatique (TA): • Traduction entièrement automatique de haute qualité (TEAHQ; Fully Automatic High Quality Translation, FAHQT) ; • TAO (Traduction Assistée par ordinateur) : la traduction se fait automatiquement , mais avec l'aide de l'homme qui peut intervenir dans les trois différentes phases de la traduction: 1 la préparation du texte, 2 sa traduction ou 3 la révision. ISSCO TEAHQ Système METEO (depuis 1977) Anglais: Metro toronto Today.... mainly cloudy and cold with occasional flurries. Brisk westerly winds to 50 km/h. High near minus 7. Français: Le grand Toronto Aujourd'hui... Généralement nuageux et froid avec quelques averses de neige. Vents vifs d'ouest à 50 km/h. Maximum d'environ moins 7. ISSCO Automatisation de la préparation (1) %--------------------------------------------- A. J’ai manger des pommes. B. J’ai mangé des pommes. A. I have to eat apples. B. I ate apples. %--------------------------------------------- A. Clean reservoir system B. Clean the reservoir system A. Système de réservoir propre. B. Nettoyez le système de réservoir ISSCO Automatisation de la préparation (2) %--------------------------------------------- A. Release the percussion heads with a strap wrench A. Libérez les chefs(têtes) de percussion avec une entorse de courroie B. Libérez les têtes de percussion avec une clé à sangle %--------------------------------------------- ISSCO Automatisation de la préparation (3) • correction du texte avec des correcteurs orthographiques, grammaticaux ou stylistiques ; • simplification du texte pour le rendre plus facile à traduire : phrases plus simples, etc. • annotation du texte pour le désambiguiser : école de cuisine grenobloise vs école de cuisine grenobloise ; • Préparation des dictionnaires pour le rendre conforme au domaine : ajout des termes et de leur traduction, suppression de certaines traductions pas nécessaires, etc. ISSCO Automatisation de la traduction proprement dite Construction de systèmes semi- automatiques utilisant de interventions humaines pour désambiguiser le texte : Il lit le livre -> livre-volume ou livre-monnaie Mais peut-on construire un dialogue de désambiguisation convivial ? ISSCO Automatisation de la révision • L'être humain peut aider à reviser le texte. On considère que s'il revise 250 mots en moins de 35 minutes, la TA est rentable ! • Comment aider à trouver les erreurs ? • Utilisation de correcteurs, mais les systèmes sont-ils assez bons ? • intégration de marques de doutes pour les mots très ambigüs ou les segments rares (bigrammes, trigrammes), par exemple grandes pluies vs pluies torrentielles. ISSCO Bref historique La TA n'est pas une idée nouvelle : • 1949 : un américain du nom de Weaver persuade les autorités que la traduction est une application idéale pour les ordinateurs ; • Selon lui, la langue est un code . Elle pourra être décodée de la même manière que les messages chiffrés pendant la guerre ; • Début de recherches intensives en TA, vu l'intérêt stratégique / économique en jeu (20.000.000 livres sterling d'après Arnold); • Même si l'argumentation de Weaver est fausse : dans la langue naturelle, pas de relation biunivoque entre un mot/texte source et sa traduction. ISSCO Historique • 1966 : rapport Alpac. L'évaluation des progrès est très mauvaise et les subsides d'état sont coupés aux EU; pourtant, certaines compagnies privées arrivent à survivre. Systran est notamment utilisé par la US Air Force pour traduire du Russe-Anglais en 1970 et par la Nasa en 1974-1976; • 1975 : Achat de Systran par la Communauté Européenne; la traduction redevient une activité connue du grand-public. ISSCO Les problèmes posés par la traduction Pourquoi n´existe-t-il pas encore de systèmes de TA entièrement automatiques? Traduire, c´est deux choses : transmettre le contenu d´un message : ce qui est dit dans les phrases (contenu propositionnel) et comment s´est dit (style, tonalité, lien entre les phrases, etc.). ISSCO Les problèmes posés par la traduction Quelques exemples (Systran) : 1er problème fumer nuit à la santé -> to smoke night with health He hammers the metal flat ->Il martèle l'appartement en métal 2d problème This is a good man -> c'est un bon homme I know this word -> je sais ce mot ISSCO Les problèmes posés par la traduction • Pour traduire, la machine devrait idéalement comprendre les mots et leurs relations ; or comprendre un texte n'est pas facile : 1 Les mots sont ambigus : «avocat»,«porte», «nuit» ; 2 Les relations qu'ils entretiennent sont ambiguës : «la peur du gendarme», «je vois l'homme au téléscope», «he hammers the metal flat» 3 Certaines expressions ne sont pas compositionnelles : «casser sa pipe» -> to fall, to break a pipe ; ISSCO Problèmes posés par la traduction • De plus, la traduction pose des problèmes spécifiques : a Les langues peuvent exprimer un même contenu, avec des moyens syntaxiques différents (divergences ); b Certaines langues n’expriment pas le même contenu (décalages ). (Heid, Vandooren in : Bouillon et Clas, la Traductique) ISSCO Par exemple :Matthew 12.9-10 • Latin: 24 words, 3 sentences Et cum inde transisset, venit in synagogam eorum; et ecce homo manum habens aridam. Et interrogabant eum dicentes: «Licet sabbatis curare?», ut accusarent eum. • Italian: 31 words, 3 sentences Partitosi di lí, egli entrò nella loro sinagoga. Ed ecco un uomo che aveva una mano arida. Essi domandarono a Gesù, per poterlo accusare: «É lecito curare in giorno di sabato?» • Spanish: 26 words, 2 sentences De allí pasó a la sinagoga. Había en ella un hombre que tenía seca una mano, y lepreguntaron para acusarlo: «¿Es lícito curar en sábado?» ISSCO Par exemple :Matthew 12.9-10 • French: 45 words, 5 sentences Jésus partit de là et se rendit dans une de leurs synagogues. Un homme s'y trouvait, qui avait la main paralysée. Ceux qui étaient là voulaient accuser Jésus; c'est pourquoi ils lui demandèrent: -- Notre loi permet-elle de faire une guérison le jour du sabbat? • German: 36 words, 4 sentences Darauf verließ er sie und ging in ihre Synagoge. Dort saß ein Mann, dessen Hand verdorr war. Sie fragten ihn: Ist es am Sabbat erlaubt zu heilen? Sie suchten nämlich einen Grundzur Anklage gegen ihn. • English: (a) 41 words; (b) 42 words ...... ISSCO Les divergences • Dans l’ordre des mots : fresh water -> eau fraîche • Catégorielle : university degree -> degré universitaire • Syntagmatique : I’m waiting for the postman to pass -> j’attends le passage du facteur • Lexicale : I’m hungry -> j’ai faim • De densité lexicale : he retired -> il a pris sa retraite • Thématique : John missed Mary -> Marie a manqué à Jean ISSCO Les divergences : • Prédicative he hammers the metal flat -> il aplatit le métal avec un marteau I swam across the river -> J’ai traversé la rivière à la nage Les décalages : • La langue source fait plus de distinctions que la langue cible : Embouteiller du vin -> Wein in Flaschen abfüllen • La langue cible fait plus de distinctions que la langue source (cf. liste de Hutchins) : poisson -> pez/pescado ISSCO • Les champs sémantiques ne se recoupent pas, par exemple les verbes de mouvement : fr : type de mouvement distinct du mouvement dans l’espace all : un seul verbe (avec des prépositionsdifférentes) pour le type de mouvement et le déplacement dans l’espace Il entre dans la salle en courant -> Er rennt in den Saal ISSCO Niveaux de compréhension Approche rationaliste • Pour l'approche minimaliste : on peut se limiter à une compréhension implicite , c.à.d. à résoudre les ambiguïtés lexicales à l'aide des connaissances linguistiques ad hoc: la (det/pron) porte(verbe/ nom) ferme (verbe/nom/adjectif) I (pron) hammer (nom/verbe) the (det) metal (nom) flat (nom/ adj) • Approche maximaliste : une compréhension implicite n'est pas suffisante : Il faut aller plus loin et rendre explicites les relations syntaxiques et sémantiques qui existent entre les mots. ISSCO Niveaux de compréhension Approche empirique/statistique : pas de compréhension requise. a La source des connaissances = grands corpus bilingues qui décrivent les équivalences/lois grammaticales ; b Traduire équivaut à chercher dans le corpus la phrase /mot source qui a la plus haute probabilité d'être la traduction d'une phrase / mot cible donnée. ISSCO Plan du cours Focaliser sur l'approche rationaliste 1) Comprendre un texte dans une autre langue : les niveaux de compréhension. 2) Les systèmes directs minimalistes. Le cas de Réverso (système pour traducteur indépendant). 3) Les systèmes indirects maximalistes. Le cas de Comprendium (système pour société). Trois questions : • Comprendre la différence entre ces systèmes • Apprendre à les utiliser/spécialiser • Comment évaluer les résultats ? ISSCO Examen Master Dossier à rendre avec différents exercices (4) Examen DESS Dossier à rendre avec différents exercices (4), plus un examen oral de 15 minutes ISSCO Quelques références W. Hutchins et H. Somers, An Introduction to Machine Translation, London:Academic Press, 1992. D. Arnold et al., Machine Translation, Cambridge, Back- well, 1994. Machine Translation, Kluwer. P. Bouillon et A. Clas, La Traductique, Montréal:PUM, 1993. C. Fuchs, et al., Linguistique et traitements automatiques des langues, Paris, Hachette,1993. Langages, 1994, vol. 116, Le traducteur et l'ordinateur. Meta, 1992, vol. 37:4 References WWW : http://www.georgetown.edu/cball/ling361/ ling361_mt_links.html http://www.globalink.com http://www.systranmt.com http://www.logos-ca.com http://www.foreignword.com/Technology/technology.htm ISSCO Quelques références Tester gratuitement : globalink : http://www.globalink.org systran : http://www.systransoft.com Associations : European Association for Machine Translation, Secrétar- iat: TIM/ISSCO, 40 Boulevard du Pont d'Arve, Genève Conférences (avec actes): (TMI) Theoretical and Methodological issues in Machine Translation MT Summit ISSCO Un peu de lecture pour la semaine prochaine Chapitre 1 de Arnold : http://www.essex.ac.uk/linguistics/clmt/ MTbook/HTML/book.html