Thèse téléchargeable: Méthodes pour informatiser des langues et des groupes de langues « peu dotées »

Annonceur : Vincent Berment, Equipe GETA, laboratoire CLIPS, IMAG, 385 rue de la Bibliothèque, BP 53, 38041 GRENOBLE CEDEX 9
Aire géographique culturelle : Asie
Date :01-07-2004 au 31-08-2005
Contacter l'annonceur de cette actualité

Chers tous,

Ma thèse est maintenant disponible sur les deux sites indiqués ci-dessous.

http://tel.ccsd.cnrs.fr/documents/archives0/00/00/63/13/index_fr.html
http://bibliotheque.imag.fr/publications/theses/2004/Berment.Vincent/notice-francais.html


Je vous en rappelle le titre et le résumé ci-dessous.

Cordialement,

Vincent Berment

PS : Les parties écrites avec des systèmes d'écriture non latins sont apparemment toutes bien passées lors du passage en PDF, y compris celle en écriture verticale (chinois traditionnel). Dans le cas où vous rencontreriez des difficultés pour les visualiser, merci de m'en faire part.


Titre de la thèse :

Méthodes pour informatiser des langues et des groupes de langues 'peu dotées'


Résumé

En 2004, moins de 1 % des 6809 langues du monde bénéficie d'un niveau d'informatisation élevé, incluant un éventail large de services allant du traitement de textes à la traduction automatique. Cette thèse, qui s'intéresse aux autres langues - les langues-pi - s'attache à proposer des solutions pour remédier à leur sous-développement informatique.

Dans une première partie destinée à montrer la complexité du problème, nous présentons la diversité des langues, les technologies utilisées, ainsi que les approches des différents acteurs impliqués : populations linguistiques, éditeurs de logiciels, Nations Unies, États... Une mesure du degré d’informatisation des langues - l'indice-sigma - ainsi que plusieurs méthodes sont proposées.

La seconde partie traite de l'informatisation du laotien et présente concrètement les travaux réalisés pour cette langue en appliquant les méthodes décrites précédemment. Les réalisations décrites ont permis d'améliorer l'indice-sigma de la langue laotienne d'environ 4 points, cet indice étant actuellement évalué à 8,7/20.

Dans la troisième partie, nous montrons qu'une approche par groupe de langues peut encore réduire les coûts d'informatisation grâce à l'utilisation d'une architecture modulaire associant des logiciels grand public et des compléments spécifiques. Pour les parties intimement liées aux langues, des outils linguiciels génériques complémentaires permettent aux populations d'informatiser elles-mêmes leurs langues. Nous avons validé cette méthode en l'appliquant à la segmentation syllabique de langues à écritures non segmentée d’Asie du Sud-Est, telles que le birman, le khmer, le laotien et le siamois (thaï).

Mots clés : informatisation des langues, langues peu dotées, traitement de textes, clavier virtuel, tri, transcription phonétique, dictionnaire électronique, langues d’Asie du Sud-Est, systèmes d’écriture non segmentée, segmentation, traitement automatique des langues, Unicode





 Actualités
[Demande particulière] Cixi impératrice de Chine
[Revue numérisée] Extrême-Orient, Extrême-Occident
[Outil] Numerica Sinica - Plateforme nationale de ressources numériques sur les mondes chinois.
[Appel] Pétition pour la chercheuse Karoline Postel-Vinay attaquée en justice par la Fondation Franco-Japonaise dite Sasakawa
[Peinture] A la découverte des oeuvres de Marc Leguay
28/06/07
[Film] Un regard ethnosociologique sur les musiques chinoise et ouïgoure, par Sabine Trébinjac
[Appel] Avis de recherche sur le patrimoine sonore, Cambodge
Page principale des actualités

Version Imprimable

          -  Contact  -  Accueil  -  Notice légale  -  Accès membres  -   - 
Création site Internet Lithium Network - Le Réseau Asie © 2010