Chers tous,
Ma thèse est maintenant disponible sur les deux sites indiqués ci-dessous.
http://tel.ccsd.cnrs.fr/documents/archives0/00/00/63/13/index_fr.html
http://bibliotheque.imag.fr/publications/theses/2004/Berment.Vincent/notice-francais.html
Je vous en rappelle le titre et le résumé ci-dessous.
Cordialement,
Vincent Berment
PS : Les parties écrites avec des systèmes d'écriture non latins sont apparemment toutes bien passées lors du passage en PDF, y compris celle en écriture verticale (chinois traditionnel). Dans le cas où vous rencontreriez des difficultés pour les visualiser, merci de m'en faire part.
Titre de la thèse :
Méthodes pour informatiser des langues et des groupes de langues 'peu dotées'
Résumé
En 2004, moins de 1 % des 6809 langues du monde bénéficie d'un niveau d'informatisation élevé, incluant un éventail large de services allant du traitement de textes à la traduction automatique. Cette thèse, qui s'intéresse aux autres langues - les langues-pi - s'attache à proposer des solutions pour remédier à leur sous-développement informatique.
Dans une première partie destinée à montrer la complexité du problème, nous présentons la diversité des langues, les technologies utilisées, ainsi que les approches des différents acteurs impliqués : populations linguistiques, éditeurs de logiciels, Nations Unies, États... Une mesure du degré d’informatisation des langues - l'indice-sigma - ainsi que plusieurs méthodes sont proposées.
La seconde partie traite de l'informatisation du laotien et présente concrètement les travaux réalisés pour cette langue en appliquant les méthodes décrites précédemment. Les réalisations décrites ont permis d'améliorer l'indice-sigma de la langue laotienne d'environ 4 points, cet indice étant actuellement évalué à 8,7/20.
Dans la troisième partie, nous montrons qu'une approche par groupe de langues peut encore réduire les coûts d'informatisation grâce à l'utilisation d'une architecture modulaire associant des logiciels grand public et des compléments spécifiques. Pour les parties intimement liées aux langues, des outils linguiciels génériques complémentaires permettent aux populations d'informatiser elles-mêmes leurs langues. Nous avons validé cette méthode en l'appliquant à la segmentation syllabique de langues à écritures non segmentée d’Asie du Sud-Est, telles que le birman, le khmer, le laotien et le siamois (thaï).
Mots clés : informatisation des langues, langues peu dotées, traitement de textes, clavier virtuel, tri, transcription phonétique, dictionnaire électronique, langues d’Asie du Sud-Est, systèmes d’écriture non segmentée, segmentation, traitement automatique des langues, Unicode |