Mon Corpus
Ce corpus est ouvert à discussion et j'accepte les contributions. Merci de rajouter vos commentaires (constructifs) à la fin, et de me les transmettre par mail.
Il peut être téléchargé ici : http://www.alysse.org/tom/perso/2003_dvo-fr/corpus
Ce corpus est composé de :
Autonomy, le 1er tiers de la traduction du roman libre de Jean-Michel Smith (328Ko). Il est formaté de manière rigoureuse, contient beaucoup de dialogues (-, guillemets à la française), l'o-dans-l'e (avec une forte proportion du mot "noeud") et même les espaces insécables, mais pas les majuscules accentuées. À ce titre, je remercie l'équipe d' OpenOffice.org, qui a fait un excellent travail dans le respect des règles de typographie françaises. Attention, texte encodé en iso-latin-9, si vous l'ouvrez en iso-latin-1 vous perdrez l'e-dans-l'o.
Du côté de chez Swann (presque 1Mo), roman de Marcel Proust, avec les majuscules accentuées mais pas les guillemets à la française ni l'e-dans-l'o. Ce texte est issu du projet gutenberg, mais pour ne pas fausser les stats, j'ai enlevé le texte du copyright. Je sais, c'est illégal, mais il était écrit en anglais et en majuscules.
Une compilation de mail (>600Ko), principalement issu des listes publiques de l'AFUL, l'ALDIL et Interlug. Nettoyés pour ne recueillir que le texte réellement tapé (citations enlevées, " machin@bidule.net a écrit" enlevés, une partie des URL supprimées...)
Les symboles non-alphanumériques recueillis à partir d'une collection de programmes "hello world" écrits dans une centaine de langages de programmation différents, ainsi qu'un soupçon de "obfuscated perl code". afin d'avoir des statistiques représentatives pour classer les symboles les plus rares dans les textes littéraires. (4Ko)