Les sermons de ce corpus ont
été transcrits d’après les imprimés originaux, en respectant
absolument la graphie d’origine, y.c. la ponctuation, les espaces,
les sauts de ligne, les tildes, les ß/ss, les u/v et i/j. Une image du texte
est présentée en regard de la transcription. Les textes transcrits
ont été soumis à la chaîne de traitement suivante :
- Tokenisation (automatique) :
utilisation du lexique basé sur le corpus du moyen français
(projet PRESTO) enrichi avec les formes spécifiques au corpus
SERMO, avec intégration d’une liste des formes composées (par
exemple locutions conjonctives ou prépositions complexes)
- Lemmatisation (automatique) avec la
prise en compte de la variation graphique, sur la base de
l’outil : LGeRM
- Étiquetage morpho-syntaxique
(POS-tagging) (automatique) : TreeTagger (outil de segmentation et le
modèle de langue pour le balisage des catégories grammaticales)
avec le modèle de langue développé d’abord par le projet PRESTO ,
et ensuite adapté à l’état de langue du corpus SERMO
- Contrôle et correction de "POS"
(semi-automatique)
- Annotation discursive
- Annotation éditoriale
- Annotation structurale
- Autres annotations : p.ex. contrôle
et vérification des références bibliques (semi-automatique)
|