La chaine de traitement

Les sermons de ce corpus ont été transcrits d’après les imprimés originaux, en respectant absolument la graphie d’origine, y.c. la ponctuation, les espaces, les sauts de ligne, les tildes, les ß/ss, les u/v et i/j. Une image du texte est présentée en regard de la transcription. Les textes transcrits ont été soumis à la chaîne de traitement suivante :

Tokenisation (automatique) : utilisation du lexique basé sur le corpus du moyen français (projet PRESTO) enrichi avec les formes spécifiques au corpus SERMO, avec intégration d’une liste des formes composées (par exemple locutions conjonctives ou prépositions complexes)
Lemmatisation (automatique) avec la prise en compte de la variation graphique, sur la base de l’outil : LGeRM
Étiquetage morpho-syntaxique (POS-tagging) (automatique) : TreeTagger (outil de segmentation et le modèle de langue pour le balisage des catégories grammaticales) avec le modèle de langue développé d’abord par le projet PRESTO , et ensuite adapté à l’état de langue du corpus SERMO
Contrôle et correction de "POS" (semi-automatique)
Annotation discursive
Annotation éditoriale
Annotation structurale
Autres annotations : p.ex. contrôle et vérification des références bibliques (semi-automatique)

L’interface de consultation (Analyse) permet aux utilisateurs de cibler le niveau d’utilisation du corpus en fonction de leurs besoins : micro-syntaxique pour l’analyse de phénomènes de grammaire de la phrase, macro-syntaxique pour l’analyse de discours ou la rhétorique, ou texte entier pour toute utilisation exégétique ou historique.

Les modes de consultation possibles :

Plein texte
Concordancier
Lexique
Liste de fréquences

Projet SERMO

Corpus SERMO

Chaine de traitement

Équipe

La chaine de traitement