Constitution d’un corpus bilingue aligné à l’aide d’Alinea

 

Dans le dossier Mes Documents, créer un sous-dossier qui porte votre nom, lieu de stockage de tous les fichiers créés ultérieurement, désormais appelé Mes Documents/VotreNom.

 

1. Enregistrement des textes des débats du parlement européen

 

1.1. Accès aux transcriptions des sessions plénières

http://www.europarl.europa.eu

Cliquer sur EN – English dans le menu déroulant à gauche de l’icône de recherche.

http://www.europarl.europa.eu/portal/en

Plenary

http://www.europarl.europa.eu/plenary/en/home.html

Activities, Archives, Debates and Videos

http://www.europarl.europa.eu/plenary/en/debates-video.html

 

 

1.2. Choix et copie du contenu des fichiers de la langue source et de la langue cible

 

Dans l’onglet Plenary Sitting, descendre jusqu’à Verbatim Reports

Parliamentary term:  1999-2004

Words in title: SARS

Cliquer sur Search

Choisir le premier débat (13-05-2003).

Dans le sous-dossier qui porte votre nom, enregistrer la version anglaise sous le nom SARS_EN au format Page Web, HTML uniquement

Cliquer sur la version française (FR dans la liste des langues des diverses traductions)

Dans le sous-dossier qui porte votre nom, enregistrer la version française sous le nom SARS_FR au format Page Web, HTML uniquement

Ouvrir les deux fichiers dans Word et les enregistrer (en conservant le même nom) au format Texte brut (choisir « Autre codage : Unicode UTF-8 », antépénultième choix de la liste).

 

 

2. Traitement par Alinea

 

2.1. Téléchargement

 

Sur Google : Alinea Kraif

http://olivier.kraif.u-grenoble3.fr/index.php?option=com_content&task=view&id=44&Itemid=47

Téléchargement :  [Format zip]

Décompresser l’archive dans le sous-dossier du dossier Mes Documents qui porte votre nom, puis fermer le logiciel de décompression.

 

 

2.2. Alignement

 

Lancer le logiciel à partir du sous-dossier du dossier Mes Documents qui porte votre nom, en le choisissant comme répertoire par défaut à l’aide du navigateur (Conserver la saisie « Répertoire courant »).

Aligner – Nouveau projet

A l’aide des boutons de navigation (…), choisir le dossier d’enregistrement du projet (Mes Documents/VotreNom) et choisir le fichier source (SARS_EN) et le fichier cible (SARS_FR).

Paramètres

Format : txt

Codage : Unicode UTF-8

Langue source : en

Langue cible : fr

Stoplist : Alinea.V3-53\Alinea\param\stoplist.en.txt

Stoplist: Alinea.V3-53\Alinea\param\stoplist.fr.txt

Paramètres: Alinea.V3-53\Alinea\param\Param.en.fr.dat

 

Créer le projet

Alinea réalise la lecture des blocs dans les fichiers source et cible

Cliquer sur I. Extraire les points d’ancrage

Cliquer sur II. Extraire l’alignement complet

Affichage de l’évaluation de la qualité de l’alignement

Fermer

Cliquer sur le bouton Exporter (à côté de Extraire l’alignement complet)

Répondre NON à la question concernant l’exportation séparée.

Nom du fichier : SARS_EN_FR

Format : html

Codage : Unicode UTF-8

Résultat de l’alignement

 

 

3. Post-traitement sous Word

 

Ouvrir le fichier SARS_EN_FR.htm dans Word. Que remarque-t-on au niveau de la présentation typographique ?

Corriger manuellement les problèmes d’alignement en ajoutant des lignes supplémentaires au tableau si nécessaire. Scinder les phrases de plus de cinq lignes quand cela est possible.

Sélectionner le tableau (Alt B O T)

Transformer le tableau en texte (Alt B V B)

Enregistrer le fichier au format texte Texte Brut (codage : UTF8) sous le nom SARS_EN_FR.

 

Exploitation du corpus bilingue avec le SGBD Access