Constitution d’un corpus bilingue aligné à l’aide d’Alinea

 

Dans le dossier Mes Documents, créer un sous-dossier qui porte votre nom, lieu de stockage de tous les fichiers créés ultérieurement, désormais appelé Mes Documents/VotreNom.

1. Enregistrement des textes des débats du parlement européen

1.1. Accès aux transcriptions des sessions plénières

http://www.europarl.europa.eu

Cliquer sur English

http://www.europarl.europa.eu/portal/en

Plenary

http://www.europarl.europa.eu/plenary/en/home.html

Activities, Archives, Debates and Videos

http://www.europarl.europa.eu/plenary/en/debates-video.html

 

1.2. Choix et copie du contenu des fichiers de la langue source et de la langue cible

Parliamentary term:  1999-2004

Words in title: SARS

Cliquer sur Search

Choisir le premier débat (Tuesday 13 May 2003).

Enregistrer la version anglaise sous le nom SARS_EN au format Page Web, HTML uniquement

Cliquer sur la version française (FR dans la liste des langues des diverses traductions)

Enregistrer la version française sous le nom SARS_FR au format Page Web, HTML uniquement

Ouvrir les deux fichiers dans Word et les enregistrer sous le même nom au format Texte brut (choisir « Autre codage : Unicode UTF-8 »).

 

2. Traitement par Alinea

2.1. Téléchargement

Sur Google : Alinea Kraif

http://olivier.kraif.u-grenoble3.fr/index.php?option=com_content&task=view&id=44&Itemid=47

Téléchargement :  [Format zip]

Décompresser l’archive dans le sous-dossier du dossier Mes Documents qui porte votre nom, puis fermer le logiciel de décompression.

 

2.1. Alignement

Lancer le logiciel à partir du sous-dossier du dossier Mes Documents qui porte votre nom.

Aligner – Nouveau projet

A l’aide des boutons de navigation (…), choisir le dossier d’enregistrement du projet (Mes Documents/VotreNom) et choisir le fichier source (SARS_EN) et le fichier cible (SARS_FR).

Paramètres

Format : txt

Codage : Unicode UTF-8

Langue source : en

Langue cible : fr

Stoplist : Alinea.V3-53\Alinea\param\stoplist.en.txt

Stoplist: Alinea.V3-53\Alinea\param\stoplist.fr.txt

Paramètres: Alinea.V3-53\Alinea\param\Param.en.fr.dat

Créer le projet

Extraire les points d’ancrage

Extraire l’alignement complet    Fermer

Exporter (l’alignement complet)

Répondre NON à la question concernant l’exportation séparée.

Nom du fichier : SARS_EN_FR

Format : html

Codage : Unicode UTF-8

Résultat de l’alignement

 

3. Post-traitement sous Word

Ouvrir le fichier SARS_EN_FR.htm dans Word

Corriger manuellement les problèmes d’alignement en ajoutant des lignes supplémentaires au tableau si nécessaire.

Sélectionner le tableau (Alt B O T)

Transformer le tableau en texte (Alt B V B)

Enregistrer le fichier au format texte Texte Brut sous le nom SARS_EN_FR.txt.

 

Exploitation du corpus bilingue avec le SGBD Access