CNRS
Rechercher dans l'archive:
Accueil > Projets

Projet pilote d'archivage mutualisé

Le CRDO est impliqué dans la définition et la mise en oeuvre d'une solution de stockage, de préservation pérenne et d'accès mutualisé pour les données en sciences humaines et sociale. Ce vaste projet est plioté par le TGE-Adonis qui en assure la maîtrise d'oeuvre et supervisé par la Direction des Archives de France qui devra assurer à terme le contrôle scientifique et technique de la partie de ces archives relevant du statut d'archives publiques. Il relie dans une même architecture sur le modèle de la norme ISO OAIS, les deux centres de calcul: celui du CINES pour le module d'entrées et celui de l'IN2P3 pour le module d'accès. La place du CRDO dans ce montage se trouve de part et d'autre de ces modules, à l'interface entre cette infrastructure dédiée à l'archivage et les producteurs et les utilisateurs des ressources orales. Cette opération pilote permettra de tester en vraie grandeur les conditions d'hébergement de corpus aux formats complexes et divers, et de pérennisation à long terme des données de la recherche.

Ce projet est entré depuis le 22 juin 2010 dans une phase de production. Pour en savoir plus


Le français et les langues de France

La Délégation générale à la langue française et aux langues de France (DGLFLF) a présenté, dans le cadre du plan de numérisation piloté par la MRT (Mission pour la Recherche et la Technologie) du ministère de la Culture, un programme consistant à numériser des fonds sonores du français et des langues parlées en France. Ce projet concerne non seulement les fonds « fragiles » dont les supports analogiques sont dans un état de détérioration, mais aussi des fonds plus récents qui constituerons ainsi une vaste base de données.

Par leur indexation, leur catalogage et l'établissement de normes d'interopérabilité, l'objectif est de valoriser ces fonds. Un site portail sera créé, présentant les corpus de français et de langues de France de la base de données, regroupant de ce fait une riche collection de corpus des-dites langues. Par conséquent, cette base de données mettra à disposition à la fois de la communauté scientifique et du grand public des ressources représentant la diversité des pratiques linguistiques en France.

Les fédérations Institut de linguistique française (ILF) et Typologie et universaux linguistiques (TUL) ont été sélectionnées pour proposer les corpus qui bénéficieront du plan de numérisation et l'Institut de l'Information Scientifique et Technique (INIST) a été chargé de l'intégration des extraits de corpus dans un site portail. Le CRDO intervient dans la coordination du travail sur les corpus de la fédération TUL.

Ce programme qui s'inscrit dans une initiative unique en Europe et au niveau international, propose la numérisation de notre patrimoine linguistique dans le respect des nouvelles technologies de conservation, mais aussi d'enseignement et de traitement automatique des langues, et assurera ainsi la vitalité du français et des langues de France, véritable source de diversité culturelle.

Consignes pour la description et éventuellement pour le dépôt des ressources qui vont alimenter le site portail Consulter les consignes.

Enquête Socio-Linguistique d'Orléans

Le corpus ESLO (Enquête Socio-Linguistique d'Orléans) constitue, par son ampleur et sa cohérence, le plus important témoignage sur le français parlé avant 1980. Constitué par des universitaires britanniques à des fins didactiques (enseignement du français langue étrangère dans le système public d'éducation anglais), il représente à la fois une masse de documents papiers et une collection de bandes magnétiques vieillissante. L'objectif est de transférer les données sonores contenues dans l'enregistrement magnétique et d'en assurer l'indexation, un premier balisage et la mise à disposition sur Internet. Parallèlement, une exploitation exhaustive d'un sous-ensemble est engagée.

Partant de l'expérience acquise, le CORAL (Centre orléanais de recherche en Anthropologie et Linguistique) a mis en chantier une nouvelle enquête dénommée ESLO2. L'objectif est d'évaluer, à une quarantaine d'années de distance, la dynamique sociale du français (et des usages de la langue comme des jugements sur son emploi) en prenant en compte la diversité des changements en fonction des paramètres sociaux. Le projet comprend quatre étapes :

  1. Constitution des données. Un travail de réflexion a été mené sur le questionnaire et sur la population auprès de laquelle sera menée l'enquête. Une première enquête auprès de témoins d'ESLO1 ré-interviewés (A. Chesneau) est en cours. Le CORAL bénéficie pour cela du soutien de laboratoires européens et, en sociologie, de l'assistance de Monique de Saint-Martin (EHESS).
  2. Transcription, annotation, balisage. Cette étape est engagée avec une réflexion plus générale sur le traitement des corpus (cf. Corpus Oraux, Guide des bonnes pratiques 2006, O. Baude éd.) et sur les conditions de réalisation d'une interopérabilité des corpus (programme GRICO CORAL-LACITO-MoDyCo).
  3. Mise en ligne. Afin d'offrir à l'ensemble des utilisateurs potentiels une accessibilité à la masse des données, la construction d'un site Internet, facile d'accès et hébergé sur un site public, est l'un des objectifs inclus dans notre cahier des charges. La possibilité d'interrogation multicritères, la convivialité, les capacités d'incrémentation et de liens avec des sites corrélés sont à prendre en compte sans restriction. En effet, la synergie avec d'autres bases est l'une des ambitions du travail à accomplir dans ce domaine. Cette étape se fait en partenariat avec le Programme "Corpus de la Parole"- DGLFLF-Ministère de la Culture).
  4. Proposition d'application. En lien avec une orientation du CORAL qui articule dans ses masters les formations en FLE (Français Langue étrangère) et en TAL (Traitement Automatique des Langues), des pistes pour la conception de didacticiels peuvent être esquissées.

Engagé depuis deux ans, ce programme a pris la forme d'une préservation d'ESLO1 et d'un traitement numérique des données, avec un recensement des travaux effectués sur le corpus. Depuis un an, il s'est engagé dans la préparation d'ESLO2.

Le site du projet http://eslo.tge-adonis.fr/

Corpus de Français Parlé Parisien des années 2000 (CFPP2000)

Le Corpus de Français Parlé Parisien (CFPP2000) est composé d'un ensemble d'interviews non directives sur les quartiers de Paris et de la proche banlieue. Les entretiens, transcrits en orthographe et alignés au tour de parole, sont disponibles sur le net ; ils sont librement employables en échange de la mention dans la bibliographie des travaux qui en seraient tirés, d'une part de l'adresse du site: http://cfpp2000.univ-paris3.fr/ et d'autre part du document de présentation suivant : Branca-Rosoff S., Fleury S., Lefeuvre F., Pires M., 2012, « Discours sur la ville. Présentation du Corpus de Français Parlé Parisien des années 2000 (CFPP2000) »  http://cfpp2000.univ-paris3.fr/CFPP2000.pdf

En février 2013, ce corpus comprenait environ 550 000 mots. Un certain nombre d'outils en ligne, notamment un concordancier et  des outils textométriques permettent de mener des requêtes lexicales et grammaticales.

CFPP2000 est particulièrement destiné à des analyses sur le français oral. Le projet sous-jacent au corpus est par ailleurs l'étude des modifications et des variations qui interviennent dans ce qu'on peut considérer comme un parisien véhiculaire en tension entre le pôle du standard et le pôle du vernaculaire. Par ailleurs, il comporte des activités linguistiques diversifiées (description de quartier, anecdotes, argumentation...) et on peut par conséquent travailler sur la syntaxe propre à ces différentes utilisations du langage. Il permet enfin d'opposer dialogues (entre enquêteur et enquêtés) et multilogues (où la présence de plusieurs enquêtés favorise le passage à un registre familier).

CFPP2000 est constitué d'interviews longues (d'une heure en moyenne) intégralement transcrites. Il est donc utilisable pour examiner les singularités qui reviennent à l'idiolecte propre à une personne donnée, par opposition aux variantes diffusées dans des groupes plus larges (quartiers, groupes socio-culturels, classe d'âge, etc.).

Le corpus constitue enfin un ensemble de témoignages intéressants sur les représentations de Paris et de sa proche banlieue qui est susceptible d'intéresser des analystes du discours, des sociologues, ou tout simplement des curieux de la ville.

Le travail a été mené par trois universitaires de l'Université Sorbonne nouvelle Paris 3, Sonia Branca-Rosoff, Serge Fleury, Florence Lefeuvre (équipe CLESTHIA-SYLED) ainsi que par Mat Pires (équipe ELLIADD, Université de Franche-Comté). Il devrait se poursuivre dans les années qui viennent afin d'aboutir à environ 100 heures d'enregistrement transcrites.

Le démarrage des enquêtes a été facilité par des aides du Programme de Recherche de la Ville de Paris et de la Délégation générale à la langue française et aux langues de France.

Le site du projet CFPP2000 http://cfpp2000.univ-paris3.fr/