| Présentation | Accès aux corpus | Documentation | ![]() |
Accueil > Projets Sommaire Projet pilote d'archivage mutualiséLe CRDO est impliqué dans la définition et la mise en oeuvre d'une solution de stockage, de préservation pérenne et d'accès mutualisé pour les données en sciences humaines et sociale. Ce vaste projet est plioté par le TGE-Adonis qui en assure la maîtrise d'oeuvre et supervisé par la Direction des Archives de France qui devra assurer à terme le contrôle scientifique et technique de la partie de ces archives relevant du statut d'archives publiques. Il relie dans une même architecture sur le modèle de la norme ISO OAIS, les deux centres de calcul: celui du CINES pour le module d'entrées et celui de l'IN2P3 pour le module d'accès. La place du CRDO dans ce montage se trouve de part et d'autre de ces modules, à l'interface entre cette infrastructure dédiée à l'archivage et les producteurs et les utilisateurs des ressources orales. Cette opération pilote permettra de tester en vraie grandeur les conditions d'hébergement de corpus aux formats complexes et divers, et de pérennisation à long terme des données de la recherche. Ce projet est entré depuis le 22 juin 2010 dans une phase de production. Pour en savoir plus Le français et les langues de FranceLa Délégation générale à la langue française et aux langues de France (DGLFLF) a présenté, dans le cadre du plan de numérisation piloté par la MRT (Mission pour la Recherche et la Technologie) du ministère de la Culture, un programme consistant à numériser des fonds sonores du français et des langues parlées en France. Ce projet concerne non seulement les fonds « fragiles » dont les supports analogiques sont dans un état de détérioration, mais aussi des fonds plus récents qui constituerons ainsi une vaste base de données. Par leur indexation, leur catalogage et l'établissement de normes d'interopérabilité, l'objectif est de valoriser ces fonds. Un site portail sera créé, présentant les corpus de français et de langues de France de la base de données, regroupant de ce fait une riche collection de corpus des-dites langues. Par conséquent, cette base de données mettra à disposition à la fois de la communauté scientifique et du grand public des ressources représentant la diversité des pratiques linguistiques en France. Les fédérations Institut de linguistique française (ILF) et Typologie et universaux linguistiques (TUL) ont été sélectionnées pour proposer les corpus qui bénéficieront du plan de numérisation et l'Institut de l'Information Scientifique et Technique (INIST) a été chargé de l'intégration des extraits de corpus dans un site portail. Le CRDO intervient dans la coordination du travail sur les corpus de la fédération TUL. Ce programme qui s'inscrit dans une initiative unique en Europe et au niveau international, propose la numérisation de notre patrimoine linguistique dans le respect des nouvelles technologies de conservation, mais aussi d'enseignement et de traitement automatique des langues, et assurera ainsi la vitalité du français et des langues de France, véritable source de diversité culturelle. Consignes pour la description et éventuellement pour le dépôt des ressources qui vont alimenter le site portail Consulter les consignes.
Le portail "corpus de la parole".
Enquête Socio-Linguistique d'OrléansLe corpus ESLO (Enquête Socio-Linguistique d'Orléans) constitue, par son ampleur et sa cohérence, le plus important témoignage sur le français parlé avant 1980. Constitué par des universitaires britanniques à des fins didactiques (enseignement du français langue étrangère dans le système public d'éducation anglais), il représente à la fois une masse de documents papiers et une collection de bandes magnétiques vieillissante. L'objectif est de transférer les données sonores contenues dans l'enregistrement magnétique et d'en assurer l'indexation, un premier balisage et la mise à disposition sur Internet. Parallèlement, une exploitation exhaustive d'un sous-ensemble est engagée. Partant de l'expérience acquise, le CORAL (Centre orléanais de recherche en Anthropologie et Linguistique) a mis en chantier une nouvelle enquête dénommée ESLO2. L'objectif est d'évaluer, à une quarantaine d'années de distance, la dynamique sociale du français (et des usages de la langue comme des jugements sur son emploi) en prenant en compte la diversité des changements en fonction des paramètres sociaux. Le projet comprend quatre étapes :
Engagé depuis deux ans, ce programme a pris la forme d'une préservation d'ESLO1 et d'un traitement numérique des données, avec un recensement des travaux effectués sur le corpus. Depuis un an, il s'est engagé dans la préparation d'ESLO2. Le site du projet http://eslo.tge-adonis.fr/
Corpus de Français Parlé Parisien des années 2000 (CFPP2000)Le Corpus de Français Parlé Parisien (CFPP2000) est composé d'un ensemble d'interviews non directives sur les quartiers de Paris et de la proche banlieue. Les entretiens, transcrits en orthographe et alignés au tour de parole, sont disponibles sur le net ; ils sont librement employables en échange de la mention dans la bibliographie des travaux qui en seraient tirés, d'une part de l'adresse du site: http://cfpp2000.univ-paris3.fr/ et d'autre part du document de présentation suivant : Branca-Rosoff S., Fleury S., Lefeuvre F., Pires M., 2012, « Discours sur la ville. Présentation du Corpus de Français Parlé Parisien des années 2000 (CFPP2000) » http://cfpp2000.univ-paris3.fr/CFPP2000.pdf En février 2013, ce corpus comprenait environ 550 000 mots. Un certain nombre d'outils en ligne, notamment un concordancier et des outils textométriques permettent de mener des requêtes lexicales et grammaticales. CFPP2000 est particulièrement destiné à des analyses sur le français oral. Le projet sous-jacent au corpus est par ailleurs l'étude des modifications et des variations qui interviennent dans ce qu'on peut considérer comme un parisien véhiculaire en tension entre le pôle du standard et le pôle du vernaculaire. Par ailleurs, il comporte des activités linguistiques diversifiées (description de quartier, anecdotes, argumentation...) et on peut par conséquent travailler sur la syntaxe propre à ces différentes utilisations du langage. Il permet enfin d'opposer dialogues (entre enquêteur et enquêtés) et multilogues (où la présence de plusieurs enquêtés favorise le passage à un registre familier). CFPP2000 est constitué d'interviews longues (d'une heure en moyenne) intégralement transcrites. Il est donc utilisable pour examiner les singularités qui reviennent à l'idiolecte propre à une personne donnée, par opposition aux variantes diffusées dans des groupes plus larges (quartiers, groupes socio-culturels, classe d'âge, etc.). Le corpus constitue enfin un ensemble de témoignages intéressants sur les représentations de Paris et de sa proche banlieue qui est susceptible d'intéresser des analystes du discours, des sociologues, ou tout simplement des curieux de la ville. Le travail a été mené par trois universitaires de l'Université Sorbonne nouvelle Paris 3, Sonia Branca-Rosoff, Serge Fleury, Florence Lefeuvre (équipe CLESTHIA-SYLED) ainsi que par Mat Pires (équipe ELLIADD, Université de Franche-Comté). Il devrait se poursuivre dans les années qui viennent afin d'aboutir à environ 100 heures d'enregistrement transcrites. Le démarrage des enquêtes a été facilité par des aides du Programme de Recherche de la Ville de Paris et de la Délégation générale à la langue française et aux langues de France. Le site du projet CFPP2000 http://cfpp2000.univ-paris3.fr/
|
![]() ![]() | Contact | Credits |
![]() | ![]() | ![]() |







