2005

Reconstituer des histoires individuelles a partir de données de suivi démographique

Arnaud Bringe et Raphaël Laurent

Toute analyse statistique requiert une organisation particulière des données qui parfois diffère assez fortement de leur structure de stockage. Ceci est particulièrement vrai lorsqu’à partir des informations collectées dans un Système de Suivi Démographique (SSD), on désire reconstituer des trajectoires individuelles. La démarche suivie ici partant de l’information structurée par événements de même nature (nuptialité, santé, décès, naissances, etc.) dans les systèmes de gestion de données, aborde sa transformation, avec un langage standard, en un fichier de trajectoires individuelles se prêtant par exemple à l’analyse de durée.

Cet ouvrage présente le maillon indispensable entre la collecte de l’information et son exploitation statistique par des méthodes biographiques : la mise en forme des données. La démarche utilisée pour la préparation des données est une phase primordiale, elle fait le lien entre collecte et étude, entre terrain et analyse. L’objectif premier de l’ouvrage est d’expliquer comment transformer les données issues d’un SSD, montrer quels sont les écueils à éviter et quelles sont les précautions à prendre.

Afin d’illustrer notre démarche, notre choix s’est porté sur le standard SQL universellement utilisé dans la grande majorité des systèmes de gestion de données, mais également de plus en plus dans les logiciels de traitement statistique.

Après une brève description des données d’un SSD, il s’agit de sensibiliser le lecteur aux différents problèmes posés lors de la phase de rassemblement et d’organisation des informations. Les principales commandes du langage SQL sont ensuite présentées, avant d’illustrer le processus de transformation de quelques exemples simples.
Pour finir, le mode opératoire avec les logiciels SAS® et Stata®, couramment utilisés dans l’analyse statistique, est également détaillé.

Arnaud BRINGÉ, ingénieur de recherche à l’INED, en poste au Service informatique, est responsable d’une équipe qui apporte conseil et formation dans l’utilisation de méthodes statistiques. Cette équipe a notamment acquis par son implication dans des projets de recherche, une expérience importante dans la structuration des bases de données.

Raphaël LAURENT, responsable informatique d’enquête à l’INED, en poste au Service des enquêtes et des sondages, est chargé de l’organisation informatique des projets d’enquêtes, de leur mise en place technique et notamment des développements des systèmes de bases de données relationnelles.