Datamining (48 h) – Consultants et chargés d'études socioéconomiques

Claude GRASLAND

Professeur des Universités en géographie

Université Paris Cité

Camille SIGNORETTO

Maître de conférences en économie

Université Paris Cité

Objectif pédagogique :

L’objectif de cet enseignement est d’apprendre aux étudiants à collecter, explorer, transformer et visualiser des données hétérogènes, issus aussi bien de la statistique publique que des entreprises privées. Il combine les apprentissages fondamentaux du data mining (acquisition et nettoyage des données, analyse multidimensionnelle, modélisation, …) avec des enseignements plus ciblés (analyse spatiale, analyse prédictive, application interactive Shiny, …). L’ensemble des traitements et analyses sera réalisée dans un environnement Rstudio, sous la forme de programmes informatiques reproductibles réalisés en langage R, et remis sous la forme de documents Notebook ou RMarkdown (format html, pdf ou même word) et d’applications interactives (Shiny).

À la fin du semestre, les étudiants auront ainsi développé des compétences en programmation en R (langage R base et langage Tidyverse), en « data wrangling », en « data visualization », en « clustering » (socio-économique et spatiale), en analyse prédictive (avec un exemple d’algorithmes de machine learning), en utilisation de données ouvertes via des API et des « data packages », ou encore en élaboration d’applications interactives accessibles à tous sur internet.

Plan de cours :

	Jeudi matin (Claude Grasland)	Vendredi matin (Camille Signoretto)
Séances 1 et 2	Installation des outils d’analyse Usage des API et des data packages	Data wrangling et langage Tidyverse
Séances 3 et 4	Usage des API et des data packages + fonctions	Data wrangling et langage Tidyverse + fonctions
Séances 5 et 6	Data visualization – Cartographie (1/2)	Data visualization et Introduction à Shiny (1/2)
Séances 7 et 8	Data visualization – Cartographie (2/2)	Data visualization et application sur Shiny (2/2)
Séances 9 et 10	Interaction spatiale (régression multiple) / Clustering spatial (1/2)	Clustering socio-éco (1/2)
Séances 11 et 12	Interaction spatiale (régression multiple) / Clustering spatial (2/2)	Clustering socio-éco (2 /2) et application sur Shiny
Séances 13 et 14	Potentiel / Aires de marché – Modèle de concurrence	Introduction à l’analyse prédictive – Decision Tree
Séances 15 et 16	Préparation et Soutenance orale des dossiers

Contrôle des connaissances :

Le contrôle des connaissances repose d’une part, sur le rendu de deux exercices individuels de contrôle continu (40%) au cours du semestre (après les séances 1 à 4 ; et après les séances 5 à 8), et, d’autre part, sur la réalisation d’un dossier de data mining à partir d’une base de données choisie par l’étudiant (60%), qui devra donner lieu à un document de présentation Notebbok ou Rmarkdown et une application Shiny.

Bibliographie indicative :

Husson F., 2018, R pour la statistique et la science des données, Presses Universitaires de Rennes, 415 p.
Lemberger P., Batty M., Morel M. et Raffaëlli J.-L., 2015, Big Data et Machine Learning. Manuel du data scientist, Dunod, 219 p.