Claude GRASLAND
Professeur des Universités en géographie Université Paris Cité |
Camille SIGNORETTO
Maître de conférences en économie Université Paris Cité |
Objectif pédagogique :
L’objectif de cet enseignement est d’apprendre aux étudiants à collecter, explorer, transformer et visualiser des données hétérogènes, issus aussi bien de la statistique publique que des entreprises privées. Il combine les apprentissages fondamentaux du data mining (acquisition et nettoyage des données, analyse multidimensionnelle, modélisation, …) avec des enseignements plus ciblés (analyse spatiale, analyse prédictive, application interactive Shiny, …). L’ensemble des traitements et analyses sera réalisée dans un environnement Rstudio, sous la forme de programmes informatiques reproductibles réalisés en langage R, et remis sous la forme de documents Notebook ou RMarkdown (format html, pdf ou même word) et d’applications interactives (Shiny).
À la fin du semestre, les étudiants auront ainsi développé des compétences en programmation en R (langage R base et langage Tidyverse), en « data wrangling », en « data visualization », en « clustering » (socio-économique et spatiale), en analyse prédictive (avec un exemple d’algorithmes de machine learning), en utilisation de données ouvertes via des API et des « data packages », ou encore en élaboration d’applications interactives accessibles à tous sur internet.
Plan de cours :
-
Jeudi matin (Claude Grasland) Vendredi matin (Camille Signoretto) Séances 1 et 2 Installation des outils d’analyse Usage des API et des data packages
Data wrangling et langage Tidyverse Séances 3 et 4 Usage des API et des data packages + fonctions
Data wrangling et langage Tidyverse + fonctions
Séances 5 et 6 Data visualization – Cartographie (1/2) Data visualization et Introduction à Shiny (1/2) Séances 7 et 8 Data visualization – Cartographie (2/2) Data visualization et application sur Shiny (2/2) Séances 9 et 10 Interaction spatiale (régression multiple) / Clustering spatial (1/2) Clustering socio-éco (1/2) Séances 11 et 12 Interaction spatiale (régression multiple) / Clustering spatial (2/2) Clustering socio-éco (2 /2) et application sur Shiny Séances 13 et 14 Potentiel / Aires de marché – Modèle de concurrence Introduction à l’analyse prédictive – Decision Tree Séances 15 et 16 Préparation et Soutenance orale des dossiers
Contrôle des connaissances :
Le contrôle des connaissances repose d’une part, sur le rendu de deux exercices individuels de contrôle continu (40%) au cours du semestre (après les séances 1 à 4 ; et après les séances 5 à 8), et, d’autre part, sur la réalisation d’un dossier de data mining à partir d’une base de données choisie par l’étudiant (60%), qui devra donner lieu à un document de présentation Notebbok ou Rmarkdown et une application Shiny.
Bibliographie indicative :
- Husson F., 2018, R pour la statistique et la science des données, Presses Universitaires de Rennes, 415 p.
- Lemberger P., Batty M., Morel M. et Raffaëlli J.-L., 2015, Big Data et Machine Learning. Manuel du data scientist, Dunod, 219 p.