Frédéric LEFEBRE-NARÉ
Directeur data, Niji

Objectifs pédagogiques :

Ce cours se propose d’ouvrir le capot de la chaîne de traitement de données, en abordant les data de manière pratique et « artisanale ».

Plan succinct :

Une double introduction par l’aval (la « magie » de l’IA) et l’amont (la création de data en réponse à un problème) :

  • Introduction à l’intelligence artificielle et au « prédictif » (exemple de la reconnaissance d’images) : notion de modèle, descente de gradient, rétropropagation
  • Approche d’ensemble de la chaîne des data

Six types de données, illustrant chacun certaines étapes de la chaîne des data :

  • Données codées par l’Homme (formulaires) : codage, traitement statistique, aléas, valeurs manquantes, autocorrélation, échantillonnage (aléa et biais d’échantillonnage)
  • Données de gestion (de PGI/ERP) : structuration pour le stockage, interrogation structurée, traitement statistique. Initiation à SQL.
  • Données multimédia, inventaires, textes structurés. XML.
  • Textes (naturels) : synthèse, biais temporels, encodage, nettoyage, tri et indexation, recherche. IRAMuTeQ, regex
  • Données temporelles : visualisation (dataviz), autocorrélation, détection d’aberrations et alerte, échantillonnage dans le temps et compression, pseudo-textes.
  • Images : stockage de masse, compression, transparence ou opacité des algorithmes, synthèse.

Auteurs utilisés

Alain Desrosières (codage, lien entre quantification et qualification), Bruno Latour (pour la notion de data comme sublata, « obtenues ») et Jérôme Denis (le travail amont pour arriver aux data), Léon Bottou (moteur universel d’apprentissage automatique, lien entre description statistique et causalité), Cathy O’Neil (biais liés aux data), Dominique Boullier (data comme répliques de l’activité sociale), Philippe Amiel (les conversations comme matériau sociologique : introduction à l’ethnométhodologie d’Harold Garfinkel)…

Blogs et revues, en anglais : techinsider, wired, datasciencecentral…

Modalités de contrôle des connaissances

40 % contrôle continu (dont 20% participation / 20% tests pendant le cours), 20 % lecture commentée du manuel de cours, et 40 % contrôle final sur table.