Mastère Spécialisé Valorisation des Données Massives
Résumé de la formation
- Type de diplôme: Mastère spécialisé
- Domaines de compétences: Informatique et Sciences du numérique
Présentation
Présentation
Ce Mastère Spécialisé® conjoint est co-accrédité par l'ENSEEIHT et l’INSA Toulouse.
Il est centré sur le traitement et la valorisation de données massives, privilégiant une déclinaison pluridisciplinaire en informatique et sciences des données et conjuguant les apprentissages scientifiques et opérationnels via un apprentissage par projet et une implication forte d’entreprises partenaires.
Il s’appuie sur l’expérience acquise dans la formation d'ingénieurs proposée et fait écho aux besoins croissants de diplômés dans ce domaine.
Objectifs
Former des professionnels du Big Data et de l'Intelligence Artificielle :
Acquérir à la fois des compétences pointues en informatique, en optimisation et en science des données pour la valorisation des gisements de données :
- Proposer et développer les algorithmes nécessaires afin d’extraire des informations pertinentes sur de vastes ensembles de données
- Créer des structures physiques et des architectures de données, afin de les rendre accessibles
- Créer des systèmes de traitement de données à grande échelle et proposer des solutions pour le stockage et l’accès aux données
- Superviser le flot de données de sa source à sa destination
- Développer des méthodes, moyens et outils informatiques pour aider à la prise de décision
- Participer à des activités de certificat.
Savoir-faire et compétences
La formation abordera les aspects techniques et légaux répondant ainsi aux attentes des métiers suivants : data scientist, data engineer, data manager, data analyst, chef de projet, ingénieur en informatique décisionnelle, responsable de contrôle qualité.
L’originalité de la formation est d’adresser un spectre large de compétences en informatique, en science des données et en optimisation.
Programme
Contenu de la formation
Organisation de la formation
Le Mastère Spécialisé s'organise autour de 472 heures de formation et d'une période de mise en situation professionnelle de part un stage en entreprise ou le suivi de la formation en alternance.
En moyenne, les blocs de compétences sont composées de 50% de cours et de 50% de travaux pratique afin que les apprenants puissent directement mettre en application les apports théoriques.
Programme du MS VALDOM
UE mise à niveau:
- Mise à niveau en Statistique
- Analyse en composantes principales, Modèle linéaire généralisé (régression linéaire, régression logistique)
- Classification non supervisée (Analyse Factorielle Discriminante, Approche hiérarchique, mélange gaussien, k-means)
- Introduction à R ou à Python
- Mise à niveau en Informatique
- Architecture d’un calculateur, système d’exploitation et réseaux
- Algorithmique, structures de données et complexité
- Introduction à la programmation orientée objet
- Bases de données
Infrastructures système et réseau virtualisées pour le big data
- Concepts et technologies de virtualisation : virtualisation des systèmes, virtualisation des réseaux
- Environnements de cloud : visions utilisateur et fournisseur (focus sur le IaaS), illustration avec AWS et OpenStack
- Performances :
- critères de performance (latence, débit, espace, consommation énergie ...)
- scalabilité/elasticité/QoS/énergie/... via autonomic computing, …
Plateformes Middleware pour le big data
- Services de Stockage (NoSQL, New-SQL, Key-value pairs)
- Traitement de données : batch (Hadoop, Spark, Cloudera, Cassandra, Neo4J), streaming (Storm et Spark)
- Projet d'intégration : développement et déploiement d'une application dans une infrastructure virtualisée pour une application big data (Spark, ...) avec étude de scalabilité
Calcul haute performance et applications
- Modèles et outils de programmation pour architectures hétérogènes :
- Modèles : message passing, task based, data parallel.
- Outils : MPI, OpenMP, Runtime, GPGPU (Cuda)
- Algorithmes scalables pour la haute performance, illustration en algèbre linéaire
Algorithmes d’optimisation numérique pour l’apprentissage
- Théorie convergence de méthodes d’optimisation, avec gradient, sous gradient. Cas avec et sans contrainte.
- Mise en œuvre pratique dans le cadre de problèmes d’apprentissage
- L’apprentissage dans la physique : assimilation de données. Méthodes variationnelles et ensemblistes.
- Algorithmes stochastiques et problèmes de grande taille. Convergence probabiliste
Optimisation Combinatoire et Apprentissage
- Graphes et optimisation combinatoire
- Heuristiques et Méta-Heuristiques
- Clustering de Graphes, Fouilles de Données
- TP d’application
Apprentissage machine
- Algorithmes d’apprentissage: régression linéaire généralisée, k-NN, arbres de décision, forêts aléatoires, Support Vector Machine, boosting…
- Apprentissage profond
- Imputation de données manquantes
- Détection d’anomalies, de défaillances
- Application sur des jeux de données réelles en R et Python
Technologies pour l’analyse de données massives
- Préparation des données avec SparkSQL, SparkStream
- Accélération GPU pour apprentissage profond et boosting
- Cas d'usage traités avec R, Python (Scikit-learn) et SparML (ou Mllib). Par exemple :
- Recommandation
- Fouille de textes
- Reconnaissance d'activités humaines (objets connectés)…
- Analyse d'images et de langage naturel par apprentissage profond (Keras et TensorFlow)
Learning par étude de cas parmi :
- Application bancaire
- Maintenance prédictive
- Traitement d’image
- Observation de la Terre
Projet transverse
- Préparation et Visualisation de données
- Chaine de traitement Big Data
- Évaluation expérimentale
Les aspects éthiques, juridiques et déontologiques (confidentialité des données, biais et explicabilité des algorithmes, dependable IA), seront abordés au travers d’un cycle de conférences.
Le Projet transverse et Learning par étude de cas seront entièrement dispensées par des industriels.
Stages
Stage de 6 mois en entreprise ou alternance
Admission
Condition d'accès
Public concerné :
Ce Mastère Spécialisé s'adresse aux cadres et ingénieurs désirant se spécialiser en informatique décisionnel, Big Data, Machine Learning et Deep Learning :
- Salariés
- Demandeurs d'emploi
- Jeunes diplômés
Pré-requis :
- Bac + 5 - Ingénieur, Master ou diplôme à niveau Bac +5 équivalent en mathématiques ou informatique
- Bac +4 avec à minima 3 ans d'expérience en informatique ou mathématiques
Le dossier du Mastère Spécialisé Spécialisé Valorisation des Données Massives est en cours d'instruction par France Compétences mais n'est toujours pas enregistré au RNCP.
Par conséquent les demandes de financement de la formation par CPF et Transition Professionnelle ne pourront pas être acceptées.
Et après
Insertion professionnelle
Les métiers ciblés par cette formation concernent toute la chaine de stockage, traitement et valorisation des données. Ils adressent les aspects techniques liés à l’infrastructure matérielle, l’infrastructure logicielle, les algorithmes de traitement et de prédiction, la mise en valeur et exploitation des résultats.
Les principaux métiers ciblés sont les suivants :
- Data Scientist
- Data Engineer
- Data Manager
- Data Analyst
- Architecte Big Data
- Ingénieur Big Data
- Consultant Business Intelligence (informatique décisionnelle)
- Responsable du contrôle qualité
Les emplois impactés par les mathématiques appliquées et l’informatique sont à forte valeur ajoutée (15 % du PIB et 9 % des emplois) et en nombre. 44% des technologies clés, identifiées comme telles par les rapports gouvernementaux, sont fortement impactées par les progrès en mathématiques et informatique.
La mobilisation de 5 grands champs de compétences (le traitement du signal et l’analyse d’images, le data mining, la Modélisation-Simulation-Optimisation (MSO), le Calcul Haute Performance (HPC), la sécurité des systèmes d’informations et la cryptographie) est croissante dans de nombreux secteurs d’activité, en particulier l’énergie, la santé ou encore l’industrie et les télécommunications.
Source : http://www.agence-maths-entreprises.fr
Contact(s)
Lieu(x) de la formation
- Toulouse