Le monde de la Data peut sembler difficile d’accès pour les néophytes. Voici quelques éléments pour y voir plus clair !

Les métiers de la Data

Ces catégories sont faites pour vous aider à y voir plus clair dans les appellations que les entreprises  donnent dans les descriptions de postes. Derrière un même intitulé de poste, les entreprises peuvent rechercher des compétences différentes. Nous avons essayé de dégager les grandes tendances du marché pour vous y permettre d’y voir plus clair, toutefois rien n’est fixé dans ces métiers et selon les entreprises des nuances peuvent apparaître.

Son rôle

Le Data Scientist est à la croisée de trois domaines que sont les mathématiques, l’informatique et l’aspect business.

Au cœur de la valorisation des données, il comprend les enjeux et les problématiques stratégiques de l’entreprise et met en place des algorithmes qui y répondent. Le Data Scientist sait compter sur son ingéniosité pour conceptualiser les besoins métiers et définir les indicateurs cohérents, analyser  ainsi les données pertinentes à l’aide d’algorithmes élaborés par ses soins et hiérarchiser les résultats afin qu’ils soient exploitables par le pouvoir décisionnel. Il intervient sur toutes les étapes du travail : définition du problème, collecte des données, nettoyage, mise en place des modèles et création des algorithmes. Il doit également avoir de bonnes capacités de communication car il est au contact des opérationnels métiers et des profils plus techniques et doit donc adapter son discours à son auditoire. En particulier dans les grands groupes, il est souvent appelé à faire de la vulgarisation pour expliquer au reste de l’entreprise sa démarche et ses conclusions.

Ses Compétences

Concernant les méthodes, on attend de lui qu’il ait des connaissances en analyse de données, en modélisation et dans différentes approches de Machine Learning.

Les nombreux outils qu’il sera appelé à manipuler sont les langages informatiques (Python,R,Java…) ainsi que les frameworks de l’écosystème Hadoop et Spark.

En ce qui concerne ses qualités personnelles ; c’est la curiosité intellectuelle, les capacités d’apprentissage, la rigueur, l’aptitude pour le travail en équipe ou encore les capacités de communication qui seront valorisées.

Son rôle

Le data Analyst utilise des outils statistiques et informatiques afin d’organiser, synthétiser et traduire les informations utiles aux organisations pour orienter les prises de décision des acteurs décisionnels. A l’aval de la chaîne de traitement de la donnée tout en collaborant avec le Data Scientist sur les dimensions technico-scientifiques, il explore et exploite, extrait et analyse les données en définissant des KPI (indicateurs clefs de performance) pertinents : il peut ainsi vulgariser et restituer de manière pertinente et, a fortiori, sous un format exploitable, les résultats aux décideurs, notamment au travers de Data visualisations.

Son Profil

Il vient en général d’une formation d’école d’ingénieur ou d’école de commerce avec une forte appétence analytique. On lui demande de bien connaître les outils liés à l’analyse, d’avoir un goût pour les chiffres et une forte sensibilité aux enjeux business.

Ses Compétences

En ce qui concerne les outils qu’il sera appelé à manipuler, on attend de lui qu’il connaisse les outils de visualisation de données (Tableau, Qlikview…), qu’il maitrise Excel VBA et ait des connaissances dans d’autres langages de programmation (SQL, Python, R…).

Quant aux qualités que l’on attend de lui, nous évoquerons des capacités d’analyse, le goût du travail en équipe, des capacités de communication ou encore de la curiosité intellectuelle.

Son rôle

L’architecte Big Data intervient le plus souvent en amont de l’organisation du traitement de la donnée. Son rôle est de mettre en place toute l’infrastructure technique nécessaire à la collecte et au traitement de gros volumes de données. Grace à sa vision d’ensemble des technologies Big Data, il  s’assure de la cohérence de la structure des bases de données mais aussi des frameworks afin qu’ils soient en phase avec les besoins de l’organisation et adaptés aux enjeux de l’entreprise.

Son Profil

Il vient en général d’une formation orientée informatique,  il dispose d’une vision d’ensemble de l’écosystème technique qu’il associe à une bonne compréhension des enjeux métiers et des problématiques de Data Science.

Ses Compétences

Il sera amené à manipuler de nombreux outils. On attend de lui qu’il ait une connaissance approfondie des SI des entreprises, qu’il maitrise les bases de données NOSQL, qu’il soit familier avec les outils open source du Big Data comme les écosystèmes Hadoop ou Spark par exemple.

Quant aux qualités  recherchées, on fera attention à la curiosité intellectuelle, l’autonomie ou bien aux capacités de communication du candidat.

Son rôle

L’ingénieur Big Data s’occupe de la maintenance au quotidien des bases de données et des frameworks Big Data. C’est également lui qui fait migrer les bases de données et les frameworks des entreprises vers les évolutions les plus récentes.

Son Profil

Il vient d’une formation en informatique. Il dispose d’une expertise sur les technologies liées à la Data et sait les implémenter.

Ses Compétences

En ce qui concerne les outils qui lui seront nécessaires, il doit maîtriser les frameworks Big Data (Hadoop, Spark…) ainsi que les bases de données NOSQL (MongoDB, Elasticsearch, Cassandra…). On attend aussi de lui la maitrise de langages de programmation (Java, Python, Scala…) .

On recherchera chez lui des qualités de curiosité intellectuelle, de rigueur, ou encore d’adaptabilité.

Son rôle

L’Expert Data Visualisation est un développeur front-end et back end qui créé des applications de data visualisation. Grâce à son travail sur les interfaces, il  permet aux équipes opérationnelles d’y voir plus clair dans les données.

Son profil

Il est issu d’une formation en informatique.

Ses compétences

On attend de lui une maîtrise des langages de programmation développement web (HTML, CSS, Javascript…), mais aussi de frameworks (Django, Angularjs, D3.js …).

Quant aux qualités recherchées chez un expert Data visualisation, il s’agit de la créativité, de la curiosité intellectuelle, de l’autonomie ou encore des aptitudes au travail en équipe.

Son Rôle

Grâce à sa connaissance des enjeux et des problématiques liés au Big Data mais aussi des enjeux business (sur un secteur ou une entreprise), il gère les projets Data de l’entreprise. Il est capable de faire la liaison entre les profils IT et les profils plus opérationnels.

Son profil

Il est en général  issu d’une formation de type école d’ingénieur ou de commerce. Le degré de technicité demandé variera selon les entreprises. On attend en tout cas de lui une très bonne connaissance métier, une très bonne connaissance des enjeux Data ainsi qu’une forte orientation Business.

Ses Compétences 

Chez un candidat, l’attention sera porté sur les capacités de communication, le relationnel, l’aptitude au travail en équipe mais aussi le leadership et l’autonomie.

Son rôle

Fort de son expérience, le Head of Data est en charge de l’équipe de Data Science. Il est en lien avec les directions métiers afin d’identifier les cas d’usage pertinents et les nouvelles problématiques à résoudre. Il peut également avoir un rôle important d’évangélisation de la Data en interne.

Son profil

Il est issu d’une formation en mathématiques ou bien  en informatique. L’orientation à dominante IT ou à dominante mathématiques dépend des enjeux de l’entreprise, de ses problématiques Data et de la taille des équipes.

Ses compétences

Le Head of Data est attendu sur sa connaissance des différentes méthodes d’analyse de données, de modélisation et de Machine Learning.

Il se doit d’avoir une  vision d’ensemble des différents outils du Big Data : les langages (Java, Python, R…) ; les frameworks (Hadoop, Spark…) et les écosystèmes associés.

Concernant ses qualités, on rechercha en priorité chez lui des aptitudes managériales, un bon relationnel, des capacités de vulgarisation, des aptitudes pour le travail en équipe et de la rigueur.

Son rôle

Le Chief Data Officer est le directeur des données de l’entreprise. Cadre dirigeant, il participe au pilotage de la stratégie globale de l’entreprise et fait en sorte qu’elle soit Data Driven. Il doit s’assurer de la bonne collecte des données et de la transmission des informations les plus pertinentes pour la prise de décision. Il s’occupe également de la gouvernance des données, de leur contrôle et de leur sécurité.

Profil

Généralement issu d’une formation de type école d’ingénieur, il dispose d’une bonne connaissance des technologies du Big Data ainsi que d’une bonne expertise métier.

Compétences

On cherchera chez un Chief Data Officer des capacités à convaincre mais aussi des qualités de travail en équipe.

Les Data Scientists, les Data Analysts, les Ingénieurs Big Data et les Architectes Big Data peuvent également être des consultants.

Dans ces cas là, en plus de leurs expertises premières, ils seront attendus sur certaines qualités supplémentaires : d’abord l’approche business mais aussi leur communication et leur relationnel. Enfin, on attendra d’eux d’importantes capacités de synthèse et de vulgarisation.

 

Petit lexique des termes Data

 

3V

3V

Volume, vitesse et variété. Ce sont les piliers du Big Data, les caractéristiques qui définissent le changement dans le monde du traitement de la donnée.
OpenData

OpenData

Ce sont des données, brutes, rendues accessibles à tous facilement et gratuitement. Les principales plateformes d’Open Data sont Opendata.Gouv et Datasoft.
Open Source

Open Source

Le principe est similaire à l’Open Data mais ici ce sont les éditeurs de logiciels qui mettent à disposition leur code, gratuitement.
Machine Learning

Machine Learning

C’est une technique de programmation, qui permet à une machine, de prédire un résultat à partir d’un jeu de données.
Apprentissage supervisé

Apprentissage supervisé

En Machine Learning, cela signifie que pendant la phase d’apprentissage, les résultats cherchés par les algorithmes se trouvent dans le jeu de données analysé.
Apprentissage non supervisé

Apprentissage non supervisé

En Machine Learning, signifie que l'apprentissage se fait sur un jeu de données où l’on ne connait pas les réponses. Il s’agit alors pour l’algorithme de trouver des tendances ou des schémas au sein de la donnée.
Données structurées

Données structurées

Données harmonisées et stockées dans un tableur ou une base de données.
Données non structurées

Données non structurées

Les données non structurées sont des données stockées sans format prédéfini. Elles sont plus difficiles à analyser que les données structurées.
R

R

Langage statistique très utilisé pour l’analyse de données
Python

Python

Langage de programmation universel mais qui est très utile lorsqu’on veut faire de la data science. Il contient des packages de fonctions déjà préconçues, appelés librairies.
SQL (Structure Query language)

SQL (Structure Query language)

Langage informatique de manipulation de base de données déclaratif. Il permet de rechercher, d'ajouter, de modifier ou de supprimer des données dans les bases de données relationnelles.
Hadoop

Hadoop

Framework/ système de gestion de fichiers distribués qui permet de traiter en simultané des milliers de fichiers. C’est donc une technologie indispensable lorsqu’on traite de gros volumes de données.
Hadoop Common

Hadoop Common

Premier module Hadoop.
Hadoop HDFS

Hadoop HDFS

Système de distribution de fichier, qui divise le volume important de données en “blocs” puis réparti ces blocs dans différents clusters, ou différentes machine, appelées “noeuds”.
Hadoop YARN

Hadoop YARN

Système de traitement simultané des différentes tâches et différentes fonctions de Hadoop.
Hadoop MapReduce

Hadoop MapReduce

Système de gestion des requêtes dans les noeuds. Il permet de manipuler de grandes quantités de données en les distribuant dans un cluster de machines pour être traitées.
Hive

Hive

Logiciel d'analyse de données permettant d'utiliser Hadoop avec une syntaxe proche du SQL, qui converti les requêtes en MapReduce. Hive a été initialement développé par Facebook.
Spark

Spark

Framework de calcul distribué qui n’utilise pas la technologie MapReduce. Le fonctionnement se fait en mémoire vive, ce qui permet un calcul cent fois plus rapide.
DataLake

DataLake

C’est l’endroit où l’on stocke toutes les données de l’entreprise, sans qu’elles soient traitées.
Natural Language Processing

Natural Language Processing

C’est une technique visant à décrypter et analyser automatiquement le langage humain. Les logiciels de traductions sont un exemple d'application du NLP.
Data mining

Data mining

Ensemble de méthodes qui a pour but l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données.
Clustering

Clustering

= Segmentation. Technique de machine learning non supervisée qui consiste à créer des groupes qui ont des caractéristiques similaires à partir de ces données.
Regression logistique

Regression logistique

Technique de machine learning supervisée. Il s’agit de trouver l’influence de certains facteurs sur une variable binaire. Elle permet notamment de mesurer l’impact de certaines variables sur des “classes” ou des “catégories” représentées en binaire.
Deep Learning

Deep Learning

= Deep Learning. Technique de machine learning, qui veut imiter le fonctionnement de notre cerveau par le biais d'un réseau de neurones artificiels composé de milliers d'unités de calculs.
Business Analytics

Business Analytics

Discipline qui consiste à analyser les données de l’entreprise pour prendre de meilleures décisions stratégiques et optimiser les processus de l’entreprise. L’un des principaux domaines d’application du Business Analytics est le marketing.
Gamification

Gamification

Méthode consistant à reprendre les théories et principes des jeux vidéos, pour des actions ou des applications qui ne sont pas des jeux. Cette approche, a pour but d’engager plus facilement l’utilisateur. La gamification est souvent utilisée dans le domaine du marketing.
Predictive Analytics

Predictive Analytics

= Analyse prédictive. Ensemble de techniques issues des statistiques, de la théorie des jeux, et de connaissance à partir des données, qui analysent des faits présents et passés pour faire des hypothèses sur des événements futurs.
Internet of Things (IoT)

Internet of Things (IoT)

Ce terme désigne l’ensemble des objets connectés et la « connexion » de ces objets à un réseau plus large. Ces objets peuvent donc recevoir et envoyer des informations en temps réel.
Real Time Bidding (RTB)

Real Time Bidding (RTB)

Technique d’enchères en temps réel utilisée dans le domaine des médias et de la publicité. Un algorithme de “pre-bid” détermine souvent la valeur de l’enchère en fonction des données du contexte ou des données sur l’utilisateur qui charge la page.
Analyse en temps réel

Analyse en temps réel

Un système d’analyse en temps réel est un système évènementiel capable de prendre des décisions (des actions) avec une latence inférieure à 100 milisecondes. Le Real Time Bidding est un système d’analyse en temps réel par exemple.