Matthieu Bizien

Consultant en Data Science & Deep Learning - Freelance

Son parcours

  • Diplômé de Polytechnique
  • Ex-consultant chez EY
  • Est devenu consultant indépendant en Data en 2016

Interview réalisée en avril 2017

Pouvez-vous nous présenter votre parcours et nous en dire un peu plus sur ce que vous faites ?

J’ai fait mes études à Polytechnique où je me suis spécialisé en économie. J’ai ensuite suivi une formation en Data Science à l’école de la statistique l’ENSAE.

En sortant d’école, j’ai d’abord travaillé dans le cabinet de conseil Bluestone. J’y ai réalisé diverses missions sur des problématiques variées allant des systèmes de reconnaissance, à la maintenance prédictive ou même la modélisation physique.

Après deux ans dans le conseil, ma fibre d’entrepreneur et mon désir d’aller plus loin dans la relation client m’ont poussé à me lancer en freelance. Je travaille actuellement pour plusieurs clients, notamment sur la compréhension de langage naturel (NLP).

Travailler à son compte nécessite beaucoup de rigueur et de s’auto-former en permanence  afin d’être toujours plus attractif auprès de potentiels clients. Mais c’est aussi une aventure très excitante.

Vous êtes spécialisé en Deep Learning et on en entend beaucoup parler aujourd’hui mais concrètement, le Deep Learning, qu’est-ce que c’est ? Que peut-on faire grâce au Deep Learning ?   

Le Deep Learning est un type de modèle de Machine Learning. Ce modèle repose sur des réseaux de neurones qui communiquent entre eux. Le Deep Learning permet de répondre à des problématiques de plus en plus complexes.

Concernant le traitement des images par exemple, on peut désormais apprendre à une machine à nommer les objets sur un visuel. Facebook travaille ainsi sur du Deep Learning afin que la machine puisse expliquer le contenu d’une image à un non-voyant. Plus récemment, le développement transfert de style a permis de comprendre le style d’un peintre et de le reproduire: l’application Prisma peut ainsi transformer une image en une peinture de Van Gogh.

D’importants progrès ont aussi été réalisés au niveau de la voix : Android a largement amélioré son service vocal grâce à des voix artificielles bien plus réalistes qu’avant.

On dit que le Deep Learning se base sur le fonctionnement du cerveau, qu’est-ce que cela veut dire ? 

Comme le cerveau, le Deep Learning intègre et traite un nombre important d’informations, puis aboutit à des conclusions en conséquence. Dans les deux cas, la compréhension des informations entrantes et la façon de les gérer est permise grâce aux neurones.

Cependant, nous sommes loin de comprendre le fonctionnement du cerveau, ce qui rend donc compliqué les tentatives de le reproduire.

Par ailleurs, il ne s’agit pas du tout du même environnement. Le cerveau évolue dans un environnement biologique complexe, et l’interaction des neurones est rendue possible grâce à des messages électriques et chimiques. Le Deep Learning est entièrement simulé sur ordinateur et les neurones communiquent grâce à de l’algèbre linéaire. Ce qui est efficace dans un cas ne l’est pas forcément dans l’autre.

Comment fonctionne un réseau de neurones ? 

La disposition est assez simple. Il s’agit de connections entre les neurones disposés par couches. La première couche envoie des informations à la seconde, la seconde à la troisième, et ainsi de suite… Pendant la phase d’apprentissage, la communication fonctionne ensuite en sens inverse, ce qui s’appelle la back-propagation.

Les réseaux neuronaux existent depuis les années 80 : quelles avancées techniques et/ou scientifiques ont permis l’émergence du Deep Learning ?

Les réseaux neuronaux existent effectivement depuis les années 80. Cependant, face aux difficultés rencontrées lors de la modélisation des connaissances, la motivation initiale s’est essoufflée et l’approche s’est rapidement éteinte.

Le Deep Learning a connu un renouveau à partir de 2012 grâce aux travaux dirigés par Geoffrey Hinton. Celui-ci a de loin dépassé le state-of-the-art qui était basé sur des modèles de computer vision « classique ». Depuis le développement ne s’est plus arrêté.

Trois facteurs expliquent ce retour en force : le Big Data, la puissance de calcul et l’évolution d’algorithmes toujours plus performants. La puissance de calcul a augmenté exponentiellement, via l’utilisation de processeurs graphiques. Ceci a permis d’aborder des modèles de plus en plus complexes en utilisant de plus en plus de données. Et ça continue d’évoluer ! Google propose maintenant des processeurs tensoriels extrêmement puissants, et Stanford a publié un dataset d’images médicales d’un petabyte !

Quelles sont les problématiques courantes des entreprises ; en lien avec le Deep Learning ?

Dans le domaine du Deep Learning, chaque problématique est unique. Les besoins et les réponses à apporter dépendent de nombreux facteurs comme le business model de l’entreprise, ses enjeux, sa concurrence ou sa structure.

On peut trouver des problématiques de classification d’images, de reconnaissance de texte, de détection d’anomalies au niveau des logs…

Le Deep Learning peut être le coeur de l’entreprise, avec les chatbots.

Quels conseils donneriez-vous à un Data Scientist qui veut monter en compétence en Deep Learning ?

Dans un premier temps, il me paraît nécessaire de se former sur l’aspect théorique et pratique. De nombreux MOOCs permettent un apprentissage approfondi et de qualité, cependant il est indispensable de suivre des cours récents car le domaine évolue extrêmement vite.

Concernant les technologies, elles changent régulièrement. Aujourd’hui, beaucoup utilisent Tensorflow, l’outil de Google. Keras peut-être utilisé en complément pour créer rapidement des modèles. Facebook a également lancé Pytorch, un nouveau framework extrêmement prometteur, particulièrement pour des données de type texte.

Enfin, avoir des bases solides en Machine Learning est nécessaire pour une visibilité sur les autres modèles disponibles, qui peuvent être supérieurs sur certains problèmes.

Quelles sont aujourd’hui les limites du Deep Learning ?

Etant donné les nombreuses avancées de modélisation actuelles, je vois peu de limites théoriques.

Cependant, certains projets nécessitent des ressources importantes, qu’elles soient technologiques ou humaines, et l’investissement demandé peut freiner l’avancée de la recherche.

Par ailleurs, il est difficile de copier les meilleurs dans le domaine et d’obtenir les mêmes résultats. Si le cœur du modèle peut être expliqué, les petites astuces qui font la différence ne sont pas toujours dévoilées.

Enfin, il y a encore trop peu d’arguments théoriques qui expliquent pourquoi un modèle est plus pertinent qu’un autre. Il s’agit d’une approche empirique qu’il n’est pas toujours possible de démontrer par les mathématiques.

Et quelles sont, à votre avis, les prochaines évolutions du Deep Learning ?

Personnellement, je vois plusieurs axes d’évolution pour le Deep Learning :

D’abord la création augmentée par ordinateur va, à terme, devenir un outil révolutionnaire. Grâce à de l’apprentissage non-supervisé, des machines sont maintenant déjà capables de créer de l’image à partir d’une description. Le Deep Learning permet en effet de reconnaître les espaces sous-jacents et d’en créer des visualisations. Les prochains challenges se porteront sur la haute définition, la 3D et la vidéo.

L’apprentissage par renforcement va également continuer à se développer. En confrontant une machine à différentes problématiques, celle-ci accumule sa propre expérience et est confrontée à un environnement riche, comme par exemple le jeu Theft auto 5. Elle apprend à comprendre et traiter de façon autonome des situations nouvelles. C’est une réelle avancée car l’intelligence artificielle est désormais capable de définir des règles et de les appliquer.

Bien sûr, de nouveaux besoins et de nouvelles problématiques encore difficiles à prévoir sont à venir. Le Deep Learning n’a pas fini de réserver de nombreuses surprises…

Retour aux témoignages