Interview d'expert

Zoom sur Epigene Labs : la startup française Data qui lutte contre le cancer

6 minutes de lecture | Akpéli NORDOR
Après un double cursus PharmD-PhD à l'Université Paris Descartes et une formation avancée à la Harvard Medical School, Akpéli poursuit en recherche en biologie du cancer à l'Institut Curie à Paris et en biologie computationnelle au Massachusetts General Hospital de Boston. En janvier 2019, il cofonde Epigene Labs qui développe des méthodes combinant génomique et data science pour faire avancer la lutte contre le cancer. Basé à Paris, il gère l’équipe R&D.

Julien HAZIZA
Diplômé de l’ESSEC, du Master data science de Centrale-Supélec et d’un PharmD de l'Université Paris Descartes, Julien démarre sa carrière comme consultant data science chez EY. Il rejoint Epigene Labs à sa création et, en tant que Head of Product, est en charge d’élaborer et de tester des outils d’intelligence artificielle pour l'agrégation et l'analyse de données de santé issues de sources variées. Julien est également très impliqué dans la mise en place de toute la stack technique.

/ 01

Quel est votre cœur d'activité ?

Epigene Labs aide les scientifiques des cancers en milieu académique et dans l’industrie biopharmaceutique à mieux piloter leurs programmes de R&D, en combinant des méthodes d’expertise humaine et d’intelligence artificielle sur des données du génome riches et variées. Nous nous attaquons pour cela, d’une part, au problème de l’engineering de ces données, et d’autre part, au développement d’analytics répondant à leurs questions clés.

/ 02

Quelles sont les particularités des données traitées par Epigene Labs ?

Aujourd’hui, nous sommes très focalisés sur les données transcriptomiques (quantification de l’expression des gènes dans un tissu) et nos efforts s’amplifient à grande vitesse sur les données génomiques (séquence ADN (ATCG) des gènes). Ces données sont couplées à de la donnée clinique qui décrit les échantillons qui sont séquencés. C’est sur cette donnée clinique – ou méta donnée (la donnée descriptive de la donnée moléculaire) – que l’on a commencé à mettre nos efforts R&D pour standardiser les informations extraites dans une ontologie de référence propre à Epigene Labs. Car, autant la donnée moléculaire est plus ou moins structurée de la même façon, autant la donnée clinique est générée manuellement par les chercheurs qui génèrent les data sets. Il y a donc presque autant de façon de décrire un échantillon que de biologistes et d’oncologues dans le monde ! C’est un beau challenge que d’aller extraire l’information et de la standardiser pour rendre chaque échantillon comparable ; et de ce fait, pouvoir agréger plus d’échantillons de patients, plus de données moléculaires, pour créer des cohortes virtuelles d’intérêt qui changent d’échelle (par rapport à des cohortes isolées). Cela nous permet d’adresser en partie le problème de dimensionnalité, bien connu dans le domaine de la santé, où, du fait qu’une observation corresponde à un(e) patient(e), on se retrouve avec très peu d’observations mais énormément de features descriptives de ces échantillons. L’idée est d’agréger toutes les données qui existent (accessibles publiquement ou via nos partenariats) pour créer des cohortes virtuelles de patients qui sont beaucoup plus grosses afin d’extraire davantage d’insights biologiques de ces données-là ; passer de quelques dizaines ou maximum centaines de patients à des milliers voire des centaines de milliers, et peut-être même un jour, des millions.

Nous avons aussi un enjeu sur le volume des données brutes de séquence : pour la couche transcriptomique seulement, pour chaque patient, il y a 4 à 5 Go de données. Cela nécessite un gros travail de data engineering pour pouvoir transformer cette donnée brute correspondant à des millions de petites séquences et arriver à quelque chose d’exploitable dans un modèle, donc à une matrice de nombres (une agrégation d’informations issues de ce fichier brut). On traite ainsi des To de données avec de nombreuses étapes plus ou moins complexes.

Dernier point, la donnée que nous traitons est de la donnée très sensible. Même lorsque c’est de la donnée publique, et du fait de la régulation et de la sensibilité de cette donnée, on doit avancer en ayant des normes de sécurité très élevées. Bien que nous n’ayons jamais le nom des patients, on dispose de leur séquence d’ADN et d’informations cliniques qui pourraient potentiellement nous permettre de remonter vers les patients et d’avoir beaucoup d’informations sur leur vie. On doit donc développer nos pipelines dans un environnement hyper sécurisé. C’est un problème auquel on est en train de se heurter et qui a motivé plusieurs orientations de recrutement.

/ 03

Comment avez-vous structuré l’équipe ?

Aujourd’hui, nos équipes sont réparties en 3 pôles :

Le pôle computational biology est composé de profils qui font de la biologie et de la bioinformatique. Ils développent nos analytics et aident aussi dans l’ingénierie de la donnée moléculaire. En effet, tous les algorithmes que l’on utilise pour passer de fichiers de séquences de millions de lignes à une matrice de chiffres sont des algorithmes qui ont été inventés par des bioinformaticiens et ils nous aident à les utiliser. Ils font donc un peu de data engineering et beaucoup d’analytics et de biologie.

Le pôle data science qui travaille principalement sur l’harmonisation des données cliniques via différentes techniques d’IA. Ces tâches qui pouvaient prendre quelques heures s’effectuent maintenant en minutes donc c’est vraiment ‘game changing’ étant donné le volume de données. La data science assiste aussi les bioinformaticiens sur des questions d’utilisation des algorithmes de machine learning et deep learning. On a des projets où l’on pousse l’état de l’art de la bioinformatique souvent basé sur des statistiques classiques en y injectant de nouvelles techniques de machine learning.

Le pôle software qui s’occupe de mettre en production tout ce qui est développé afin de faciliter la collaboration de tout le monde dans le process ; et aussi de sécuriser les data et de créer toute notre infrastructure cloud. On travaille beaucoup là-dessus !

/ 04

De quelles compétences avez-vous eu besoin au fur et à mesure du développement du prototype et des problématiques d’industrialisation ?

Nous avons fait beaucoup d’exploratoire au début pour développer les premiers prototypes avec des profils en computational biology et data science, puis il a fallu ajouter des compétences en ingénierie logicielle. L’enjeu était de passer d’algorithmes d’intégration des données et d’analytics qui sont dans des notebooks à quelque chose d’utilisable en production par des partenaires via notre web app.

Il a donc fallu créer l’infrastructure, automatiser les pipelines sur le cloud et déployer nos API de manière plus robuste.

Nous nous sommes aussi renforcés en software pour le versionnement des données car les données moléculaires sont updatées assez régulièrement. L’ADN est une molécule extrêmement stable mais la compréhension que nous en avons est très dynamique, avec des mises-à-jour permanentes des équipes de recherche à travers le monde. Cela pose la problématique de reproductibilité des résultats : dans le milieu industriel, il est attendu qu’en prenant les mêmes données, en utilisant les mêmes algorithmes et en faisant les mêmes opérations, on ait les mêmes résultats ; alors que dans le milieu académique c’est rarement le cas. La partie software prend ici tout son sens pour industrialiser les process (comment penser ton environnement de développement, comment tes données sont-elles versionnées, etc.).

Enfin, il faudra, par la suite, recruter pour renforcer notre équipe qui adresse le problème de sécurité des données. Depuis le début, on se fait accompagner par un cabinet d’avocats experts dans le domaine qui nous aide à construire le cadre ; et par l’un de nos board member, actuellement CTO de Lifen (une healthtech qui transporte une bonne part de l’information médicale en France) qui nous donne des conseils stratégiques et pratiques. Actuellement, notre Project Manager développe notre dictionnaire de l’oncologie et définit les relations entre les différents termes, ce qui sert de base à l’architecture des modèles d’apprentissage. Ce travail d’ingénierie du savoir et de data gouvernance est essentiel pour pouvoir bien interagir avec nos partenaires, mais il faudra rapidement d’autres personnes à plein temps sur ces sujets, côté admin et côté software.

/ 05

Attendez-vous de vos Data Scientists et Software Engineers des compétences en biologie ?

Plus aujourd’hui. Au début, c’était important car l’équipe était plus restreinte donc on a en interne des profils qui ont souvent des doubles compétences. Nos bioinformaticiens par exemple sont en général des biologistes qui se sont mis à la Data, ou des matheux ou ingénieurs qui se sont mis à la biologie. Ça aide à créer des ponts. Pareillement, le fait que le premier software engineer que l’on ait recruté ait fait de la bioinformatique et qu’il ait travaillé dans une boîte de génomique, ça a beaucoup aidé ; mais on a maintenant des profils qui n’ont jamais fait de biologie.

Ce n’est donc pas obligatoire mais il faut un fort attrait pour ce domaine car sans ‘big picture’ de la biologie, de la génomique et des cancers, c’est très compliqué d’arriver à comprendre la particularité des enjeux. On aime toujours rencontrer des candidats qui ont montré cet intérêt par des projets qu’ils ont pu faire en parallèle, ou des expériences professionnelles qu’ils ont pu avoir dans le domaine.

Le grand avantage des profils français c’est qu’ils ont fait de la biologie jusqu’en terminale donc ils savent ce qu’est une cellule et de l’ADN, et ça va assez vite de leur expliquer les bases de la biologie moléculaire ; tandis que des profils plus anglo-saxons, ils peuvent ne jamais être allés jusque-là. Cette culture générale française nous aide beaucoup et nous conforte dans notre capacité à embaucher des gens qui n’ont pas fait de biologie au niveau universitaire.

/ 06

Quelles compétences recherchez-vous aujourd’hui ?

On s’intéresse beaucoup aux profils qui ont travaillé sur des problématiques d’active learning, sur les voitures autonomes par exemple, car ça ressemble à ce que l’on veut faire en termes d’harmonisation de la donnée clinique. Pour prendre un exemple concret, si la voiture autonome détecte un vélo sur le porte-vélo d’une autre voiture, il faut qu’elle apprenne que ce n’est pas un vélo qui est en train de traverser et pour annoter cette donnée, c’est l’humain qui reste plus fort. On a le même genre de problématique quand tu décris un patient : si tu décris un homme qui a un cancer de l’ovaire c’est qu’il y a un problème et ça, la machine ne peut pas s’en rendre compte si tu ne le lui as pas expliqué clairement.

Tous les efforts qui tendent vers la catégorisation de ce qui se passe sur ton image sont intéressants car dans les couches de données génomiques, il y a de l’information interconnectée à catégoriser.

On a échangé avec un data scientist d’Instagram qui cherchait à résoudre des questions du type « est-ce vraiment un chien que l’on voit là ? », « cette personne aime-t-elle vraiment cette image ? », etc. ; et c’est exactement les mêmes problèmes que l’on a quand on veut harmoniser, enrichir même la donnée clinique qui décrit un problème génomique.

/ 07

Vos prochains recrutements ?

Un machine learning engineer qui soit capable de comprendre le problème, l’état de l’art correspondant et de mettre en production les meilleures solutions, et même de les battre !

On recherche aussi un NLP engineer qui fasse la même chose, mais sur du NLP.

On regarde avant tout les profils qui ont un bon background scientifique / mathématiques / algorithmique, qui soient capables d’aller regarder dans la littérature ce qui est sorti sur le traitement de telle ou telle problématique, dans tel ou tel contexte, que ce soit en santé ou autre, et qui aient l’esprit critique de se dire « ça je pense que ça peut être intéressant pour telle problématique que l’on a » pour ensuite investiguer, faire une phase exploratoire, implémenter les algorithmes et, avec l’aide des software engineers, mettre ça en production sur notre plateforme.

A lire également

Comment se former en Data ?

Créer son département Data

Retrouvez tous nos articles & offres d'emploi sur LinkedIn

Suivez-nous sur LinkedIn