La méthode ultime pour développer ses compétences et trouver un job en tant que Data Scientist grâce à Kaggle

Vous commencez à apprendre à programmer en R et/ou Python et vous souhaitez améliorer vos compétences en Data Science ? Vous êtes tombés au bon endroit ! Dans cet article je vais vous présenter Kaggle, l’endroit parfait pour apprendre et tester vos compétences en Data Science. 

#1. Kaggle, qu’est-ce que c’est ?

Kaggle est une plateforme dédiée à la Data Science, au Machine Learning et au Deep Learning en général. Le but principal est de participer à des compétitions entre Data Scientists, débutants comme experts. Ces compétitions permettent d’acquérir très rapidement des compétences en Data Science. Mais il y a divers autres fonctionnalités sur cette plateforme qui valent le détour et je vais toutes vous les présenter ici.

#2. Les Datasets : Trouver des données actuelles et super intéressantes à analyser

Le premier gros avantage de Kaggle, ce sont ses datasets, ou jeux de données en français. Il s’agit d’une réelle mine d’or de données prêtes à être utilisées pour apprendre à faire de la Data Science. Ces Datasets sont soit publiques, soit il s’agit de données provenant de collaborations avec des compagnies, des instituts de recherche ou des organisations, qui souhaitent que leurs données soient analysées par les utilisateurs de Kaggle. Pour accéder à l’ensemble des Datasets, ça se passe ici. Au total, il y a plus de 10000 jeux de données disponibles et donc prêts à être analysés par qui le souhaite. Allez-y faire un tour, vous verrez que la diversité des jeux de données disponibles est énorme, touchant aux domaines de la santé, de la sécurité, de la technologie, …

Voici les trois Datasets les plus populaires sur Kaggle actuellement. Par exemple, le deuxième Datasets contient des données sur 10000 applications de Google Play afin de pouvoir analyser l’Android Market. Ce jeu de données propose un tableau contenant, pour chaque ligne, le nom de l’application, sa catégorie, sa note, le nombre d’installation effectuées, etc. De quoi s’amuser à analyser ! 

Top 3 des Datasets les plus populaires sur Kaggle

Si vous cliquez sur un jeu de données, vous arriverez sur la page présentée sur l’image suivante. Cette page permet de télécharger le jeu de données en cliquant sur le bouton “Download All” et d’aller lire la description du Dataset en cliquant sur le bouton Overview. 

Exemple d’un Dataset sur Kaggle

#3. Les Kernels : explorer et exécuter du code pour faire du Machine Learning

Il s’agit d’un cloud permettant d’effectuer et partager ses analyses. Les analyses sont présentées sous forme de rapports sur lesquels l’ensemble du code utilisé et des résultats générés sont disponibles. Ces rapports sont générés soit avec Rmarkdown pour R, soit avec Jupyter Notebook pour Python. Si vous voulez en savoir plus sur Rmarkdown et Jupyter Notebook, allez lire l’article R vs Python, lequel choisir ?. Chaque Dataset de Kaggle possède ses Kernels associés, qui ont été créés par des personnes ayant analysé les données et partageant leur expertise.

Voici, sur l’image ci-dessous, un exemple de rapport disponible sous Kaggle. Dans ces rapports, il est possible d’écrire du texte pour expliquer ce qu’on fait, d’écrire le code qui permet de faire ce qu’on explique, puis d’afficher le résultat du code juste en dessous.

Exemple d’une analyse effectuée sur les Kernels de Kaggle. Source : https://www.kaggle.com/hiteshp/head-start-for-data-scientist

Vous pouvez donc les utiliser pour deux raisons :

  • Pour créer votre propre Kernels, effectuer une analyse et la partager. Les utilisateurs peuvent venir voir votre analyse et la noter. Vous pouvez aussi vous en servir comme vitrine lors d’un entretien d’embauche.
  • Pour apprendre. Si un jeu de données vous intéresse mais que vous ne savez pas comment l’analyser, vous pouvez aller lire l’analyse la mieux notée et ainsi apprendre à la faire vous-même.

Tous les kernels sont disponibles ici. Vous pouvez aller vous y perdre des heures. Il y a un système de filtre sur la page que je viens de vous partager, qui vous permet de trier les kernels par langage. Vous pouvez choisir R, si vous souhaitez voir uniquement les analyses effectuées avec R, ou Python si vous voulez celles faites en Python. C’est vraiment le meilleur endroit pour aller augmenter vos compétences de Data Scientist.

#4. Les compétitions de Data Science : participez, apprenez, gagnez en compétences !

Les compétitions sont un bon moyen d’acquérir de l’expérience mais aussi de gagner des prix ! Certaines entreprises ouvrent des compétitions pour que leurs données soient analysées, avec une somme à la clé pour la meilleure analyse. D’autres entreprises ouvrent des compétitions pour recruter le meilleur analyste. Mais avant de pouvoir se lancer dans les compétitions, il faut avoir de très bonnes bases avec le langage de programmation R ou Python. J’en profite donc pour vous parler de ma formation pour apprendre à programmer en R pour la Data Science. À l’occasion de l’ouverture de ce blog, j’offre 50 coupons de réduction pour ce cours, profitez-en 🙂

Coupon de réduction pour le cours “Apprendre la Data Science avec R de A à Z”

Getting started

Avant de se lancer dans les grandes compétitions Kaggle, il faut d’abord commencer par s’entraîner. Il y a les compétitions appelées “Getting started” qui sont faites pour les débutants. Je vous conseille de commencer par là, tout en vous aidant des nombreux kernels déjà existant sur ces compétitions.

Participer à votre première compétition Kaggle !

Featured

Ce sont des compétitions sponsorisées par les entreprises, avec de gros prix à la clé. Mais sans grande surprise, la compétition est rude !

Participer à une compétition “Featured”

Research

Les compétitions “Research” correspondent à des analyses plus orientées recherches, avec de petits prix à la clé, voir aucun, mais qui présente de superbes données à analyser. C’est sur ce genre de données que vous pouvez vous entraîner et gagner en compétences.

Participer à une compétition “Research”

Recruitment

Et enfin, le dernier type de compétition dont je vais vous parler est le type “Recruitment”. Il s’agit de compétitions sponsorisées par des entreprises qui souhaitent embaucher des Data Scientists. Majoritairement, il s’agit d’entreprises américaines.

Participer à une compétition “Recruitment”

#5. Les avantages de participer aux compétitions Kaggle

Gagner de l’expérience en tant que Data Scientist

En naviguant sur les divers kernels et en prenant le temps de lire les rapports d’analyse, vous verrez que cela vous permettra d’acquérir rapidement de l’expérience. Les domaines d’analyse sont extrêmement variés et vous trouverez tout ce que vous voulez sur Kaggle.

Utiliser ces compétitions comme vitrine pour présenter vos compétences

Encore une fois, profitez-en pour participer à des compétitions. Elles seront de belles vitrines pour présenter vos compétences à de potentiels employeurs, qui en voyant vos rapports d’analyse, sauront que vous êtes capable de mener des projets d’analyse en Data Science de manière autonome.

Apprendre le langage technique de la Data Science, en anglais

Comme vous l’aurez constaté, Kaggle est exclusivement en anglais, mais ne prenez pas peur ! Il est essentiel pour tout Data Scientist de connaître le vocabulaire technique lié au domaine de la Data Science, donc mettez-y vous, vous verrez ce n’est pas insurmontable. Que ce soit pour apprendre à programmer ou trouver des informations intéressantes et actuelles sur la Data Science, l’anglais est essentiel. Au début, j’essayais de trouver les réponses à mes questions en français, mais je me suis vite rendu compte que ce que je trouvais en anglais était beaucoup plus pertinent ! Vous vous en rendrez compte par vous-même, très rapidement.

Voilà, vous savez tout ! Alors n’hésitez plus et devenez un vrai compétiteur en Data Science !

Amandine de DataScienceR

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *