Plateformes de science des données et de “machine-learning”

6 Mar

Gartner a publié en février 2018 son plus récent rapport “Magic Quadrant for Data Science and Machine-Learning Platforms”. Il y a trois outils qui attirent mon attention, soit RapidMiner, Dataiku et Knime.

J’ai déjà écrit concernant RapidMiner, un outil que j’utilisais dans le passé, mais que j’utilise moins maintenant. Pourquoi? Avant de répondre à la question, je dois dire que l’outil s’est grandement amélioré dans les dernières années. Il est très convivial et facile à utiliser. Mais la philosophie de l’entreprise a aussi changé. Avant la restructuration de l’entreprise en 2013, il existait moins de limites sur le logiciel version “communauté”. D’ailleurs, lors de ces changements, on avait annoncé à la communauté de RapidMiner, en novembre 2013, que l’entreprise allait donner accès à une version “débloquée”, sans limites, soit la version antécédentes à la plus récente. Maintenant, la version courante du logiciel est bloquée à 10 000 lignes pour les données et l’utilisation du CPU est limité. Vous me direz que c’est un peu normal, une entreprise existe pour faire des profits. Mais 10 000 lignes, ça limite beaucoup! Et la possibilité d’accéder à une version antécédente débloquée ne semble plus faire partie des options. D’ailleurs, les changements dans l’approche avec l’open source font partie des mises en garde du rapport de Gartner.

À propos de Dataiku, c’est probablement mon coup de coeur. La plateforme est bien faite, intégrant les diverses parties du travail, que ce soit le profilage des données et le nettoyage, l’exploration des données, la possibilité d’utiliser les “Jupyter Notebook”, les divers algorithmes de “machine learning”, etc. C’est vraiment un environnement de développement en science des données. Dataiku offre une version gratuite de leur plateforme, que l’on peut installer assez facilement, et cela depuis plusieurs années. La limite sur la taille ou le nombre de lignes dans les données a été retiré il y a plus de 2 ans. Évidemment, il y a quelques options qui ne sont offertes que sur la version commerciale, mais la version gratuite reste très fonctionnelle. Le seul élément qui restreint son utilisation est la courbe d’apprentissage et si l’on décide de s’investir dans son utilisation, on est alors un peu à la merci des changements qui pourraient être apportés dans les prochaines années quant à son accessibilité. La version commerciale reste hors de prix pour une utilisation “de données citoyennes”; donc l’idée de pouvoir l’acheter ne semble pas être une option pour les individus.

Si l’on veut avoir accès à une plateforme sans avoir de limites et avec moins de risques, c’est probablement Knime qui est le gagnant. D’ailleurs, selon Gartner, c’est actuellement le “leader” dans le domaine. Je dois avouer que je l’ai peu utilisé, mais que je suis présentement en apprentissage avec cet environnement. Il est clair que leur approche est d’offrir une plateforme “open source”, mais payante si on veut avoir du support. La version gratuite n’a pas de limites, est facilement accessible et l’entreprise est beaucoup moins agressive commercialement que certaines entreprises. Je reviendrai avec plus de précision sur ce logiciel.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *