Wer nutzt scikit-learn?#
J.P.Morgan#
Scikit-learn ist ein unverzichtbarer Bestandteil des Python-Toolkits für maschinelles Lernen bei JPMorgan. Es wird bankweit für Klassifizierung, prädiktive Analysen und viele andere Aufgaben des maschinellen Lernens eingesetzt. Seine einfache API, die breite Auswahl an Algorithmen und die Qualität der Dokumentation machen scikit-learn gleichzeitig sehr zugänglich und sehr leistungsfähig.
Stephen Simmons, VP, Athena Research, JPMorgan
Spotify#
Scikit-learn bietet eine Toolbox mit soliden Implementierungen einer Reihe von State-of-the-Art-Modellen und erleichtert deren Einbindung in bestehende Anwendungen. Wir haben es bei Spotify viel für Musikempfehlungen verwendet und ich halte es für das am besten designte ML-Paket, das ich bisher gesehen habe.
Erik Bernhardsson, Engineering Manager Music Discovery & Machine Learning, Spotify
Inria#
Bei INRIA nutzen wir scikit-learn zur Unterstützung von Spitzenforschung in vielen Teams: Parietal für Neuroimaging, Lear für Computer Vision, Visages für medizinische Bildanalyse, Privatics für Sicherheit. Das Projekt ist ein fantastisches Werkzeug, um schwierige Anwendungen des maschinellen Lernens in einem akademischen Umfeld zu bewältigen, da es leistungsfähig und vielseitig, aber dennoch einfach zu bedienen und gut dokumentiert ist, was es für Doktoranden gut geeignet macht.
Gaël Varoquaux, Forschung am Parietal
betaworks#
Betaworks ist ein in NYC ansässiges Startup-Studio, das neue Produkte entwickelt, Unternehmen wachsen lässt und in andere investiert. In den letzten 8 Jahren haben wir eine Handvoll datengesteuerter Social-Data-Analyse-Dienste gestartet, wie Bitly, Chartbeat, digg und Scale Model. Das Data-Science-Team von Betaworks verwendet Scikit-learn für eine Vielzahl von Aufgaben. Von explorativer Analyse bis zur Produktentwicklung ist es ein wesentlicher Bestandteil unseres Werkzeugkastens. Aktuelle Anwendungsbeispiele sind diggs neues Videoempfehlungssystem und Ponchos dynamisches heuristisches Unterraum-Clustering.
Gilad Lotan, Chief Data Scientist
Hugging Face#
Bei Hugging Face nutzen wir NLP und probabilistische Modelle, um konversationsfähige künstliche Intelligenzen zu generieren, mit denen man gerne chattet. Obwohl wir für einige unserer NLP-Aufgaben tiefe neuronale Netze einsetzen, ist scikit-learn immer noch das Brot-und-Butter-Werkzeug unserer täglichen Routine für maschinelles Lernen. Die einfache Handhabung und Vorhersagbarkeit der Schnittstelle sowie die geradlinigen mathematischen Erklärungen, die bei Bedarf verfügbar sind, sind das Killerfeature. Wir verwenden eine Vielzahl von scikit-learn-Modellen in der Produktion, und sie sind auch im operativen Betrieb sehr angenehm zu handhaben.
Julien Chaumond, Chief Technology Officer
Evernote#
Der Aufbau eines Klassifikators ist typischerweise ein iterativer Prozess des Erkundens von Daten, der Auswahl von Merkmalen (Attribute der Daten, von denen angenommen wird, dass sie auf irgendeine Weise vorhersagbar sind), des Trainings von Modellen und schließlich deren Bewertung. Für viele dieser Aufgaben stützten wir uns auf das ausgezeichnete scikit-learn-Paket für Python.
Mark Ayzenshtat, VP, Augmented Intelligence
Télécom ParisTech#
An der Telecom ParisTech wird scikit-learn für praktische Übungen und Hausaufgaben in einführenden und fortgeschrittenen Kursen zum maschinellen Lernen verwendet. Die Kurse richten sich an Bachelor- und Masterstudenten. Der große Vorteil von scikit-learn ist seine schnelle Lernkurve, die es den Studenten ermöglicht, schnell an interessanten und motivierenden Problemen zu arbeiten.
Alexandre Gramfort, Assistant Professor
Booking.com#
Bei Booking.com verwenden wir Algorithmen des maschinellen Lernens für viele verschiedene Anwendungen, wie z. B. die Empfehlung von Hotels und Reisezielen an unsere Kunden, die Erkennung betrügerischer Reservierungen oder die Planung unserer Kundendienstmitarbeiter. Scikit-learn ist eines der Werkzeuge, die wir bei der Implementierung von Standardalgorithmen für Vorhersageaufgaben verwenden. Seine API und Dokumentation sind ausgezeichnet und machen die Verwendung einfach. Die Entwickler von scikit-learn leisten hervorragende Arbeit bei der Integration von State-of-the-Art-Implementierungen und neuen Algorithmen in das Paket. Somit bietet scikit-learn bequemen Zugang zu einem breiten Spektrum von Algorithmen und ermöglicht es uns, leicht das richtige Werkzeug für den richtigen Job zu finden.
Melanie Mueller, Data Scientist
AWeber#
Das scikit-learn-Toolkit ist für das Data Analysis and Management Team bei AWeber unverzichtbar. Es ermöglicht uns, AWesome-Dinge zu tun, die wir sonst nicht die Zeit oder die Ressourcen hätten, um sie zu erreichen. Die Dokumentation ist ausgezeichnet und ermöglicht es neuen Ingenieuren, schnell viele verschiedene Algorithmen für unsere Daten zu bewerten und anzuwenden. Die Text-Feature-Extraktions-Utilities sind nützlich, wenn wir mit dem großen Umfang an E-Mail-Inhalten arbeiten, den wir bei AWeber haben. Die RandomizedPCA-Implementierung zusammen mit Pipelining und FeatureUnions ermöglicht es uns, komplexe Algorithmen für maschinelles Lernen effizient und zuverlässig zu entwickeln.
Jeder, der mehr darüber erfahren möchte, wie AWeber scikit-learn in einer Produktionsumgebung einsetzt, sollte sich Vorträge von PyData Boston von Michael Becker von AWeber ansehen, die unter mdbecker/pydata_2013 verfügbar sind.
Michael Becker, Software Engineer, Data Analysis and Management Ninjas
Yhat#
Die Kombination aus konsistenten APIs, gründlicher Dokumentation und erstklassiger Implementierung macht scikit-learn zu unserem bevorzugten Paket für maschinelles Lernen in Python. Scikit-learn macht die Durchführung fortgeschrittener Analysen in Python für jedermann zugänglich. Bei Yhat erleichtern wir die Integration dieser Modelle in Ihre Produktionsanwendungen. So eliminieren wir den unnötigen Entwicklungsaufwand, der bei der Produktion von Analysearbeiten entsteht.
Greg Lamp, Mitbegründer
Rangespan#
Das Python-Scikit-learn-Toolkit ist ein Kernwerkzeug in der Data-Science-Gruppe bei Rangespan. Seine große Sammlung gut dokumentierter Modelle und Algorithmen ermöglicht es unserem Team von Data Scientists, schnell Prototypen zu erstellen und iterativ die richtige Lösung für unsere Lernprobleme zu finden. Wir stellen fest, dass scikit-learn nicht nur das richtige Werkzeug für die Prototypenerstellung ist, sondern seine sorgfältige und gut getestete Implementierung uns das Vertrauen gibt, scikit-learn-Modelle in der Produktion auszuführen.
Jurgen Van Gael, Data Science Director
Birchbox#
Bei Birchbox stehen wir vor einer Reihe von Problemen im Bereich maschinelles Lernen, die typisch für den E-Commerce sind: Produktempfehlungen, Nutzer-Clustering, Lagerbestandsvorhersage, Trenderkennung usw. Scikit-learn ermöglicht uns, mit vielen Modellen zu experimentieren, insbesondere in der Explorationsphase eines neuen Projekts: Die Daten können auf konsistente Weise übergeben werden; Modelle sind leicht zu speichern und wiederzuverwenden; Updates halten uns über neue Entwicklungen aus der Community der Mustererkennungsforschung auf dem Laufenden. Scikit-learn ist ein wichtiges Werkzeug für unser Team, das auf die richtige Weise in der richtigen Sprache entwickelt wurde.
Thierry Bertin-Mahieux, Data Scientist
Bestofmedia Group#
Scikit-learn ist unser Nr. 1 Werkzeug für alle Angelegenheiten des maschinellen Lernens bei Bestofmedia. Wir nutzen es für eine Vielzahl von Aufgaben (z. B. Spam-Bekämpfung, Vorhersage von Anzeigenklicks, verschiedene Ranking-Modelle) dank der vielfältigen, State-of-the-Art-Algorithmus-Implementierungen, die darin verpackt sind. Im Labor beschleunigt es die Prototypenerstellung komplexer Pipelines. In der Produktion kann ich sagen, dass es sich als robust und effizient genug erwiesen hat, um für geschäftskritische Komponenten eingesetzt zu werden.
Eustache Diemert, Lead Scientist
Change.org#
Bei change.org automatisieren wir die Verwendung von scikit-learns RandomForestClassifier in unseren Produktionssystemen, um E-Mail-Targeting zu steuern, das jede Woche Millionen von Nutzern weltweit erreicht. Im Labor haben sich die einfache Bedienung, die Leistung und die allgemeine Vielfalt der implementierten Algorithmen von scikit-learn als unschätzbar erwiesen, um uns eine einzige zuverlässige Quelle für unsere Anforderungen an maschinelles Lernen zu bieten.
Vijay Ramesh, Software Engineer in Data/science bei Change.org
PHIMECA Engineering#
Bei PHIMECA Engineering verwenden wir scikit-learn-Schätzer als Stellvertreter für teure zu evaluierende numerische Modelle (hauptsächlich, aber nicht ausschließlich finite-Elemente-Mechanikmodelle), um die intensiven Nachbearbeitungsoperationen zu beschleunigen, die in unserem simulationsbasierten Entscheidungsfindungsrahmenwerk involviert sind. Die fit/predict-API von scikit-learn vereinfacht zusammen mit ihren effizienten Kreuzvalidierungswerkzeugen die Aufgabe der Auswahl des am besten passenden Schätzers erheblich. Wir verwenden scikit-learn auch zur Veranschaulichung von Konzepten in unseren Schulungen. Die Schulungsteilnehmer sind immer beeindruckt von der einfachen Bedienung von scikit-learn trotz der offensichtlichen theoretischen Komplexität des maschinellen Lernens.
Vincent Dubourg, PHIMECA Engineering, PhD Engineer
HowAboutWe#
Bei HowAboutWe ermöglicht uns scikit-learn die Implementierung einer breiten Palette von Techniken für maschinelles Lernen in der Analyse und in der Produktion, obwohl wir ein kleines Team haben. Wir verwenden die Klassifizierungsalgorithmen von scikit-learn, um das Nutzerverhalten vorherzusagen, was uns beispielsweise ermöglicht, den Wert von Leads von einer bestimmten Traffic-Quelle früh in der Laufzeit des Leads auf unserer Website abzuschätzen. Da die Profile unserer Nutzer hauptsächlich aus unstrukturierten Daten (Antworten auf offene Fragen) bestehen, verwenden wir die Tools zur Merkmalsextraktion und Dimensionsreduktion von scikit-learn, um diese unstrukturierten Daten in Eingaben für unser Matchmaking-System zu übersetzen.
Daniel Weitzenfeld, Senior Data Scientist bei HowAboutWe
PeerIndex#
Bei PeerIndex verwenden wir wissenschaftliche Methodik, um den Influence Graph zu erstellen – einen einzigartigen Datensatz, der es uns ermöglicht, zu identifizieren, wer wirklich einflussreich ist und in welchem Kontext. Dazu müssen wir eine Reihe von Problemen im Bereich maschinelles Lernen und prädiktiver Modellierung bewältigen. Scikit-learn hat sich als unser primäres Werkzeug für die Entwicklung von Prototypen und den schnellen Fortschritt herausgestellt. Von der Vorhersage fehlender Daten und der Klassifizierung von Tweets bis hin zur Clusterbildung von Social-Media-Nutzergemeinschaften hat sich scikit-learn in einer Vielzahl von Anwendungen als nützlich erwiesen. Seine sehr intuitive Benutzeroberfläche und die hervorragende Kompatibilität mit anderen Python-Tools machen es zu einem unverzichtbaren Werkzeug in unseren täglichen Forschungsbemühungen.
Ferenc Huszar, Senior Data Scientist bei Peerindex
DataRobot#
DataRobot entwickelt Software für prädiktive Analysen der nächsten Generation, um Data Scientists produktiver zu machen, und scikit-learn ist ein integraler Bestandteil unseres Systems. Die Vielfalt an Techniken des maschinellen Lernens in Kombination mit den soliden Implementierungen, die scikit-learn bietet, machen es zu einer All-in-One-Bibliothek für maschinelles Lernen in Python. Darüber hinaus ermöglichen uns seine konsistente API, der gut getestete Code und die permissive Lizenzierung, es in einer Produktionsumgebung einzusetzen. Scikit-learn hat uns buchstäblich Jahre Arbeit erspart, die wir sonst hätten leisten müssen, um unser Produkt auf den Markt zu bringen.
Jeremy Achin, CEO & Mitbegründer DataRobot Inc.
OkCupid#
Wir verwenden scikit-learn bei OkCupid, um unser Matchmaking-System zu bewerten und zu verbessern. Die Bandbreite der Funktionen, insbesondere die Vorverarbeitungs-Tools, ermöglicht es uns, es für eine Vielzahl von Projekten zu nutzen, und es ist leistungsfähig genug, um das Datenvolumen zu bewältigen, das wir durchsuchen müssen. Die Dokumentation ist ebenfalls sehr gründlich, was die Bibliothek recht einfach zu bedienen macht.
David Koh – Senior Data Scientist bei OkCupid
Lovely#
Bei Lovely streben wir danach, den besten Wohnungsmarktplatz zu liefern, mit Respekt vor unseren Nutzern und unseren Angeboten. Von der Analyse des Nutzerverhaltens, der Verbesserung der Datenqualität bis hin zur Erkennung von Betrug ist scikit-learn ein regelmäßiges Werkzeug zur Gewinnung von Erkenntnissen, zur prädiktiven Modellierung und zur Verbesserung unseres Produkts. Die leicht verständliche Dokumentation und die intuitive Architektur der API machen maschinelles Lernen sowohl erforschbar als auch für eine breite Palette von Python-Entwicklern zugänglich. Ich empfehle ständig, dass mehr Entwickler und Wissenschaftler scikit-learn ausprobieren.
Simon Frid – Data Scientist, Lead bei Lovely
Data Publica#
Data Publica entwickelt mit C-Radar ein neues prädiktives Vertriebstool für Kunden- und Marketingteams. Wir nutzen scikit-learn intensiv, um Kundensegmentierungen durch Clustering zu erstellen und zukünftige Kunden basierend auf dem Erfolg oder Misserfolg vergangener Partnerschaften vorherzusagen. Wir kategorisieren auch Unternehmen anhand ihrer Website-Kommunikation dank scikit-learn und seinen Implementierungen von Algorithmen des maschinellen Lernens. Letztendlich ermöglicht maschinelles Lernen die Erkennung schwacher Signale, die traditionelle Werkzeuge nicht sehen können. All diese komplexen Aufgaben werden dank der hohen Qualität des scikit-learn-Frameworks einfach und unkompliziert ausgeführt.
Guillaume Lebourgeois & Samuel Charron – Data Scientists bei Data Publica
Machinalis#
Scikit-learn ist der Eckpfeiler aller Maschinenlernprojekte, die bei Machinalis durchgeführt werden. Es verfügt über eine konsistente API, eine große Auswahl an Algorithmen und viele Hilfswerkzeuge, um den Boilerplate-Code zu handhaben. Wir haben es in Produktionsumgebungen für eine Vielzahl von Projekten eingesetzt, darunter Click-Through-Rate-Vorhersage, Informationsextraktion und sogar das Zählen von Schafen!
Tatsächlich nutzen wir es so intensiv, dass wir begonnen haben, unsere häufigsten Anwendungsfälle in Python-Pakete einzufrieren, einige davon Open Source, wie z. B. FeatureForge. Scikit-learn in einem Wort: Großartig.
Rafael Carrascosa, Lead Developer
solido#
Scikit-learn treibt über Solido den Mooreschen Gesetz voran. Solido entwickelt CAD-Tools, die von den meisten Top-20-Halbleiterunternehmen und Fabs zur Entwicklung der Spitzenchips in Smartphones, Automobilen und mehr verwendet werden. Scikit-learn unterstützt die Algorithmen von Solido für seltene Ereignisschätzungen, Worst-Case-Verifikation, Optimierung und mehr. Bei Solido sind wir besonders angetan von den Bibliotheken von scikit-learn für Gaußsche Prozessmodelle, großskalige regularisierte lineare Regression und Klassifizierung. Scikit-learn hat unsere Produktivität gesteigert, da wir für viele ML-Probleme keinen eigenen Code mehr „rollen“ müssen. Dieser PyData 2014 Vortrag enthält Details.
Trent McConaghy, Gründer, Solido Design Automation Inc.
INFONEA#
Wir setzen scikit-learn für die schnelle Prototypenentwicklung und kundenspezifische Data-Science-Lösungen innerhalb unserer In-Memory Business Intelligence Software INFONEA® ein. Als gut dokumentierte und umfassende Sammlung von State-of-the-Art-Algorithmen und Pipelining-Methoden ermöglicht uns scikit-learn, flexible und skalierbare wissenschaftliche Analyse-Lösungen anzubieten. Daher ist scikit-learn von immensem Wert für die Realisierung einer leistungsstarken Integration von Data-Science-Technologie innerhalb von Self-Service-Business-Analytics.
Thorsten Kranz, Data Scientist, Coma Soft AG.
Dataiku#
Unsere Software, Data Science Studio (DSS), ermöglicht es Benutzern, Datenservices zu erstellen, die ETL mit maschinellem Lernen kombinieren. Unser Modul für maschinelles Lernen integriert viele scikit-learn-Algorithmen. Die scikit-learn-Bibliothek passt perfekt zu DSS, da sie Algorithmen für praktisch alle Geschäftsanwendungsfälle bietet. Unser Ziel ist es, ein transparentes und flexibles Werkzeug anzubieten, das die Optimierung zeitaufwändiger Aspekte bei der Erstellung eines Datenservices, der Datenvorbereitung und des Trainings von Algorithmen für maschinelles Lernen auf allen Datentypen erleichtert.
Florian Douetteau, CEO, Dataiku
Otto Group#
Hier bei der Otto Group, einem der globalen Top-5-B2C-Online-Händler, nutzen wir scikit-learn in allen Aspekten unserer täglichen Arbeit, von der Datenexploration über die Entwicklung von Anwendungen für maschinelles Lernen bis hin zum produktiven Einsatz dieser Dienste. Es hilft uns, Probleme des maschinellen Lernens im Bereich E-Commerce bis hin zur Logistik zu lösen. Seine konsistenten APIs ermöglichten uns, das Palladium REST-API-Framework darum zu bauen und scikit-learn-basierte Dienste kontinuierlich bereitzustellen.
Christian Rammig, Head of Data Science, Otto Group
Zopa#
Bei Zopa, der ersten Peer-to-Peer-Kreditplattform überhaupt, nutzen wir scikit-learn intensiv, um das Geschäft zu betreiben und die Erfahrung unserer Nutzer zu optimieren. Es befeuert unsere Modelle für maschinelles Lernen in den Bereichen Kreditrisiko, Betrugsrisiko, Marketing und Preisgestaltung und wurde für die Vergabe von Zopa-Krediten im Wert von mindestens 1 Milliarde Pfund Sterling eingesetzt. Es ist sehr gut dokumentiert, leistungsfähig und einfach zu bedienen. Wir sind dankbar für die Möglichkeiten, die es uns geboten hat, und dafür, dass es uns ermöglicht, unsere Mission, Geld einfach und fair zu machen, zu erfüllen.
Vlasios Vasileiou, Head of Data Science, Zopa
MARS#
Scikit-Learn ist ein integraler Bestandteil des Machine-Learning-Ökosystems bei Mars. Ob wir bessere Rezepturen für Tierfutter entwickeln oder unsere Kakaolieferkette genau analysieren, Scikit-Learn wird als Werkzeug für die schnelle Prototypenentwicklung von Ideen und deren Überführung in die Produktion eingesetzt. Dies ermöglicht uns, die Bedürfnisse unserer weltweiten Verbraucher besser zu verstehen und zu erfüllen. Die funktionsreiche Tool-Sammlung von Scikit-Learn ist einfach zu bedienen und stattet unsere Mitarbeiter mit den Fähigkeiten aus, die sie benötigen, um die geschäftlichen Herausforderungen zu lösen, denen sie täglich gegenüberstehen.
Michael Fitzke, Next Generation Technologies Sr Leader, Mars Inc.
BNP Paribas Cardif#
BNP Paribas Cardif verwendet scikit-learn für mehrere seiner Modelle für maschinelles Lernen in der Produktion. Unsere interne Community von Entwicklern und Data Scientists nutzt scikit-learn seit 2015 aus mehreren Gründen: die Qualität der Entwicklungen, der Dokumentation und des Beitrags-Managements sowie die schiere Größe der beitragenden Community. Wir erwähnen sogar explizit die Verwendung von scikit-learn-Pipelines in unserer internen Modellrisikosteuerung als eine unserer guten Praktiken zur Verringerung operativer Risiken und des Risikos von Overfitting. Um die Entwicklung von Open-Source-Software und insbesondere das Projekt scikit-learn zu unterstützen, haben wir uns entschieden, seit seiner Gründung im Jahr 2018 am Konsortium von scikit-learn bei La Fondation Inria teilzunehmen.
Sébastien Conort, Chief Data Scientist, BNP Paribas Cardif