7 tips voor succes bij machinaal leren

In het eerste deel van onze Business Guide to Machine Learning (ML) werd uiteengezet hoe het overkoepelende concept van ML in een zakelijke omgeving veel genuanceerder is. De meest effectieve strategieën kijken naar ML in praktische zin, waarbij zowel complexe deep learning als minder intensieve 'cheap learning'-technieken worden gebruikt om bedrijfsprocessen te optimaliseren en tastbare business intelligence (BI)-inzichten te verkrijgen.

Het doel van het inzetten van ML binnen uw bedrijfsapplicaties is om uw bedrijfsresultaten te verbeteren of het concurrentievoordeel van uw bedrijf te vergroten. Maar in het grotere geheel van uw organisatie gaat het optimaal benutten van de tijd en middelen die u in dit proces investeert veel verder dan de algoritmen. De IT-besluitvormers in uw bedrijf moeten ervoor zorgen dat alles wat met uw ML-impementatie te maken heeft, van de gegevens en logistiek tot de manier waarop u met gebruikers omgaat, coherent samenwerkt om de effectiviteit te maximaliseren.



Ted Dunning, Ph.D., is de Chief Application Architect bij Hadoop-leverancier MapR, en co-auteur van twee boeken over wat hij 'Practical Machine Learning' noemt. Dunning heeft in de loop der jaren ML-technologieën ontwikkeld voor een aantal bedrijven, waaronder het ID Analytics-fraudedetectiesysteem (gekocht door LifeLock) en de Musicmatch Jukebox-software, die later Yahoo Music werd. Hij is momenteel ook vice-president van Incubation voor de Apache Software Foundation.

Dunning heeft de ML-ruimte decennialang zien evolueren en veel geleerd over wat wel en niet werkt in een praktische zakelijke omgeving. Hieronder beschrijft Dunning zeven best practices die moeten worden gevolgd bij het ontwikkelen van bedrijfsoplossingen die zijn geworteld in ML.

1. Vergeet logistiek niet

Succesvolle ML gaat niet alleen over het kiezen van de juiste tool of het juiste algoritme. Dunning zei dat je ook moet uitzoeken welke aanpak goed bij je past en deze ontwerpt voor de specifieke situatie die je aanpakt. Dunning had het bijvoorbeeld over ML in een online marketingcampagne, in tegenstelling tot veel gecompliceerdere scenario's zoals algoritmen die een autonome auto aansturen. Uw middelen besteden aan een incrementele verbetering van het algoritme is de moeite waard voor de auto, maar in het marketingscenario zou u een veel beter rendement halen uit het optimaliseren van alle logistiek eromheen.

'Vaak is het voor bedrijven de logistiek, niet het leren, dat je de waarde geeft. Dat is het deel waar je je tijd en middelen aan zou moeten besteden', zegt Dunning. 'Als je het algoritme aanpast, krijg je een kleine verbetering. Maar het aanpassen van die gegevens, de [grafische gebruikersinterface of] GUI en de manier waarop u naar uw gebruikers luistert en met hen communiceert, zou u al snel 100 procent kunnen verbeteren. Tijd besteden aan het tweaken van het algoritme is voor bedrijven net zoveel waard als luisteren naar je gebruikers.'

Om dit punt te illustreren, legde Dunning uit hoe hij ooit een model bouwde voor het identificeren van applicatiefraude (het openen van valse accounts met gestolen identiteiten) in de klantendatabase van een bedrijf. Het model dat hij bouwde, leverde geweldige resultaten op, maar Dunning merkte dat het het geslacht van de sollicitant erg zwaar woog.

Het bleek dat de logistiek niet werkte. Zoals het sollicitatieproces werkte, vulde de sollicitant pas zijn geslacht in nadat hij al klant was geworden en een aantal screeningstappen had doorlopen om fraudeurs eruit te filteren. Dus door het genderveld te gebruiken, bedroog het ML-model de logistiek van het hele fraudeproces. Dat heeft niets te maken met het algoritme, en alles met hoe het bedrijf in de eerste plaats aan zijn gegevens kwam.

2. Let op uw gegevens

Dunning zit vol met pakkende weetjes. Na te zijn begonnen met 'het is de logistiek, niet het leren', zei hij dat de andere helft van dat idee is: 'het zijn de gegevens, niet de algoritmen'. Een groot deel van het ervoor zorgen dat uw ML-algoritmen waardevolle inzichten opleveren, is ervoor zorgen dat u ze de juiste gegevens geeft. Dunning zei: als je niet het resultaat krijgt waarnaar je op zoek bent, komt dat meestal omdat je niet de juiste gegevens gebruikt.

'Mensen raken allemaal opgewonden en ego-gebonden aan bepaalde algoritmen, maar tegenwoordig, dankzij de tools die er zijn, kan en komt iedereen en hun moeder met allerlei nieuwe algoritmen', zegt Dunning. 'De data is veel belangrijker en geeft je veel meer lift dan eindeloos je algoritmen aan te passen. Als je aan een moeilijk probleem werkt, zoals spraakherkenning of computervisie, is dat één ding. Maar dit is een datagedreven veld. In de meeste scenario's heb je veel meer baat bij het aanpassen van de data die je krijgt en het veranderen van de vraag.'

Dat is wat Dunning halverwege de jaren 2000 deed toen hij een video-aanbevelingsengine bouwde bij een bedrijf genaamd Veoh Networks. Het team was bezig om paren van door gebruikers gegenereerde video's te identificeren waarop mensen meer dan verwacht hadden geklikt, maar het algoritme werkte niet. Ze dachten in termen van muziek, waarbij gebruikers hun favoriete artiesten en nummers bij naam kennen. Dus veranderden ze de vraag door de gebruikersinterface aan te passen zonder het algoritme zelf aan te raken.

'In door gebruikers gegenereerde video's kent niemand de artiesten en veel video's hadden echt spamachtige titels om meer views te krijgen. Fietsen op tweaks van het algoritme zou ons nooit goede resultaten hebben opgeleverd', zei Dunning. 'Wat we deden was de gebruikersinterface veranderden om elke 10 seconden een bakensignaal uit te zenden [om te meten hoe lang kijkers naar een video keken]. We ontdekten dat als we het baken gebruikten in plaats van klikken voor de onbewerkte gegevens van de aanbeveler, we geweldige resultaten kregen. De lift voor deze ene verandering was enkele honderden procenten verbetering van de betrokkenheid dankzij aanbevelingen, zonder algoritmische veranderingen.'

3. Algoritmen zijn geen magische kogels

ML-implementaties gedijen bij continu vallen en opstaan. Hoe goed uw algoritmen ook zijn, als uw systeem met mensen communiceert, moet het na verloop van tijd worden aangepast. Dunning benadrukte dat bedrijven voortdurend de algehele effectiviteit van hun implementatie moeten meten en de veranderingen en variabelen moeten identificeren die het beter en slechter maken. Dit klinkt misschien als een gemeenplaats, maar Dunning zei dat, ondanks hoe voor de hand liggend het klinkt, maar heel weinig mensen dit doen of het goed doen.

'Veel mensen willen een systeem implementeren of actie ondernemen, en ze willen dat hun algoritme voor altijd perfect blijft werken', zegt Dunning. 'Geen enkel algoritme zal een wondermiddel zijn. Geen enkel gebruikersinterfaceontwerp zal voor altijd blijven hangen. Geen enkele methode voor het verzamelen van gegevens zal nooit worden vervangen. Dit alles kan en zal gebeuren, en bedrijven moeten waakzaam meten, evalueren en opnieuw evalueren hoe hun systeem werkt.'

4. Gebruik een gevarieerde toolset

Er zijn tientallen ML-tools beschikbaar, waarvan u er vele gratis kunt gebruiken. Je hebt populaire open-source framework-bibliotheken zoals Caffe, H20, Shogun, TensorFlow en Torch, en ML-bibliotheken in een aantal projecten van de Apache Software Foundation (ASF), waaronder Mahout, Singa en Spark. Dan zijn er op abonnementen gebaseerde opties, waaronder Amazon Machine Learning, BigML en Microsoft Azure Machine Learning Studio. Microsoft heeft ook een gratis Cognitive Toolkit.

Er zijn talloze bronnen beschikbaar. Dunning heeft met tal van bedrijven, datawetenschappers en ML-beoefenaars gesproken en vraagt ​​hen altijd hoeveel verschillende frameworks en tools ze gebruiken. Dunning zei gemiddeld dat de meesten zeiden dat ze minimaal 5-7 tools gebruiken en vaak veel meer.

'Je kunt niet aan één stuk gereedschap vastzitten. Je zult er meerdere moeten gebruiken, en daarom kun je je systeem maar beter zo bouwen dat het agnostisch is,' zei Dunning. 'Iedereen die je ervan probeert te overtuigen dat deze tool de enige is die je ooit nodig zult hebben, verkoopt je een stuklijst.

'Volgende week kan er iets gebeuren dat de appelkar op zijn kop zet, en met het tempo van de innovatie dat we zien, zal dat nog minstens vijf tot tien jaar gebeuren,' vervolgde Dunning. 'Kijk naar een goedkoop leervoorbeeld waarbij je misschien een bestaande beeldclassificatie hergebruikt om afbeeldingen in een catalogus te analyseren. Dat is diep leren met computervisie erbij. Maar er zijn tools die het allemaal hebben verpakt. Je moet meten, evalueren en weifelen tussen verschillende tools, en je infrastructuur moet daar uitnodigend voor zijn.'

5. Experimenteer met hybride leren

Dunning zei dat je goedkoop en diepgaand leren ook kunt combineren tot iets van een hybride. Als u bijvoorbeeld een bestaand computervisiemodel neemt en de bovenste paar lagen waar een beslissing wordt genomen, reconstrueert, kunt u een bestaand raamwerk gebruiken voor een geheel nieuwe use-case. Dunning wees op een Kaggle-competitie waarin deelnemers precies dat deden; ze namen een dataset en schreven er een nieuw algoritme bovenop om een ​​computer te helpen katten van honden te onderscheiden.

'Het onderscheiden van katten en honden is voor een ML-algoritme heel subtiel. Denk na over de logica: katten hebben puntige oren, maar Duitse herders ook. Honden hebben geen vlekken, behalve Dalmatiërs, enz. Dat kan op zich best moeilijk te herkennen zijn,' zei Dunning. 'De man die won, ontwikkelde een systeem dat dit met 99 procent nauwkeurigheid deed. Maar ik was meer onder de indruk van de persoon die derde werd. In plaats van helemaal opnieuw te bouwen, nam hij een bestaand beeldherkenningsprogramma van een andere taak, haalde de bovenste laag eraf en plaatste daar een eenvoudige classifier. Hij gaf het enkele voorbeelden en al snel was het 98 procent nauwkeurig in het onderscheiden van katten van honden. Het hele proces kostte de man drie uur.'

6. Goedkoop betekent niet slecht

Ondanks de openlijke connotatie, zei Dunning dat goedkoop leren niet betekent dat het slecht leert. De hoeveelheid tijd die u aan een ML-implementatie besteedt, houdt niet direct verband met de zakelijke waarde ervan. De belangrijkste kwaliteit, zei hij, is ervoor te zorgen dat het proces herhaalbaar en betrouwbaar is. Als het bedrijf dat kan bereiken zonder al te veel middelen te investeren, is dat des te beter.

'Goedkoop betekent niet slecht. Als het werkt, werkt het. Als het goedkoop is en het werkt, is dat geweldig. Maar de moeite die je erin steekt om het te bouwen, bepaalt niet de waarde. Dat is een misvatting over de kosten', zei Dunning. 'Wat de waarde definieert, is hoe het de business verbetert. Als de [implementatie van machine learning] de winst verbetert of de kosten verlaagt of uw concurrentiesituatie verbetert. Het is het effect, niet de inspanning.'

7. Noem het geen AI

Dunning benadrukte dat bedrijven, wanneer ze over deze technieken praten, de precieze terminologie moeten gebruiken: ML, computervisie of deep learning. Dit alles valt meestal onder de overkoepelende term 'kunstmatige intelligentie', maar voor Dunning is de definitie van AI gewoon 'dingen die nog niet werken'.

'De beste definitie die ik ooit van AI heb gehoord, is dat het de dingen zijn die we nog niet kunnen verklaren. De dingen waar we nog niet achter zijn gekomen,' zei Dunning. 'Elke keer als we iets aan het werk krijgen, zeggen mensen: 'Oh, dat is geen AI, het is gewoon software. Het is gewoon een regelmotor. Het is eigenlijk gewoon logistieke achteruitgang.' Voordat we iets bedenken, noemen we het AI. Daarna noemen we het altijd iets anders. In veel opzichten kan AI beter worden gebruikt als een woord voor de volgende grens, en in AI zal er altijd een volgende grens zijn. AI is waar we naartoe gaan, niet waar we al zijn.'

Aanbevolen verhalen

De zakelijke gids voor machinaal leren

Machine learning (ML)-expert Ted Dunning maakt een onderscheid tussen deep learning en 'cheap learning' en beschrijft best practices voor zakelijk succes.

Tips voor het plaatsen van vacatures De hardware-ambities van Spotify

De lijst, die lijkt te zijn verwijderd, geeft aan dat Spotify op zoek is naar hardwaremanager om iets aan te pakken dat lijkt op Pebble Watch, Amazon Echo en Snap Spectacles.

5 succestips van een multimiljonair die vroeger bij Kmart werkte

Een immigrant die begon met het vullen van schappen, deelt zijn beste advies voor het creëren van enorm succes.

Ik ben gestopt met drinken: 7 manieren waarop het mijn leven en bedrijf heeft veranderd

Hoe u een revolutie teweeg kunt brengen in uw leven en bedrijf door drank de boot te geven - van een ondernemer die het heeft gedaan.

ZTE leert dat crowdfunding een crowd vereist

Bijna halverwege de campagne heeft het bedrijf minder dan 10 procent van zijn doel van $ 500.000 opgehaald.