Intelligent forecasten in 5 stappen

Integratie van Data Science in de organisatie

Forecasting (bijv. het voorspellen van omzet, kosten) en predictive modelling (voorspellen van churn of affiniteiten van klanten) zijn zeker in deze tijd van groot belang voor organisaties in alle sectoren. De specialistische kennis en tools die hiervoor nodig zijn kunnen ertoe leiden dat deze belangrijke bedrijfsfunctie enigszins geïsoleerd is van de rest van de organisatie. Jammer, want als forecasting intelligenter wordt ingericht kan het veel breder worden ingezet. Hoe dit kan zullen we hier toelichten met voorbeelden om de integratie te verhogen.

Integratie van data science in organisaties verloopt nog steeds moeizaam.
In een onderzoeksrapport van Forrester (Unlock The Power Of Data To Transform Your Business, Nov 2018) wordt gebrek aan integratie met data management platforms als een van de belangrijkste uitdagingen genoemd.

In het onlangs gepubliceerde Data-Driven Marketing Onderzoek 2020 inventariseert de DDMA de stand van zaken van data-gedreven marketing. Een paar conclusies: predictive en prescriptive analytics blijven sterk achter; als een van de grootste uitdagingen wordt genoemd het realiseren van een datagedreven cultuur.

Een organisatie die heel veel data heeft is daarmee nog niet datagedreven. De bovengenoemde technische integratie en bedrijfscultuurintegratie vereisen dat de data

organisatiebreed en goed toegankelijk is
door de hele organisatie wordt gebruikt voor het ondersteunen van alle bedrijfsprocessen

Dit lijkt een open deur maar in de praktijk is de toegankelijkheid van data vaak beperkt tot de IT afdeling en de data scientists en is dus ook de organisatiebrede integratie van data beperkt.

In dit artikel gaan we in op de technische en bedrijfscultuur-aspecten van integratie in.

We doen dit aan de hand van een forecasting praktijkvoorbeeld. In het gaan we uit van R / Shiny als data science platform maar dit kan natuurlijk ook Python zijn. Beide omgevingen zijn uitstekend te koppelen met database-infrastructuur in de organisatie.

Stap 1 – data integratie

De eerste stap naar intelligent forecasting richt zich op data integratie.

Data silos en data scientist silos belemmeren de groei naar de intelligente, datagedreven organisatie. R scripts of Python notebooks op een laptop kunnen nuttig zijn voor educatie en prototyping maar leveren geen duurzame bijdrage aan technische integratie en datagedreven bedrijfscultuur. Lokale bestanden / Excel sheets belemmeren een organisatiebrede blik op de data en kunnen leiden tot onduidelijkheden en security / privacy risico’s.

Opslaan van alle bronnen voor het forecastproces en alle resultaten daarvan in een (relationele) database is eenvoudig te realiseren en levert grote winst op: één versie van de data toegankelijk voor de hele organisatie.

Stap 2 – metadatamanagement en -integratie

Forecastmodellen en processen worden gekenmerkt door veel metadata: data (of informatie) over data. Enkele voorbeelden:

Welke inputdata werd gebruikt voor een specifiek model
Welke forecast parameters werden gebruikt
Welk model / welke versie van het model werd gebruikt
Wanneer is de forecast gemaakt
Waar staan de forecastresultaten
Etc.

Deze informatie is nodig voor

een goede interpretatie van de uitkomsten (ook van forecast runs in het verleden)
het reviewen van de resultaten
het continu verbeteren het proces

Net als in stap 1 is ook hier opslag in een centrale database een must.

Metadata is niet alleen readonly informatie. Voor het forecastingproces is het ook handig om zoveel mogelijk model parameters uit een R script te halen en in een database op te slaan. In stappen 3 en 4 zullen we laten zien dat proces hierdoor heel flexibel wordt en dat gebruikers in de organisatie zonder R of Python kennis de input parameters kunnen variëren en modellen kunnen runnen.

Stap 3 – forecast modellen: van coderen naar genereren

Tijdens het ontwerp en ontwikkelproces van forecastmodellen zullen er vele versies van een model worden gemaakt. Verder is een model nooit “af” en zullen er nieuwe versies volgen. Met een goed metadata managementsysteem (stap 2) kan er steeds een goed overzicht worden verkregen van de status en functionaliteit van de vele modellen en dat lost één probleem (“overzicht”) op.

Maar ook bij het runnen van modellen zullen er vele versies zijn, afhankelijk van de combinatie van inputparameters en parameterwaarden. Grote aantallen forecastmodellen en -versies op verschillende laptops is een ongezonde situatie waarin geen versiebeheer mogelijk is. Bij het evalueren van forecastresultaten moeten we er vanuit kunnen gaan dat iedereen die een bepaald model gebruikt exact dezelfde code gebruikt.

Door het scheiden van modelparameters van de “core” forecastmodel code krijgen we een model “template” (wat we bijv. in een versiebeheersysteem op kunnen slaan).

Op deze manier kunnen we het forecastmodel genereren (samenstellen uit core template en parameters / parameterwaarden uit de database). Dit gegenereerde model wordt vervolgens gerund, waarna de resultaten inclusief alle metadata naar de database wordt geschreven.

Stap 4 – data science integratie in de organisatie

Een te grote afhankelijkheid van data scientists bij het runnen van forecastmodellen is niet wenselijk.

Data scientists zijn verantwoordelijk voor het maken van modellen. Dat betekent echter niet dat alleen zij de modellen runnen. Mits goed opgezet (stappen 1,2,3) en met een goede user interface (bijv. Shiny voor R modellen) kunnen gebruikers modellen runnen zonder R kennis. Zo’n opzet kan het bereik van data science toepassingen in een organisatie enorm vergroten en tevens een bijdrage leveren aan het verhogen van de datagedreven bedrijfscultuur.

Stap 5 – data science integratie in de PDCA cyclus

Met de opzet zoals beschreven in stap 1 t/m 4 kunnen we data science opnemen in de PDCA cyclus. We kunnen

forecasts maken
de forecasts in de toekomst koppelen aan actuals en vergelijken
de kwaliteit van modellen en inputparameters evalueren
modellen en inputparameters aanpassen
een nieuwe cyclus starten

Door de database-integratie is het bijhouden van een dashboard (evaluatie van de modellen) heel eenvoudig geworden: alle input en output en metadata is beschikbaar in de database.

Door het loskoppelen van modellen en modelparameters, gecombineerd met een goede user interface, zijn data science toepassingen nu bereikbaar voor veel “business users” en kunnen data scientists in de organisatie zich focusen op het maken van nieuwe modellen.