Dit project heeft als doel om de totale kosten van de jeugdzorg (y) van een gemeente te voorspellen: Dit gebeurt in een meerdere stappen
Deze pagina beschrijft de ontwikkeling van het machine learning model waarbij de kosten van een jeugdzorg traject wordt voorspeld, op het moment dat een beschikking wordt afgegeven. Dit gebeurd op basis van productcode, tarief, verwijzer, zorgaanbieder, toegewezen facturatie kenmerken, financiële verplichting en een aantal cliënt-kenmerken (X) en de som van alle ontvangen facturen (y) van zorgaanbieders, behorende bij deze beschikking.
De financiële verplichting wordt berekend wordt met behulp van de iStandaard iJw. In de dagelijkse praktijk wordt deze standaard niet correct toegepast binnen gemeentelijke systemen, en dus is er een tussenmodel getraind, op basis van geleverde zorg (declaraties) die door zorgaanbieders worden gedaan. Dit tussenmodel berekent dus de financiële verplichting (y) op basis van de iStandaard kenmerken van reeds uitbetaalde facturen (X). Voor het tussenmodel is XGBoost gebruikt en deze bereikt een nauwkeurigheid van 98,38%. Voor dit model is dus een separate dataset uit de ruw data gehaald, die alle goedgekeurde declaraties bevat.
Voor het hoofdmodel (die een voorspelliing doet van de totale kosten van een jeugdzorg traject als een beschikking wordt afgegeven) is Random Forest gebruikt waarbij de kosten voor de jeugdzorg met een nauwkeurigheid van 80% kunnen worden berekend. Voor dit model is een dataset gemaakt, die alle kenmerken van de client en de beschikking bevat (X) en de volledige declaratie (y)(som van alle facturen). Alleen de beschikkingen waarvoor de reden beeindiging is ingevuld worden gebruikt zodat er alleen gefit wordt op afgeronde jeugdzorgtrajecten.
In het proces om het model te trainen zijn er diverse stappen gezet om de data op te schonen. De gebruikte gemeentelijke vakapplicaties laten namelijk veel vervuiling toe bij het vullen van velden in het dagelijks gebruik, zoals incorrecte postcodes, verkeerde datums en het niet invullen van verwijzers. Het koppelen van de ruwe data met de stamtabellen van de iJw/iWmo standaard levert veel inzicht. Ook zijn er diverse nieuwe kenmerken bepaald (feature engineering) om het model beter te trainen zoals buitengebied (j/n), totale zorgkosten, totale zorgduur, volgnummer in het zorgpad. Een prangend probleem bij de training van het model is het systeem van productcodes, wat steeds verandert als gemeenten de zorg opnieuw inkopen. Dit wordt opgelost door gebruik te maken van conversietabellen.