Een voorspelmodel voor openbare orde verstoring

orde verstoring altena

Voor de gemeente Altena is een pilot uitgevoerd om een machine-learning-model te ontwikkelen om een ordeverstoring in de openbare ruimte te voorspellen. Het doel van deze pilot is om te kijken of aan de hand van dit model politie, boa’s en VTH-ambtenaren slimmer en gerichter kunnen gaan werken.

Gebruikte data
De input data van het voorspelmodel (X) bestaat uit wmo-data, participatiewet-data Jeugdzorg-data, vergunning en handhaving-data, BRP-data, meldingen openbare ruimte, gas en elektriciteit levering data, en zorgkosten data. De gegevens zijn van de periode vanaf 1 januari 2019 tot juli 2020.

De target-data (y) bestaat uit politiemeldingen, meldingen van BOA’s en meldingen van de veiligheidsregio. Voor de genoemde periode zijn er ongeveer 1000 meldingen. Deze meldingen zijn verder onderverdeeld in lichte, middelzware en zware meldingen. Bij zware meldingen moet gedacht worden aan roofovervallen of de ontdekking van een wietplantage. Bij middelzware meldingen moet gedacht worden dan diefstal en inbraak. Voor het voorspelmodel zijn de lichte meldingen niet meegenomen waardoor er 350 meldingen overbleven. Door de verschillende soorten meldingen (lichte en zware) vraagt deze data een multi-class classificatie voorspelmodel.

Al deze data zijn geaggregeerd tot op postcode niveau met behulp van de BAG. Want alle bovenstaande datasets bevatten een postcode veld of deze is gegenereerd uit adres gegevens. Dit gaf ook de mogelijkheid om datasets te visualiseren in een GIS systeem.

De gemeente Altena bevat 1500 postcodegebieden van verschillende grootte en omvang. Per postcodegebied werden tellingen uitgevoerd: het aantal Jeugdzorg trajecten, het aantal WMO-trajecten, het aantal mor-meldingen, etc. De input data (X) bestaat dus uit tellingen per postcodegebied. Voor gas en elektriciteit werd het gemiddelde gebruik per postcodegebied genomen, evenals voor zorgkosten.

Gebruikte algoritme
Voor het voorspelmodel werd het Random Forest algoritme gebruikt: de multi-class classificatie variant. De trainingsset bestaat uit 80% van de 1500 postcodegebieden. En in deze 1500 postcodegebieden zijn dus 350 middelzware en zware meldingen gerapporteerd over een periode van anderhalf jaar. Ook is een neuraal netwerk met een softmax layer geprobeerd, alsmede een support vector machine (SVM). Deze modellen gave slechtere resultaten dan Random Forest.

Opschonen van data
In dit model is de postcode als verbindend kenmerk gebruikt tussen alle datasets. Maar lang niet overal was de postcode aanwezig. Met behulp van een API op de OpenStreetMap is de postcode geautomatiseerd bij de adressen gezocht. Maar ook bleek veel data niet in de juiste categorie te staan. Een roofoverval werd bijvoorbeeld als licht vergrijp geclassificeerd. Of een MOR-melding werd op een onjuiste wijze ingedeeld. Alle datasets (behalve de basisregistraties) vroegen om een gedegen (visuele) analyse om vervuiling te verwijderen of te corrigeren. Deze werkzaamheden hebben 60% van de totale projecttijd in beslag genomen.

Feature engineering
Om te komen tot een goed model zijn er diverse nieuwe kenmerken bedacht, die geconstrueerd werden vanuit bestaande gegevens:
– Met behulp van de geometrische coördinaten van de kernen in de gemeente Altena en de geometrische coördinaten van elk postcodegebied kon bepaald worden of een postcodegebied in het buitengebied lag of niet.
– Met behulp van de BRP kon bepaald worden wat de bevolkingsdichtheid was per postcodegebied.
– Met behulp van de data van Enexis (elektriciteit en gas) kon bepaald worden welk percentage van de huizen in een postcodegebied een slimme meter heeft.

Visualisaties
Dit project heeft naast kennis over datascience ook veel interessante visualisaties opgeleverd. Met behulp van QGis zijn diverse overzichten geproduceerd die voorheen niet inzichtelijk waren voor de gemeente, mede ook omdat de data niet op orde was. Hieruit kwam al direct een kaart van het grondgebied van de gemeente waar de meeste openbare-orde verstoringen plaatsvonden, gecorreleerd aan bijvoorbeeld Mor meldingen en/of trajecten in het sociaal domein.

Resultaat
Het voorspel model heeft en nauwkeurigheid van 60%. Dit is te veel te laag om het model te gebruiken binnen de gemeente. Als het nauwkeuriger was geweest had je meer risico gestuurd kunnen handhaven zowel door BOA’s, politie en ambtenaren van toezicht en handhaving. De belangrijkste oorzaak van deze lage score is beperkte dataset (weinig records, weinig openbare-orde verstoringen) in combinatie met de onbetrouwbaarheid van de gegevens. De gebruikte vakapplicaties in de gemeente geven veel te veel ruimte aan gebruikers om data niet netjes in te voeren of velden te misbruiken. Ook zijn postcode regio’s eigenlijk niet geschikt en zou de data bijvoorbeeld per vierkante hectare (of een kleinere geometrische oppervlakte) ingedeeld moeten worden.

Lessons learned en het vervolg
Dit project heeft de volgende inzichten opgeleverd:
– Door de data aggregeren op postcode niveau is de uitkomst niet te herleiden naar een individueel adres. Hiermee voldoet het model wel aan belangrijke ethische voorwaarden.
– De data uit de verschillende bronnen moet betrouwbaarder worden. Dit kan door vak applicaties beter in te richten en medewerkers te instrueren en te leren over het belang van data
– Er is meer data nodig over een langere periode. Ook moet er gekeken worden naar aanvullende data bijvoorbeeld van woningbouwvereniging, GGD of leerplichtambtenaar om een beter profiel van een geometrisch gebied te krijgen
– Deze hele pilot heeft waardevolle kennis opgeleverd t.a.v. datagovernance en datascience.
Het vervolg van deze pilot bestaat uit het beter organiseren van de data, en kijken of er een beter voorspelmodel ontwikkeld kan worden.

Zoeken
Gerelateerde pagina's
Contactpersoon