Machine learning in R

Datum
11-05-2020
Locatie
Johan de Witt huis (Utrecht)
Omschrijving

Tijd: 11 en 18 mei van 9.30 - 17.00 uur en 8 juni van 9.00 - 12.00 uur | Aangevraagd voor 13 PE punten | Prijs Euro 1349,-



Informatie
Doelgroep

Actuarissen en Actuarieel analisten, datascientists. Basiskennis softwarepakket R wordt verondersteld.

 

Doel

Deze workshop spijkert uw kennis bij met betrekking tot state-of-the-art machine learning in R en geeft u inzicht in de inzet van machine learning bij het modelleren van risico’s. De workshop wisselt intuïtie en theoretische onderbouwing af met praktische implementatie in R. Via korte oefeningen gaat u zelf aan de slag in R met de aangereikte concepten.

 

Eigen laptop

U wordt verzocht een eigen laptop mee te nemen met daarop de software R geïnstalleerd. Software R kunt u gratis downloaden via de website www.r-project.org. Rstudio kunt u downloaden via de website www.rstudio.com .

 

Introductie

Generalized Linear Models (GLMs) voor het modelleren van schade aantallen (frequenties) en bedragen (severities) vormen een essentieel onderdeel van de toolkit van de actuaris of risk manager. De recente opkomst van en interesse in de inzet van machine learning technieken daagt risk professionals uit om het potentieel van deze technieken te onderzoeken en gepast in te zetten binnen het actuariaat.

 

Programma

11-05-20 09.30u – 10.30u

De inzet van analytics bij verzekeraars

Een korte inleiding met bespreking van toepassingen binnen pricing, reservering en fraude detectie.

 

  10.45 – 12.00u

Pricing analytics met Generalized Linear Models, Generalized Additive Models, clustering en regression trees.

 

Aan de hand van een case study in insurance pricing bestudeert u regressiemodellen voor schade aantallen en schade bedragen in R. U gaat aan de slag met diverse soorten risicofactoren (i.e. factor, continue en geografische informatie).

 

De case study geeft inzicht in de voornaamste functionaliteiten van glm, het mgcv package in R (voor GAMs) en de constructie van geografische zones via clustering technieken.

 

  12.00 - 12.30u

Lunchpauze

 

  12.30 – 14.30u

Lasso en vrienden van de lasso

Regularisatie is een wijd gebruikte techniek binnen machine learning om zogenaamde sparse (ie zuinige) modellen te construeren. Dergelijke modellen zijn eenvoudiger te interpreteren en focussen op de belangrijkste risicofactoren in een data set. Terwijl het handmatig selecteren van risicofactoren een tijdrovend proces is bij het bouwen van regressiemodellen, leert u aan de hand van het glmnet package in R hoe regularisatie dit proces kan automatiseren. U krijgt de intuïtie en theoretische onderbouwing aangereikt met betrekking tot diverse lasso-penalties.

 

  15.00 – 17.00u

Caret package en H2O open source platform in R

Het opzetten van het model, de bouw en de evaluatie van het proces: caret package en H2O open source platform in R.

U verkent het caret package alsook R’s interface naar het H2O platform om het bouwen en evalueren van modellen te automatiseren en de verschillende ‘best-in-class algoritmes’ die tijdens de workshop aan bod komen op te schalen en in te zetten bij de analyse van grote data sets.

 

     
18-05-20

Tree-based machine learning technieken

Tijdens de tweede dag van de workshop verkent u het gebruik van zogenaamde tree-based machine learning technieken, met name regression trees, random forests en gradient boosting machines.

 

  09.30 – 10.30u

Theoretische grondslagen

Verkenning van de theoretische grondslagen en bijhorende intuitie.

 

  10.45 – 12.00u

Gedetailleerde R tutorials

Bestudering van en oefenen met gedetailleerde R tutorials die de essentiële concepten en functies illustreren van de R packages rpart, gbm en XGBoost.

 

  12.30 – 14.00u

Vervolg Gedetailleerde R tutorials

 

  14.00 – 14.15u

Pauze

 

  14.15 – 1515u

Tuning

Tuning van (hyper)parameters in R, automatisatie van model bouw en evaluatie.

 

  15.30 – 17.00u

Interpretatie van de gefitte modellen aan de hand van variable importance plots, partial dependence plots, individual conditional expectation plots, en het detecteren van interactie effecten via Friedman’s H statistic.

 

     
08-06-20

Combined Actuarial Neural Networks

U gaat op dag 3 aan de slag met neurale netwerken in R. ANN, CNN, RNN en CANN (‘Combined Actuarial Neural Networks’, zie Wuthrich & Merz, 2019); hoog tijd om neurale netwerken van hun raadselachtige status te ontdoen.

 

  09.00 – 10.00u

Shallow en deep neural networks: concepten en specificatie, schatten van parameters, bespreking tuning parameters en keuzes in architectuur.

 

  10.15u

Pauze

 

  10.15 – 11.15u

Artificial neural networks (ANNs) voor het modelleren van frequenties in R. U gaat aan de slag met het keras package in R, een interface naar Python’s deep learning library Keras.

 

  11.15 – 12.00u

Image classification aan de hand van ANNs en CNNs en het keras package in R.

 

 

Over de docent

Dr. Katrien Antonio is hoogleraar actuariaat aan KU Leuven en associate professor aan de Universiteit van Amsterdam. Haar onderzoek richt zich op insurance analytics met bijzondere interesse in pricing, reserving en sterftemodellering. Meer informatie op https://katrienantonio.github.io.

Referenties en lesmateriaal:

Lecture sheets en tutorials opgesteld in R markdown worden aangereikt.

  • Onderzoek van Katrien Antonio op https://katrienantonio.github.io (zie werk rond machine learning)
  • Henckaerts et al. (2019). Boosting insights in insurance tariff plans with tree-based machine learning. Online at arxiv.
  • Devriendt et al. (2018). Sparse regression with multi-type regularized feature modeling . Online at arxiv.
  • Wüthrich, M.V. & Merz, M. (2019). Editorial: Yes, we CANN! ASTIN Bulletin, 49/1. 

 

Algemene informatie

Inschrijfprocedure

Accreditatie

Annuleren

Facturatie