21  Håndtering av lønn og avtalt arbeidstid

Dette kapittelet beskriver hvordan informasjon om lønn bearbeides og hvordan variabler i lønnsstatistikken beregnes og kontrolleres. I tillegg beskrives metoden for forbedring av informasjon om avtalt arbeidstid.

21.1 Aggregering av lønnsforhold

Lønnsforhold aggregeres før kobling mot arbeidsforhold til nivå person*virksomhet (se informasjon om aggregering i kapittel 9).

Det kan være rapportert flere typer godtgjørelser og lønnsarter (fastlønn, timelønn, mv) på samme person i virksomheten. For samme lønnsart kan det være flere lønnsforhold den aktuelle måneden dersom det f.eks. rapporteres lønn per dag, uke, osv. Dette aggregeres slik at det på nivå person*virksomhet er én fastlønn, én timelønn, osv.

Aggregering av arbeidsforhold (jobber) er også omtalt i kapittel 13.2.

Basert på den aggregerte informasjonen om lønn og godtgjørelser etableres det lønnsvariabler med prefiks «LONN» som benyttes videre i produksjonsløpet. Disse er vist i tabell 21.1 nedenfor. Kontante lønnsarter som inngår i lønnsstatistikkens lønnsbegrep, eller som er nyttige til kontrollformål, fordeles på separate variabler. For overtidsgodtgjørelse (lonn_overtid) og timelønn (lonn_time) lages også numeriske variabler som inneholder summen av/antall timer knyttet til det innrapporterte beløpet.

Tabell 21.1. Aggregerte lønnsvariable med prefiks «LONN»

Variabelnavn Beskrivelse Inngår i lønnsstatistikk (lønnsnivå)
LONN_FAST Fastlønn samt honorar-, provisjon- og akkordlønn JA
LONN_FAST_TILLEGG Faste tillegg JA
LONN_TIME Timelønn JA
LONN_BONUS Bonus JA
LONN_UREGTIL_ARBEIDET Uregelmessige tillegg for arbeidet tid JA
LONN_UREGTIL_UARBEIDET Uregelmessige tillegg for ikke-arbeidet tid JA
LONN_HELLIGDAGSTILLEGG Helligdagstillegg JA
LONN_UREGTIL Sum av uregelmessige tillegg og helligdagstillegg JA
LONN_OVERTID Overtidsbetaling NEI
LONN_FERIE Feriepenger NEI
LONN_FERIE_TREKK Trekk i lønn for ferie NEI
LONN_SLUTTVEDERLAG Sluttvederlag NEI
LONN_ANNEN_BET Andre kontante lønnsytelser NEI
LONN_KONTANT Kontantlønn NEI
LONN_NATURAL Naturalytelse (Naturallønn) NEI
LONN_GODTGJØRELSE Utgiftsgodtgjørelse NEI

I a-meldingen skal man rapportere beløp og type ytelse (kontantytelse, naturalytelse eller utgiftsgodtgjørelse). For noen beløp må man gi ytterligere informasjon. Dette gjelder blant annet hva slags type kontantytelse det er snakk om (kapittel 3.1.3), f.eks. fastlønn, timelønn, osv. Variabelen LONN_FORDEL angir type ytelse, mens variabelen LONN_BESKRIVELSE angir type kontantytelse som for eksempel fastlønn, timelønn, bonus, sluttvederlag osv.

Variablene i tabell 21.1 er videre beskrevet i vedlegg A. For flere av variablene etableres det også variabler med suffiks «HIA» som viser samlet beløp på variablene hittil i år. Ikke alle disse er med på de endelige klargjorte filene.

For kvalitetsformål lages variabelen lonn_anneN_BET, som inneholder innrapportert annen lønn og kontante ytelser som ikke hører hjemme under de øvrige lønnsartene (LONN_FORDEL=kontant og LONN_BESKRIVELSE=lonn_annet). Dette gjelder for eksempel dekning av kostnader til utdanning og i forbindelse med flytting der vilkårene for skattefritak ikke er tilstede, se mer informasjon i veiledningen for a-meldingen (skatteetaten.no). Størrelsen på disse beløpene kontrolleres over tid siden det er fare for at «annet» blir brukt som en sekkepost for andre lønnsarter.

Variablene i tabell 21.1 er ikke nødvendigvis gjensidig utelukkende, fordi en lønnsart kan inngå i flere lønnsdefinisjoner. F.eks. inneholder variabelen kontantlønn (lonn_kontant) summen av de beløpene hvor LONN_FORDEL er lik 'kontant'. Slik som fastlønn, timelønn osv. I statistikken antall arbeidsforhold og lønn publiseres hver måned gjennomsnittsverdier på LONN_KONTANT (gjennomsnittlig kontantlønn).

Naturallønn (LONN_NATURAL) og utgiftsgodtgjørelse (LONN_GODTGJØRELSE) viser på samme måte summen av lønnsarter med LONN_FORDEL lik hhv. 'natural' og 'godtgjørelse'. Disse er ikke videre fordelt på andre variabler siden slike overføringer ikke inngår i lønnsstatistikken.

Det gjøres korrigering på noen variable:

Fastlønn:

Bonus (LONN_BONUS) flyttes til fastlønn (LONN_FAST) i tilfeller der man antar at beløpet ført på bonus er provisjon som egentlig skal inngå i variabelen for fastlønn. I de fellene nullstilles bonusvariablene og verdien legges til i fastlønna. Dette gjøres i følgende tilfelle: Hvis timelønn <= 0 og fastlønn <= 0 og heltidsekvivalent lønn (inkludert bonus og faste tillegg) er større enn eller lik 18 000, gitt ved formelen:

(100/ARB_STILLINGSPST_INNRAPP)*(LONN_BONUS+LONN_FASTE_TILLEGG)>= 18 000

Timelønn:

Timelønn flyttes til fastlønn dersom lavt timeantall gir høy timesats i følgende tilfelle: Hvis antall timer større enn null og mindre enn 10 og timelønn er større enn 10 000 og fastlønn <= 0 så flyttes timelønnen til fastlønn og antall timer og timelønnen settes til null.

Faste tillegg:

Nullstiller det som trolig er feilføring av faste tillegg: hvis faste tillegg er mindre enn null og større enn 100 000 settes faste tillegg til null.

21.2 Korreksjoner av arbeidstidsopplysninger i a-meldingen

I a-meldingen rapporteres det tre variable om arbeidstid:

  • Avtalt stillingsprosent

  • Antall timer som utgjør fulltid per uke

  • Antall betalte timer for timelønnede

Variablene rapporteres i hovedsak med god kvalitet, men det er noen utfordringer.

Utfordringene går dels i at det ikke rapporteres avtalt stillingsprosent for mange timelønnede og dels i at det for noen timelønnede rapporteres standardverdier på enten 0 eller 100. Sistnevnte gjør at det er vanskelig å skille en reell avtalt stillingsprosent på 100 fra en feilaktig verdi på 100.

På bakgrunn av dette er det utviklet to metoder som gir bedre datagrunnlag for arbeidstid til statistikkproduksjon:

  1. Metode som imputerer avtalt arbeidstid/avtalt stillingsprosent for jobber med positiv fast- og/eller timelønn

  2. Metode som imputerer avtalt arbeidstid/avtalt stillingsprosent for jobber uten positiv fast eller timelønn (nærmeste nabo metode)

Metoden som imputerer avtalt arbeidstid/stillingsprosent for jobber med positiv fast- og/eller timelønn

består av flere steg. Først avgjøres det om det er en fornuftig sammenheng mellom innrapportert avtalt stillingsprosent og lønn. Der det er god sammenheng, som vi har for om lag 80-85 prosent av alle arbeidsforhold, benyttes den innrapporterte avtalte stillingsprosenten. Der det er en dårlig sammenheng mellom den innrapporterte avtalte stillingsprosenten og lønn, beregnes det en avtalt stillingsprosent basert på enten betalte timer og antall timer som utgjør fulltid per uke eller basert på lønn. I noen tilfeller skyldes den dårlige sammenhengen at det er rapportert null i avtalt stillingsprosent, at den ikke er rapportert i det hele tatt eller at den avtalte stillingsprosenten er rapportert feil. Erfaringen etter mange år med a-meldingen tilsier at der det er avvik er rapporteringen av lønn som regel korrekt.

Denne metoden er nærmere beskrevet i kapittel 21.3.

Metoden som imputerer avtalt arbeidstid for jobber uten positiv fast eller timelønn og der avtalt stillingsprosent mangler er beskrevet i kapittel 21.6. Dette vil typisk kunne gjelde arbeidsforhold der det ikke er rapportert noe lønn. En del slike arbeidsforhold skal regnes som sysselsetting, jf. kapittel 19, og inngår derfor i ulike statistikker over sysselsatte, lønnstakere og jobber. Det benyttes derfor en nærmeste nabo-metode for å beregne en avtalt stillingsprosent i tilfeller der denne mangler.

Hvilken av disse metodene som benyttes, avhenger av hva slags informasjon som er rapportert inn.

Før vi går videre i produksjonsløpet gjøres det en korrigering av variabelen som inneholder antall timer per uke som utgjør fulltid (ARB_TIMEANT_FULLTID). Arbeidsforhold med ulogisk lavt eller høyt timeantall blir korrigert, som vil si antall timer fulltid høyere enn 45 eller mindre enn 25 timer. Disse får en ny verdi basert på innrapportert arbeidstidsordning (skift- og turnusordninger, se kapittel 8.2). De aller fleste får 37,5 timer (som er normal fulltid i Norge).

21.3 Metode for forbedring av avtalt arbeidstid for jobber med positiv fast- eller timelønn

I dette kapittelet beskrives metoden for å forbedre avtalt arbeidstid for jobber med positiv fast- og/eller timelønn. Flytskjema for prosessen i kapittel 21.3:

Flytskjema for prosessene i kapittel 21.3

Metoden består i hovedsak av tre steg:

  1. prebehandling/klargjøring av dataene

  2. identifisere gjennom ulike ekstremkontroller hvilke arbeidsforhold som skal

    1. beholde innrapportert avtalt stillingsprosent, eller

    2. få stillingsprosenten utledet fra betalte timer, eller

    3. få predikert en avtalt stillingsprosent,

  3. predikere avtalt stillingsprosent for arbeidsforholdene som vi plukker ut i steg 2 ved å bruke maskinlæringsalgoritmen XGBoost

Steg 1. Prebehandling av data

I steg 1 gjøres det en del prebehandling av dataene for å klargjøre disse til ekstremkontrollene som følger i steg 2:

  1. Uttrekk av arbeidsforhold. Først trekkes riktig populasjon ut til denne delen av produksjonsløpet. Her er kravet at arbeidsforholdet er aktivt i referanseuken (ARB_ARBMARK_STATUS = 1), og arbeidsforholdet må ha positiv fast- og/eller timelønn (LONN_FAST > 0 og/eller LONN_TIME > 0). Vernepliktige holdes utenfor.

  2. Korrigering av innrapportert verdi. Hvis en person har flere arbeidsforhold i samme virksomhet summeres disse til ett arbeidsforhold. Dersom det er rapportert 100 i avtalt stillingsprosent i alle arbeidsforholdene (i samme virksomhet), antar vi at den avtalte stillingsprosenten bare er gjentatt, og avtalt stillingsprosent settes til 100.

  3. Øvre grense for avtalt stillingsprosent. Øvre grense for avtalt stillingsprosent for en person i en virksomhet settes til 120 prosent. Alle innrapporterte avtalte stillingsprosenter som overstiger denne grensen blir nedjustert til 120.

  4. Korrigering av lønn. Lønn rapportert for en periode kan inneholde korreksjoner for tidligere rapporteringer eller lønn fra andre perioder, f.eks. etterbetalinger i forbindelse med lønnsoppgjør. Lønn sjekkes derfor mot forrige periode (måned t-1) og neste periode (måned t+1), og korrigeringen innebærer at man bruker timesatsen fra neste måned istedenfor inneværende måned.

    Det undersøkes om det finnes et trappemønster for lønnen ved å sammenligne lønnen i statistikkmåneden/inneværende måned (måned t) med foregående periode (måned t-1) og neste periode (måned t+1). For å kunne sammenligne disse lager vi en timesats for både fast- og timelønnede slik:

    \(\small{TIMESATS\_ FAST\ = \ \frac{LONN\_ FAST}{ARB\_ TIMEANT\_ FULLTID*\frac{ARB\_ STILLINGSPST\_ INNRAPP}{100}*4,33}}\)

    \(\small{TIMESATS\_ TIME\ = \ \frac{LONN\_ TIME}{LONN\_ TIME\_ ANTALL}}\)

    Mønsteret er tilstede hvis timesatsen for fastlønn (timelønn) i inneværende periode er høyere enn timesatsen i både forrige og neste måned og timesatsen i neste måned også er høyere enn (eller lik) timesatsen i forrige måned. Det samme gjelder dersom timesatsen for fastlønn (timelønn) i inneværende måned er lavere enn timesatsen i både forrige og neste måned og timesatsen i neste måned også er lavere enn (eller lik) timesatsen i forrige måned. Noen eksempler: Eksempler på korrigeringer av lønn

    Hvis dette mønsteret finnes betyr det ikke nødvendigvis at timesatsen korrigeres. Først må vi sjekke at det ikke finnes ekstremverdier i arbeidstiden i inneværende eller neste periode som bidrar til å lage mønsteret. Ekstrem arbeidstid er definert som avtalt stillingsprosent over 120 for fastlønnede, og over 195 betalte timer for timelønnede (som tilsvarer et arbeidsforhold med avtalt stillingsprosent lik 120 og 37.5 timer per uke for en fulltidsstilling, der man antar 4.33 uker per måned):

  1. Dersom arbeidstiden ikke er ekstrem i inneværende eller neste periode korrigeres timesatsen for fast-/timelønn, og lønnen beregnes på nytt. Ny fastlønn beregnes ved å bruke timesatsen fra neste måned, samt antall timer svarende til en fulltidsstilling og innrapportert avtalt stillingsprosent fra inneværende måned. Tilsvarende beregner man ny timelønn ved å bruke timesatsen fra neste måned samt antall betalte timer fra inneværende måned.

  2. Dersom arbeidstiden i inneværende måned anses som ekstrem, henter man beløpet direkte fra neste måned istedenfor å beregne et nytt beløp. For å hente fastlønn direkte fra neste måned, kreves det at timelønn mangler. Tilsvarende kreves det at fastlønn mangler for å hente timelønn direkte fra neste måned. Dette betyr at dersom timesatsen for fastlønn (timelønn) skal korrigeres og den tilhørende arbeidstiden er ekstrem samtidig som timelønn (fastlønn) i inneværende måned ikke mangler, bruker man allikevel det opprinnelige beløpet for fastlønn (timelønn) uten verken å beregne et nytt beløp eller hente beløpet direkte fra neste måned.

  1. Avlønningsgruppe. Etter at fast- og timelønn er korrigert lages det en variabel for avlønningsgruppe (ARB_GRUPPE). Beløpene for fast- og timelønn avgjør hvilken avlønningsgruppe et arbeidsforhold tilhører. Hvis fastlønnen er positiv og timelønnen mangler, klassifiseres arbeidsforholdet som «fast». Motsatt klassifiseres arbeidsforholdet som «time» hvis timelønnen er positiv og fastlønnen mangler. I tilfeller der både fastlønnen og timelønnen er positive bestemmes avlønningsgruppen ut fra det største beløpet (se også kapittel 21.11 om lønnsberegninger).

  2. Foreløpig avtalt stillingsprosent. Først settes avtalt stillingsprosent for alle lik den innrapporterte verdien. Hvis personen er fastlønnet og den avtalte stillingsprosenten er mindre enn eller lik 0 settes avtalt stillingsprosent til 100. For de timelønnede får alle som mangler en innrapportert avtalt stillingsprosent beregnet en stillingsprosent utledet fra betalte timer og antall timer som utgjør fulltid per uke:
    \(\small{ARB\_ STILLINGSPST\_ TIME = \frac{LONN\_ TIME\_ ANTALL}{(ARB\_ TIMEANT\_ FULLTID*\frac{antall\_ dager}{5})}*100}\)

  3. Avtalt månedslønn. Avtalt månedslønn angir typisk lønn i en standard måned (4.33 uker), inkludert faste tillegg. Bonus og uregelmessige tillegg inngår ikke i den avtalte månedslønnen. Alle rapporterte negative beløp for faste tillegg settes til 0 for å unngå at avtalt månedslønn reduseres pga. justeringer i rapporteringen som følge av rapportering av for høy lønn i tidligere måneder. Avtalt månedslønn beregnes ulikt for fast- og timelønnede.

    For fastlønnede beregnes avtalt månedslønn som summen av fastlønn og faste tillegg:

    \(\small{LONN\_ FMLONN = \ \ LONN\_ FAST\ + LONN\_ FAST\_ TILLEGG}\)

    For timelønnede beregnes månedslønn via timesatsen, slik at vi ikke bruker faktisk utbetalt månedslønn direkte. I denne utregningen justeres månedslønna basert på antall arbeidsdager i måneden vi er inne i. Timesatsen ganges med avtalt arbeidstid i måneden, justert for hvor mange arbeidsdager måneden inneholder, og summeres med faste tillegg. Dette medfører at jo flere arbeidsdager i måneden, desto høyere blir den avtalte månedslønna:

    \(\small{LONN\_ FMLONN = \ \frac{LONN\_ TIME}{LONN\_ TIME\_ ANTALL}*(ARB\_ AVTALTARBEIDSTID\_ TMP\ * \frac{antall\_ dager}{5}\ )}\;\;\;\;\) \(\qquad\qquad\qquad\qquad\quad\small{+\quad LONN\_ FAST\_ TILLEGG}\)

    Denne måten å regne ut månedslønn på for timelønnede fungerer så lenge vi bruker den innrapporterte avtalte stillingsprosenten (og ikke stillingsprosent basert på betalte timer) og timeantallet for timelønnen er større enn 0. Med en gang vi enten tar i bruk betalt stillingsprosent eller timeantallet ≤ 0 benyttes en redusert variant av formelen over:

    \(\small{LONN\_ FMLONN\ = LONN\_ TIME + LONN\_ FAST\_ TILLEGG}\)

    Dette medfører at beregningen av avtalt månedslønn for timelønnede oppdateres gjennom produksjonsløpet når stillingsprosenten endres, og hvis stillingsprosenten skal predikeres.

  4. Ekskludering av arbeidsforhold. Før vi starter med vurderingene av hvilke arbeidsforhold som har en godkjent og ikke-godkjent sammenheng mellom avtalt stillingsprosent og månedslønn fjerner vi en siste del av arbeidsforholdene:

    1. Arbeidsforhold med en ikke-representativ høy lønn fjernes fra datasettet slik at de ikke påvirker hva som anses som ekstremt eller hva som skal til for å få en avtalt stillingsprosent på 100. Grensene er:

      1. Timelønnede: Timesats for timelønnede på mer enn 1 000 kr og en månedslønn på over 162 500 kr

      2. Fastlønnede: Månedslønn på over 162 500 kr

    2. Lærlinger – fordi lønnen skiller seg veldig fra resten av populasjonen innen ulike strataer blir disse fjernet for å ikke påvirke predikeringen. Det er rundt 40.000 lærlinger som blir fjernet hver måned.

Steg 2. Ekstremkontroller
For å kunne avgjøre hvorvidt den avtalte stillingsprosenten til et arbeidsforhold kan betraktes som troverdig eller ikke, kjøres dataene gjennom ulike ekstremkontroller der man ser den avtalte stillingsprosenten i lys av annen informasjon, som f.eks. avtalt månedslønn. Dette steget brukes både til å vurdere om timelønnede bør få den innrapporterte avtalte stillingsprosenten erstattet med stillingsprosent basert på betalte timer, og til å vurdere hvilke arbeidsforhold som har en «godkjent»/«ikke-godkjent» sammenheng mellom lønn og arbeidstid. Alle «ikke-godkjente» observasjoner vil til slutt få predikert en avtalt stillingsprosent. Det er tre typer ekstremkontroller:

  1. sammenheng mellom innrapportert avtalt stillingsprosent og stillingsprosent utledet fra betalte timer (kun timelønnete arbeidsforhold), og

  2. lønn per heltidsekvivalent (alle arbeidsforhold) og høy/lav timesats (kun timelønnete arbeidsforhold), og

  3. sammenheng mellom lønn og lønn per heltidsekvivalent

Før ekstremkontrollene starter sjekker vi at det ikke er noen arbeidsforhold som mangler avtalt stillingsprosent. Dette kan være tilfellet for timelønnede som mangler både innrapportert avtalt stillingsprosent og antall betalte timer. Disse settes til «ikke godkjent» og får predikert en avtalt stillingsprosent ved hjelp av XGBoost (se steg 3 nedenfor).

I første ekstremkontroll ser vi om det er en fornuftig sammenheng mellom innrapportert avtalt stillingsprosent og stillingsprosent utledet fra betalte timer for timelønnete arbeidsforhold.

Alle arbeidsforholdene deles først inn i ulike strata definert av hovednæring kombinert med lønnskvartiler, der lønnskvartilene er basert på kontantlønn (LONN_KONTANT). Deretter tilpasses en såkalt «ratiomodell» for hvert enkelt stratum. Dette er en lineær regresjonsmodell med innrapportert avtalt stillingsprosent som utfallsvariabel, betalt stillingsprosent som eneste forklaringsvariabel og intet konstantledd, dvs. skjæringspunktet går gjennom origo. Tilpassingen av modellen skjer iterativt, som betyr at modellen tilpasses over flere runder. For hver iterasjon (runde) identifiseres uteliggere basert på det studentiserte residual. Disse fjernes så fra modellen før denne tilpasses på nytt.

Alle observasjoner som identifiseres som uteliggere, får erstattet sin innrapporterte avtalt stillingsprosent med betalt stillingsprosent og fortsetter videre til neste ekstremkontroll sammen med resten. Og som nevnt tidligere får de beregnet avtalt månedslønn på nytt uten at timeantall eller stillingsprosent påvirker lønna. Det er ingen arbeidsforhold som ryker ut i denne ekstremkontrollen og blir klassifisert som ikke-godkjent.

I andre ekstremkontroll sjekkes det om lønnssatsen er på et akseptabelt nivå eller så ekstrem at vi velger å predikere den avtalte stillingsprosenten. Lønn per heltidsekvivalent må være større eller lik 18 000 kr (12 000 kr for personer under 18 år) for fastlønnede. For timelønnede er disse nedre grensene bevegelige og baserer seg på antall arbeidsdager i den aktuelle måneden. Grensene er stort sett i tilnærmet lik 18 000 kr (og tilnærmet lik 12 000 kr for personer under 18 år). Hvis timelønnede med innrapportert avtalt stillingsprosent blir definert som ekstreme i dette steget sjekkes det om samme er tilfelle også med betalt stillingsprosent. Hvis man da oppfyller kravene over blir man ikke lenger merket som ekstrem i dette steget.

I tillegg må timesatsen for timelønnete arbeidsforhold ligge mellom 100 og 1 000 kroner. Hvis disse kravene ikke tilfredsstilles, merkes arbeidsforholdet som ekstremt (for personer under 18 år gjelder kun den øvre grensa).

Alle arbeidsforhold identifisert som ekstreme i denne kontrollen klassifiseres som ikke-godkjent og blir predikert ved hjelp av maskinlæringsalgoritmen XGBoost. Øvrige arbeidsforhold blir med videre til neste kontroll.

I tredje ekstremkontroll undersøkes sammenhengen mellom avtalt månedslønn per heltidsekvivalent og øvrig informasjon knyttet til personen og virksomheten som anses å kunne påvirke den avtalte stillingsprosenten og dermed gi utslag i heltidsekvivalent avtalt månedslønn.

Det er to grupper som ikke er med i den siste ekstremkonrollen. Det er en nedre og en øvre «cut-off»/avgrensning. I den nedre cut-offen fjernes alle med en avtalt stillingsprosent som er lavere enn 1 %. Disse settes til «ikke-godkjent» og sendes til predikering. På grunn av en lang hale i fordelingen for det øverste lønnskvartilet settes det en øvre cut-off for arbeidsforhold som har de 2,5 % høyeste lønningene innen hvert stratum (hovednæring) og en avtalt stillingsprosent på minst 100.

Denne ekstremkontrollen omfatter kun arbeidsforhold som har blitt klassifisert som godkjent i alle de foregående ekstremkontrollene. Det skjer en iterativ tilpasning av en lineær regresjonsmodell med logaritmen til avtalt månedslønn per heltidsekvivalent som utfallsvariabel. Til sammen seks kategoriske forklaringsvariabler inkluderes i modellen: kjønn, utdanning, yrkeskode som består av en kombinasjon av 2-, 3- og 4-siffer yrke, avlønningsgruppe, antall lønnstakere i virksomheten og virksomhetens hovednæring. I tillegg inkluderer man alder, alder kvadrert og logaritmen av avtalt månedslønn som kontinuerlige forklaringsvariabler i modellen. I likhet med modelltilpasningen i ekstremkontroll 1 identifiseres uteliggere for hver iterasjon basert på det studentiserte residual, og disse arbeidsforholdene blir så klassifisert som ikke-godkjente.

Modellen ser slik ut:

\[\begin{aligned} \small{LOG\_ LONN\_ EKV\_ FMLONN} {}\small{\sim{}} & \small{VIRK\_ ANT\_ INNTMOT\_ KAT + NAERING + }\\ & \small{PERS\_ KJOENN\ + PERS\_ ALDER + UTDANNING + }\\ & \small{YRKE\_ 2\_ 4SIFFER\ + AVLOENNING + }\\ & \small{LOG\_ LONN\_ FMLONN} \end{aligned}\]

Alle arbeidsforhold som har blitt blir vurdert som ikke-godkjent blir tilslutt samlet i et datasett og får predikert en avtalt stillingsprosent ved hjelp av maskinlæringsalgoritmen XGBoost, der alle arbeidsforhold med godkjent avtalt stillingsprosent inngår i lærlingsgrunnlaget til modellen.

Steg 3. Maskinlæringsalgoritmen XGBoost

For å predikere stillingsprosenten for arbeidsforhold som er klassifisert som ikke-godkjent, bruker vi XGBoost, «eXtreme Gradient Boosting» (xgboost.readthedocs.io) som kjøres i RStudio. Dette er en maskinlæringsalgoritme som bygger på beslutningstrær, med to fremtredende egenskaper: modellytelse og hurtighet. Arbeidsforholdene som passerer gjennom ekstremkontrollene uten å bli identifisert som ekstreme/ikke-godkjent, deles først tilfeldig opp i to ulike grupper – ett treningsdatasett (80 prosent av de godkjente arbeidsforholdene) og ett testdatasett (20 prosent av de godkjente arbeidsforholdene).

Med utgangspunkt i treningsdatasettet tilpasses en lineær regresjonsmodell med avtalt stillingsprosent som utfallsvariabel og med samme forklaringsvariabler som i ekstremkontroll 3:

  • kjønn (kategorisk)

  • utdanning (kategorisk)

  • kombinasjon av 2, 3, og 4-sifret yrkeskode (kategorisk)

  • avlønningstype (kategorisk)

  • antall lønnstakere i virksomheten (kategorisk)

  • virksomhetens hovednæring (kategorisk)

  • alder (kontinuerlig)

  • alder kvadrert (kontinuerlig)

  • logaritmen av avtalt månedslønn (kontinuerlig)

Den prediktive evnen til XGBoost-modellen evalueres deretter av modellen selv med utgangspunkt i testdatasettet. Til slutt predikeres avtalt stillingsprosent til alle ikke-godkjente arbeidsforhold. Etter at XGBoost er kjørt og alle observasjoner har fått en verdi for avtalt stillingsprosent gjør vi noen korrigeringer:

  • Det er noen som får predikert en negativ avtalt stillingsprosent – disse settes til 0.

  • De med predikert avtalt stillingsprosent som tilsvarer arbeidstid på under 1 time får arbeidstid satt til 1, og justert avtalt stillingsprosenten tilsvarende. Dette gjøres selv om den teoretiske definisjonen av sysselsatte sier at man må jobbe 1 time eller mer. Årsaken er at metoden ikke er så presis og at vi vil fjerne for mange arbeidsforhold om vi setter en grense på 1 time.

  • Predikerte verdier rundes av til nærmeste hele tall.

  • Predikerte verdier får et øvre tak på 100.

  • Timelønnede med betalt stillingsprosent får også stillingsprosenten nedjustert til 100 prosent hvis den er høyere, samtidig som timelønnen justeres med samme faktor.

  • Det lages en variabel som sier hva kilden til den avtalte stillingsprosenten er (ARB_STILLINGSPST_KILDE, se kodeliste i vedlegg C).

  • Vi tar i bruk lønnsberegningen som ser på en standardisert måned for alle timelønnede:

    \(\small {LONN\_ FMLONN = \frac{LONN\_ TIME}{LONN\_ TIME\_ ANTALL}*(ARB\_ AVTALTARBEIDSTID\ *4,33)}\;\;\;\;\;\)
    \(\qquad\qquad\qquad\qquad\small{+\quad LONN\_ FAST\_ TILLEGG}\)

Videre behandling av personer utenfor XGBoost. Som nevnt tidligere i dette kapittelet er det flere som ble holdt utenfor modellen, selv om de hadde positiv verdi på fast- eller timelønn. For disse gjøres det også noen korrigeringer av avtalt stillingsprosent:

  • Personer som ble ekskludert på grunn av høy lønn beholder innrapportert avtalt stillingsprosent så lenge den er større eller lik 100. Hvis innrapportert avtalt stillingsprosent er lavere enn 100 får de en avtalt stillingsprosent = 100

  • Arbeidstid = antall timer fulltid per uke * avtalt stillingsprosent/100

  • Kildevariabelen for avtalt stillingsprosent (ARB_STILLINGSPST_KILDE) lages for disse også

21.4 Arbeidstidsjustering for arbeidsforhold uten fast- eller timelønn

Metoden beskrevet i kapittel 21.3 gjennomføres som nevnt kun for arbeidsforhold der det er rapportert en fast- eller timelønn. For de resterende arbeidsforholdene gjøres også det en rekke bearbeidinger av arbeidstids-variablene (alle variabelnavn det henvises til nedenfor er beskrevet i vedlegg A):

  1. Alle med arbeidstid (ARB_ARBEIDSTID) mindre enn 1 rundes opp til 1 og med ny tilhørende avtalt stillingsprosent. Dette gjøres selv om den teoretiske definisjonen av sysselsatte sier at man må jobbe 1 time eller mer. Årsaken er at metoden ikke er så presis og at vi vil fjerne for mange arbeidsforhold om vi setter en grense på 1 time.

  2. Vernepliktige får (se mer informasjon om vernepliktige i kapittel 10.2):

    1. Avtalt stillingsprosent (ARB_STILLINGSPST) = 100

    2. Avtalt arbeidstid (ARB_ARBEIDSTID) = 37,5

  3. Oppdragstakere fra Oppdrags- arbeidsforholdsregisteret (OAR) uten lønn i a-meldingen (se mer informasjon om OAR i kapittel 10.1):

    1. Avtalt stillingsprosent (ARB_STILLINGSPST) = 100

    2. Avtalt arbeidstid (ARB_ARBEIDSTID) = ARB_TIMER_FULLTID*ARB_STILLINGSPST/100

  4. Resten av arbeidsforholdene vi sitter igjen med er lønnstakere i referanseuka (ARB_ARBMARK_STATUS = 1) som mangler fast- og timelønn, og som ikke er vernepliktige eller fra OAR. Disse behandles på følgende måte:

    1. Hvis det kun er ett arbeidsforhold for samme person i virksomheten (ARB_ANT_AGGR = 1):

      • Avtalt stillingsprosent (ARB_STILLINGSPST) = innrapportert avtalt stillingsprosent (ARB_STILLINGSPST _INNRAPP)

      • Avtalt arbeidstid (ARB_ARBEIDSTID) = antall timer fulltid per uke *avtalt stillingsprosent/100 (ARB_TIMER_FULLTID* ARB_STILLINGSPST /100)

    2. Hvis det er flere arbeidsforhold for samme person i samme virksomhet (ARB_ANT_AGGR > 1) og summen av innrapportert avtalt stillingsprosent/delt på antall jobber = 100 (ARB_STILLINGSPST _INNRAPP/ARB_ANT_AGGR = 100):

      • Avtalt stillingsprosent = 100

      • Avtalt arbeidstid = antall timer fulltid per uke * avtalt stillingsprosent/100

    3. Hvis det er flere arbeidsforhold for samme person i samme virksomhet (ARB_ANT_AGGR > 1) og summen av innrapportert avtalt stillingsprosent/delt på antall jobber ulik 100:

      • Avtalt stillingsprosent = innrapportert avtalt stillingsprosent

      • Avtalt arbeidstid = antall timer fulltid per uke * avtalt stillingsprosent/100

    4. Deretter sjekkes det om ARB_ARBEIDSTID < 1:

    5. Til slutt justerer vi ned alle med avtalt stillingsprosent > 120:

      • Avtalt stillingsprosent = 120

      • Avtalt arbeidstid = antall timer fulltid per uke * avtalt stillingsprosent/100

21.5 Utledning av hoved- og biarbeidsforhold

Arbeidsforhold som fortsatt mangler avtalt stillingsprosent får imputert en avtalt stillingsprosent ved hjelp av en nærmeste nabo metode. Denne metoden benytter informasjon om arbeidsforholdet regnes som hovedjobben eller bijobben til en person. Derfor utledes dette før imputeringsmetoden som beskrives i neste kapittel.

Dersom en person har flere arbeidsforhold i referanseuken, velges hovedarbeidsforhold ut i fra prioriteringen nedenfor (den første regelen som slår til, definerer hovedarbeidsforholdet, ARB_HOVEDARBEID='1', og de resterende arbeidsforholdene til en person settes til biarbeidsforhold, ARB_HOVEDARBEID = '2').

I beregningen av hovedarbeidsforhold (variabel ARB_HOVEDARBEID) er det kun arbeidsforhold der personen regnes som lønnstaker (har ARB_ARBMARK_STATUS = 1) som inngår.

Prioriteringen er som følger:

1. Vernepliktsregisteret (ARB_KILDE='Verneplikt')
Enheter fra vernepliktsregisteret prioriteres høyest. Det anses som lite sannsynlig at en person i førstegangstjeneste har en annen hovedjobb. Disse er tildelt avtalt stillingsprosent lik 100 prosent, avtalt arbeidstid per uke lik 37,5 og antall timer per uke som en full stilling tilsvarer lik 37,5, jf. omtale av vernepliktige i kapittel 10.2.

2. Ordinært og maritime arbeidsforhold

Dersom det er flere ordinære/maritime arbeidsforhold for en person brukes følgende prioritering:

  1. Arbeidsforhold med lønn prioriteres først (ARB_SYSS = 1a)

  2. Høyeste avtalt stillingsprosent

  3. Høyeste lønn som indikerer sysselsetting (LONN_SYSS)

  4. Dersom vi fremdeles står igjen med flere alternativer velges hovedarbeid tilfeldig

3. Arbeidsforhold fra Oppdrags- og arbeidsforholdsregisteret (OAR) med lønnsforhold fra a-meldingen

Følgende prioritering brukes hvis det er flere arbeidsforhold:

  1. Høyest lønn som indikerer sysselsetting (LONN_SYSS)

  2. Ferskeste startdato (ARB_START). Bruker ferskeste dato siden det erfaringsmessig er det mangelfull utmelding i OAR

  3. Dersom vi fremdeles står igjen med flere alternativer velges hovedarbeid tilfeldig

4. Frilanser/oppdragstakere/honorarpersoner og forenklet oppgjørsordning

Følgende prioritering brukes hvis det er flere arbeidsforhold:

  1. Høyeste avtalte stillingsprosent

  2. Eldste startdato

  3. Høyest lønn som indikerer sysselsetting (LONN_SYSS)

  4. Dersom vi fremdeles står igjen med flere alternativer velges hovedarbeid tilfeldig

5. Arbeidsforhold fra Oppdrags- og arbeidsforholdsregisteret (OAR) uten lønn fra a-meldingen

Følgende prioritering brukes hvis det er flere arbeidsforhold:

  1. Ferskeste startdato (ARB_START) – fordi det erfaringsmessig er mangelfull utmelding i OAR

  2. Dersom vi fremdeles står igjen med flere alternativer velges hovedarbeid tilfeldig

Avtalt stillingsprosent vil være imputert for alle arbeidsforhold som vi kun finner i OAR, og det tas derfor ikke hensyn til avtalt stillingsprosent her.

6. Fiktive arbeidsforhold og annet

Følgende prioritering brukes hvis det er flere arbeidsforhold:

  1. Høyest lønn (LONN_SYSS)

  2. Dersom vi fremdeles står igjen med flere alternativer velges hovedarbeid tilfeldig

Biarbeidsforhold
Arbeidsforholdene som ikke ble klassifisert som hovedarbeidsforhold i henhold til reglene beskrevet over, blir satt til biarbeidsforhold.

Variabel og kodeliste

Variabel: ARB_HOVEDARBEID

Kodeliste:

0=Ingen arbeidsforhold
1=Hovedarbeidsforhold
2=Biarbeidsforhold

Dersom arbeidsforholdet ikke er klassifisert som sysselsetting (ref. prosess 11) settes ARB_HOVEDARBEID=0 (dvs. ingen arbeidsforhold).

21.6 Imputering av avtalt stillingsprosent med nærmeste nabo metode

Fordi vi krever at arbeidsforholdene som inngår i metoden beskrevet i kapittel 21.3 må ha en positiv fast- og/eller timelønn, er det fremdeles noen som mangler avtalt stillingsprosent. Disse får imputert en avtalt stillingsprosent fra en metode som kalles for nærmeste nabo metode («nearest neighbour hot-deck-imputation»). Metoden gir komplette mikrodata, realistiske verdier på mikronivå og realistiske variasjoner i verdiene. Metoden går ut på at vi fyller inn en manglende verdi ved å bruke en faktisk verdi fra en annen observasjon som ligner mest mulig på observasjonen som mangler verdi.

Nedenfor er det gitt en nærmere beskrivelse av metoden. Variablene er beskrevet i vedlegg A.

Prosessbeskrivelse

  1. Først splittes datasettet bestående av aktive arbeidsforhold (ARB_ARBMARK_STATUS=1) i to; arbeidsforhold av typen givere og mottakere. Givere er definert som arbeidsforhold (PERS_ID*VIRK_ID_SSB) med PERS_STILLINGSPST>1, resten er mottakere. Alle observasjoner som er definert som mottakere skal imputeres.

  2. Valg av detaljeringsgrad skjer i hovedsak i 4 trinn. Måten dette gjøres på er at det lages en tekststreng bestående av følgende variabler (der hver kombinasjon av variablene i et gitt trinn utgjør et stratum):

    1. 1=Hoved/Biarbeid (ARB_HOVEDARBEID), kjønn (PERS_KJOENN), yrke detaljert (ARB_YRKE, 4 første sifre), næring detaljert (VIRK_NACE1_SN07, 5-sifret)

    2. 2=Hoved/Biarbeid, kjønn, 2-siffer yrke, 2-siffer næring

    3. 3=Hoved/Biarbeid, kjønn, 4-siffer yrke

    4. 4=Hoved/Biarbeid, kjønn, 2-siffer yrke

    5. 5=Hoved/Biarbeid kjønn

Vedrørende punkt a-d: dersom VIRK_NACE1_SN07<‘01’ eller ARB_YRKE<‘01’ benyttes de to første sifrene av variabelen for høyeste fullførte utdanning (PERS_BU_NUS2000) i stedet.

  1. Det er ønskelig å bruke så detaljert informasjon som mulig. Valg av trinn er satt etter følgende kriterier:

    • Det skal være flere givere enn mottagere

    • Det skal være minst 10 givere og mottagere

Det må gjøres en opptelling av antall arbeidsforhold i de ulike strataene. Dersom kriteriene over er oppfylt prioriteres alltid trinn 1. Dersom minst ett av kriteriene ikke er oppfulgt går man videre til trinn 2, osv.

  1. Videre trekkes antall giverobservasjoner som skal brukes for å imputere verdier for mottakerne. Størrelsen på utvalget som skal trekkes settes lik det antallet observasjoner som trengs å imputeres. I tilfeller med mange aktuelle givere velges det tilfeldig. Her benyttes enkel, tilfeldig trekking (simple random sampling). Trekking skjer uten tilbakelegging, det vil si at hver observasjon bare kan bli trukket ut som giver en gang innen samme gruppe (derfor betingelsen om at det skal være flere givere enn mottagere). En observasjon som har vært giver på ett gruppenivå vil imidlertid kunne bli trukket ut til å være giver også på et høyere gruppenivå. Derimot skal ikke mottakerne kunne gå over fra å være mottaker til å bli giver på et høyere gruppenivå selv om de har blitt imputert.

  2. Deretter sorteres giver- og mottakerdatasettene hver for seg etter strata og alder. Datasettene kobles så sammen i et 1-til-1 forhold basert på strata (dvs. den unike kombinasjonen av variablene gitt i punkt 2a-e). Dermed er det et absolutt kriterium at innholdet i variablene i punkt 2 er identiske på giver- og mottakerdatasettene, mens når det gjelder alder velges den nærmeste verdien ettersom begge datasettene er sortert etter alder.

Man finner altså ikke alltid en giver som er helt lik mottageren, men de blir alltid trukket fra samme gruppe. Innenfor en ideell gruppe har alle samme stillingsandel, og det spiller ingen rolle hvem som blir trukket. Graden av likhet vil bestemmes av den faktiske variasjonen i gruppa. I tilfeller med mange aktuelle givere velges det tilfeldig. Dette kan gi en viss usikkerhet, men forebygger at systematiske feil øker.

De aller fleste blir imputert ved hjelp av de to første trinnene, det første utgjør over 76 prosent. Det er relativt få på mellomtrinnene, fjerde trinn utgjør om lag 13 prosent, mens en håndfull (og ofte ingen) havner på det siste trinnet.

21.7 Nedjustering hvis samlet avtalt arbeidstid er for høy (over 160 prosent)

Med utgangspunkt i den bearbeida avtalte stillingsprosenten ser man på personer som har jobber i flere virksomheter. Når vi summerer de avtalte stillingsprosentene vil vi i noen tilfeller få urimelig høye verdier. Dersom summen av avtalte stillingsprosenter for en person blir høyere enn 160 blir den avtalte stillingsprosenten i hvert arbeidsforhold nedjustert i henhold til kontantlønnen (LONN_KONTANT) i arbeidsforholdet med det høyeste beløpet. Denne nedjusteringen gjøres ved at hvert arbeidsforhold får beregnet en faktor, som er lik kontantlønnen i arbeidsforholdet dividert med kontantlønnen i arbeidsforholdet med det høyeste beløpet. Vernepliktige med flere arbeidsforhold blir holdt utenfor denne delen av produksjonen.

Hvis ingen av arbeidsforholdene har lønn og man er klassifisert som sysselsatt, beholdes arbeidsforholdet som er definert som hovedarbeidet, mens de resterende får 0 i avtalt stillingsprosent. Dette vil blant annet bidra til å redusere effekten av feilrapportering, herunder dobbeltrapportering i forbindelse med virksomhetsoverdragelse og feilaktig videreføring av arbeidsforhold fra forrige måned.

I november 2020 var det om lag 65 000 arbeidsforhold og nesten 28 000 personer som hadde avtalt stillingsprosent over 160 prosent før nedjustering. Etter nedjusteringen er dette redusert til om lag 17 000 jobber og 6 300 personer. Årsaken til at noen etter nedjusteringen har over 160 i avtalt stillingsprosent er at vi bevarer sammenhengen mellom arbeidstid og lønn utarbeidet i kapittel 21.3.

Siden nedjusteringen tar utgangspunkt i lønn vil de som ikke har lønn i jobb nummer 2, 3, osv. få den avtalte stillingsprosenten nedjustert til null. Dette vil f.eks. kunne gjelde hvis man har én jobb med lønn og en annen jobb man har permisjon fra uten lønn.

Noen arbeidsforhold blir i denne prosessen nedjustert til null, og endrer dermed status fra «aktiv» til «ikke-aktiv». Fra januar 2017 til oktober 2021 utgjorde dette i gjennomsnitt drøyt 6 000 arbeidsforhold hver måned.

21.8 Kvalitet avtalt arbeidstid

For januar 2015 har vi kun informasjon om den innrapporterte avtalte stillingsprosenten. Det vil si at metoden for å forbedre arbeidstid er kjørt fra og med februar 2015.

Fra oppstarten av a-meldingen i 2015 har innrapporteringen stadig blitt bedre. Dette reflekteres i at andelen med uoppgitt eller null i avtalt stillingsprosent har gått ned, og at det relativt sett gradvis har blitt færre arbeidsforhold som får beregnet en avtalt stillingsprosent, se tabell 21.2, 21.3 og tabell 21.4.

Fra 2015 og et stykke ut i 2016 var det en endring i rapporteringsmønsteret for avtalt arbeidstid. For alle timelønnede ble det rapportert null som standardverdi istedenfor reell avtalt stillingsprosent i begynnelsen av 2015. Dette var ikke korrekt og det ble gjennomført tiltak for å få forbedre rapporteringen. Endret rapportering medfører at endringer i avtalt stillingsprosent fra 2015 til 2016, samt fra begynnelsen av 2016 til begynnelsen av 2017, må tolkes med forsiktighet. Metoden har ikke fullt ut klart å justere for denne endringen i rapporteringsmønsteret.

Tabell 21.2 og 21.3 viser innrapportert avtalt stillingsprosent, mens tabell 21.4 og 21.5 viser avtalt stillingsprosent etter forbedringene beskrevet i dette kapittelet.

Tabell 21.2. Arbeidsforhold, etter innrapportert avtalt stillingsprosent. November 2015 - 2022. Antall

2015m11 2016m11 2017m11 2018m11 2019m11 2020m11 2021m11 2022m11
0 prosent 601 058 324 435 277 780 279 603 271 374 258 937 284 330 281 808
Mellom 0 og 100 prosent 538 606 612 993 639 289 647 266 656 926 644 143 683 180 711 015
100 prosent 1 593 057 1 812 620 1 884 741 1 928 232 1 969 355 1 943 828 2 004 045 2 056 130
Over 100 prosent 7 880 8 601 8 534 8 555 8 470 7 924 7 690 7 010
Uoppgitt 37 032 39 317 37 633 39 988 41 038 41 354 42 912 46 012
I alt 2 777 633 2 797 966 2 847 977 2 903 644 2 947 163 2 896 186 3 022 157 3 101 975

Kilde: Statistisk sentralbyrå


Tabell 21.3. Arbeidsforhold, etter innrapportert avtalt stillingsprosent. November 2015 - 2022. Prosent