Empirisk finans - i Excel
Kapittel 1 - Grunnleggende statistikk
1.1 Beskrivende statistikk
Statistikk og økonometri er studier av data. Før vi hiver oss over på dette, la oss avklare noen ord og gi noen definisjoner:
Variabler er karakteristika av en populasjon eller et utvalg. En aksjekurs eller lønn kan være en variabel.
Verdi er de ulike observasjonene av en variabel. Sluttkursen til DNB-aksjen den 5. juli er en verdi. Eller timelønnen i 2020.
Data er de observerte verdiene av variablene
Variabler kommer i tre utgaver:
1. Kategoriske variabler er kvalitative variabler som ikke har noen tallverdier, men som tilhører kategorier som kjønn, næring og yrke.
2. Diskrete variabler er kvantitative variabler der et begrenset antall tall gjelder. Dette kan for eksempel være antall bedrifter, som da bare kan være heltall.
3. Kontinuerlige variabler kan ta alle mulige verdier; valutakurser, inntekt og hastighet.
Data kommer i disse utgavene:
Nominal-data er kategoriserte data. Farmasiaksjer kan være en data-kategori (kategori 1) og bankaksjer (kategori 2) en annen.. Ansatte i barnehager, skoler og universiteter kan være andre typer kategorier. Størrelsene på tallene har her ingen betydning. De bare kategoriserer data.
Ordinal-data ligner på nominal-data da det dreier seg om kategorier, men her tillegges kategoriene ulik betydning. I en spørreundersøkelse kan 1 være «veldig lite» og 10 kan være «veldig mye». Disse kan rangeres, men ikke nødvendigvis med lik avstand mellom verdiene
Intervall-data er reelle tall, for eksempel en aksjekurs, en rentesats eller en inntekt.
Hvordan dataene er organisert, er tema for noen av de etterfølgende kapitlene; de kan være ordnet etter observasjoner på et spesielt tidspunkt; såkalt tverrsnittsdata; eller etter tidspunkt for observasjonene; såkalt tidsseriedata eller i en kombinasjon av dem; såkalt paneldata.
I alle statistiske analyser i finans og økonomi er det alltid et godt råd å begynne med å beskrive dataene. Statistiske modeller må være slik at de i størst mulig grad fanger egenskapene til dataene. Aller best beskrives de gjennom illustrasjoner. Grafer eller figurer gir muligheten til å presentere data og statistikk på en effektiv og plassbesparende måte. Excel har en rekke diagramalternativer, og det henvises til hjelpefunksjonene som ligger i Excel for nærmere forklaring til disse.
Selv om grafer og figurer er hendige, kan de presentere et fordreid bilde. Noen er kreative og ønsker å fortelle en annen historie enn tallene faktisk viser ved for eksempel å endre på skalaene på aksene, på engelsk gjerne kalt «chart crime». Heldigvis finnes det metoder som kan hjelpe oss til å tolke og forstå dataene bedre. I første omgang er det nyttig å beskrive dem gjennom såkalt deskriptiv statistikk.
Eksempel i Excel (regneark 1.1.1 og 1.1.2)
Gå inn i Excel og velg fanen «Sett inn». La oss begynne med «Anbefalte diagrammer» eller «Alle Diagrammer»:
Figur 1.1.1 Båndet for Sett Inn-menyen og dialog-bok for diagram
Stolpediagram
Her er for eksempel en oversikt over antall selskaper notert på Oslo Børs siden 1996. For denne type tallserier egner stolpediagram seg best.
Linjediagram
Når vi ønsker å fremstille utvikling i verdier, bruker vi gjerne linjediagram, som for utviklingen til en børsindeks:
Figur 1.1.3: Linjediagram for kursutvikling
Punkt-/spredningsdiagram
Ønsker vi å vise sammenhenger mellom to tallserier, er punktdiagrammer, også kalt spredningsdiagrammer, nyttige. Med disse kan man kanskje se et mønster som kan tyde på sammenheng mellom to variabler. Men iøynefallende sammenhenger behøver likevel ikke innebære årsakssammenheng! For å avgjøre det, må det gjennomføres nærmere statistiske undersøkelser, som er tema senere i boken.
Figur 1.1.4: Spredningsdiagram for avkastning i Norsk Hydro og Oslo Børs’ hovedindeks.
Forskjellen på linjediagrammer og punktdiagrammer i Excel er at linjediagrammer har symboler på x-aksen, mens punktdiagrammer som det eneste har reelle tall på x-aksen..
Histogram
Histogram er blant de vanligste diagramtypene i statistikk og økonometri, og blandes ofte med stolpediagram. Et histogram fremstiller grupper av data etter hvor ofte de forekommer innenfor inndelte intervaller. Det er dermed en frekvensfordeling av data. Intervallene kan enten deles inn med like store intervaller eller etter ulike kvantiler. Kvantiler kan være oppdelt i prosenter (prosentiler), for eksempel grupper på 10%-poeng (desentiler) eller fire grupper på 25%-poeng (kvartiler). Valg av intervaller bestemmer hvordan fordelingen av dataene vil se ut. Store intervaller gir få og høye søyler, mens smale intervaller gir flere og lavere søyler. I et histogram er det arealet av søylen som angir frekvensen. Høydene i et histogram er frekvens eller antall dividert med bredden.
Excel gir oss flere muligheter til å lage histogrammer. Vi kan enten bruke formelen =FREKVENS(…) eller en innebygget funksjon i Analysepakken, som er nærmere beskrevet til slutt i kapittelet. Når vi skal lage histogram i Excel, må vi først definere intervallbreddene, som i Excel kalles klassematrisen. Da kan det være lurt å vite høyeste og laveste verdi i dataene for å finne hvor intervallene bør begynne og slutte. Det gjør vi med formlene =MIN og =STØRST. Med mindre dataene deles inn i kvantiler, må intervallbredden bestemmes ut fra det som synes logisk. Excel lager egentlig ikke ordentlige histogrammer, men stolpediagrammer. I et histogram skal søylene stå tett og x-aksen skal være tall. Du kan gå inn og justere på dette etter at diagrammet er laget.
Eksempel i Excel (regneark 1.1)
I cellene E2 til E14 i figur 1.1.5 er intervallene fra -12% til pluss 12% med intervallbredde på to prosentpoeng.
Fremgangsmetode:
· Marker et område der dataene skal plasseres i sine intervaller, cellene F2 til F14.
· Skriv inn formelen =FREKVENS og definer datamatrisen, C3 til C61 og deretter intervallmatrisen, E2 til E14.
· Trykk CTRL og Enter samtidig for å få data i alle cellene. Da dukker klammeparentesene { } opp på hver side av formelen. Det viser at vi har med et område (engelsk: «array») å gjøre, og som sikrer at alle de tilhørende intervallene får sine respektive data inn.
Figur 1.1.5: Stolpediagram som viser fordeling av månedlig avkastning for Hydro-aksjen.
· Sett inn et diagram for å visualisere fordelingen ved å velge «Sett inn» og velg Stolpediagram, som vist over,
· I Dataanalyse-verktøyet (se appendiks til dette kapittelet) er det en funksjon som heter Histogram og som automatisk gir et histogram dersom boksen for Diagram utdata hukes av.
1.2 Sentralmål
Med sentralmål mener vi hva som er den midterste, vanligste eller mest sannsynlige verdien i datasettet. Her er det flere versjoner.
1.2.1 Gjennomsnitt
1.2.1.1 Enkelt gjennomsnitt
Det vanligste sentralmålet er gjennomsnitt. Et enkelt gjennomsnitt, også kalt aritmetisk gjennomsnitt, er som kjent summen av alle observasjonene, delt på antall observasjoner. Vi bruker liten x for observert eller målt verdi, og n for antall observasjoner
X ̅= ∑Xi/n
der
Xi er en observasjon
n er antall observasjoner
er symbol for summen av alle Xi
Eksempel
Snittet av de syv tallene 5,6,8,9,5,4 og 3 er da
Gjennomsnitt = (
Eksempel i Excel (regneark 1.2.1)
I Excel finner vi dette ved formelen =GJENNOMSNITT(tall1; [tall2]; ...)
1. Skriv = GJENNOMSNITT i formellinjen.
grammer, men stolpediagrammer. I et histogram skal søylene stå tett og x-aksen skal være tall. Du kan gå inn og justere på dette etter at diagrammet er laget.
Eksempel i Excel (regneark 1.1)
I cellene E2 til E14 i figur 1.1.5 er intervallene fra -12% til pluss 12% med intervallbredde på to prosentpoeng.
Fremgangsmetode:
· Marker et område der dataene skal plasseres i sine intervaller, cellene F2 til F14.
· Skriv inn formelen =FREKVENS og definer datamatrisen, C3 til C61 og deretter intervallmatrisen, E2 til E14.
· Trykk CTRL og Enter samtidig for å få data i alle cellene. Da dukker klammeparentesene { } opp på hver side av formelen. Det viser at vi har med et område (engelsk: «array») å gjøre, og som sikrer at alle de tilhørende intervallene får sine respektive data inn.