Discriminantanalyse / logistische regressie = voorspellen categorische outcome variable
- 1 afhankelijke variabele: niet-metrisch (categorisch!)
- Onafhankelijke variabelen: metrisch (evt. ordinaal/dummy)
2 mogelijkheden:
- Afh. variabele 2 categorieën: Logistic Regression / Twee-groepsdiscriminantanalyse
- Afh. variabele >2 categorieën: Meervoudige discriminantanalyse
Logistische regressie:
- Voorspellingsmodel
- Afhankelijke variabele: nominaal met 2 categorieën
- Geen assumptie mbt predictoren: hoeven niet normaal verdeeld te zijn
Discriminantanalyse
- Voorspellingsmodel
- afhankelijke variabele nominaal met 2 of meer categorieën
- Assumptie: normaliteit vd. predictoren
Doel:
- Profielanalyse= beoordelen en begrijpen van groepsverschillen op basis van onafhankelijke parameters (predictoren) en detecteren van discriminerende (predictor)variabelen
- Classificatie = Uiteindelijk op basis van de classificatiefunctie die wordt gegenereerd door de discriminantanalyse: voorspellen tot welke groep nieuwe cases behoren
Voorwaarden:
- Voldoende cases
- per predictor:
- Predictiekracht stijgt naarmate S/P stijgt
- Te veel cases: alle verschillen statistisch significant
- Zoek naar gulden middenweg
- Absoluut minimum: 5 cases/predictor
- Beter: 20 cases/predictor
- per groep:
- Min. 20 cases per groep
- Opgelet: groepen ongeveer even groot
- Voldoende valide toewijzingen
- Ideale subset tot predictie is kort (less is more)
- Afhankelijke variabele:
- Categorisch (nominaal), 2 of meer categorieën
- Exclusief en exhaustief
- Discriminantie moeilijker indien # categorieën stijgt
- Continue è categorisch? Opteer voor extreme categorieën Vb.: leeftijd/inkomen omzetten in laag/midden/hoog
- Input onderzoeker ifv. keuze geschikte AV
- Onafhankelijke variabele(n)
- Metrisch
- Normaliteit
- Hoe kiezen?
- Voorgaand onderzoek/theoretisch model
- Intuïtie (trial and error)
- Opgelet voor multicollineariteit (cf. regressie)
Werkwijze:
Gemiddelden voor elke groep worden vergeleken: grote verschillen?
1. (Discriminantfunctie(s) opstellen)
= analytisch, bepaalt het gewicht van iedere variabele om de tussen-groepsvariantie te maximaliseren tov. de binnengroepsvariantie
--> ifv. maximale verschillen tussen groepen
n-1 discriminantfuncties
2. Globale beoordeling model
3. Aparte beoordeling predictoren
4. Classificatiefuncties opstellen
a. Voor elke categorie van Y: classificatiefunctie Y= a+b1X1+b2X2+b3X3+…+bnXn
b. Scores van nieuwe respondenten invullen in classificatiefuncties
c. Respondent toewijzen aan de groep waarop hij hoogst scoort!
5. Classificatiematrix:
- percentage correct toegewezen cases
- kwaliteit voorspelling
Methode van estimatie:
2 opties:
= simultane introductie van alle predictoren
de onderzoeker is geïnteresseerd in het algemene model en minder in de unieke bijdrage van elke predictor
- Stapsgewijs (stepwise estimation)
= eerst introductie van de meest discriminerende predictor, dan de tweede…
--> de onderzoeker kan zo beter de niet-discriminerende predictoren evalueren en elimineren
Evaluatie:
- Wilks’ Lambda: [0,1]
- Van totale model: hoe lager, hoe beter model discrimineert
- Van predictoren: discriminerend vermogen van totale model bij verwijdering van deze variabele (cfr. Cronbach’s Alpha if item deleted)--> stijging, discrimineert de variabele goed. Hoe groter de stijging, hoe beter.
- Partial Lambda: discriminerend vermogen van de afzonderlijke variabelen (hoe lager, hoe beter de variabele discrimineert)
- F-remove and p-level: F-waarde en significantie (per variabele). F-remove is kritische F-waarde
- Tolerance: proportie variantie van X die niet verklaard wordt door andere X’en in het model (1-r2)
- 1-Tolerance: r2 of proportie variantie die wel verklaard wordt door andere X’en in het model