Dizertačná práca

ŽITNÝ, Peter (2012). Aplikácia teórie odpovede na položku v psychometrickej analýze a počítačovom adaptívnom testovaní. [dizertačná práca]. Trnava : Trnavská univerzita v Trnave, Filozofická fakulta, Katedra psychológie, 140 s. Školiteľ: Doc. Mgr. Peter Halama, PhD.

Abstrakt

Súčasný vývoj v oblasti psychologického hodnotenia zdôrazňuje zlepšovanie metodológie a význam zvyšovania efektívnosti. Obmedzenia predpokladov klasickej teórie testov [CTT – Classical Test Theory] pri testovaní viedli k vývoju rôznych alternatívnych meracích modelov, pričom jeden z nich je známy pod názvom teória odpovede na položku [IRT – Item Response Theory]. Teória odpovede na položku je modelovo založené meranie, v ktorom odhad úrovne schopnosti závisí na odpovediach osôb a vlastnostiach administrovaných položiek. Charakteristiky IRT napomohli vývoju adaptívneho hodnotenia, známeho tiež ako počítačové adaptívne testovanie [CAT – Computerized adaptive testing]. Algoritmy počítačového adaptívneho testovania založené na teórii odpovede na položku ponúkajú zaujímavé príležitosti pre súčasnú optimalizáciu ako presnosti, tak aj efektívnosti merania. Napriek teoretickým rozdielnostiam medzi teóriou odpovede na položku a klasickou teóriou testov nie je dostatok empirických zistení o tom, ako je skóre založené na CTT porovnateľné so skóre založenom na IRT; a hoci je možné od počítačového adaptívneho testovania očakávať zlepšenie efektívnosti a presnosti merania, zvýšená reliabilita sa nemusí nevyhnutne prejaviť v podstatne väčšej validite. Tieto praktické problémy sú riešené dvomi štúdiami. Prvá štúdia sa zaoberá porovnaním skóre Testu intelektového potenciálu založeného na CTT so skóre založenom na IRT. Test intelektového potenciálu tvoria úlohy, ktorých riešenie je založené na schopnosti nachádzať abstraktné vzťahy a pravidlá, pričom je v nich minimalizovaná úloha priestorového faktora. Výskum bol realizovaný na súbore 567 žiakov stredných škôl (279 mužov, 288 žien) s vekovým priemerom 17,1 rokov (SD = 1,21). V súlade s predošlým výskumom výsledky ukázali, že informácie získané CTT a IRT postupmi sú pre komplexnú analýzu testu alebo škály vzájomne komplementárne. Z výsledkov korelačnej analýzy sa ukázalo, že koeficienty obtiažnosti položiek stanovené v rámci CTT veľmi silno konvergujú s odhadmi obtiažnosti položiek odvodenými z 2PL (r = -0,986) aj 3PL (r = -0,966) modelov IRT. Výsledky tiež ukázali, že koeficienty rozlišovacej účinnosti podľa CTT silno konvergujú s diskriminačnými parametrami položiek odvodenými v rámci 2PL modelu IRT (r = 0,735), ale sú len v slabom vzťahu s koeficientmi rozlišovacej účinnosti v rámci 3PL modelu IRT (r = 0,352). Výsledky tiež ukázali, že IRT analýza poskytuje aj viacero prospešných psychometrických informácií. Druhá štúdia mala za cieľ overiť efektívnosť a validitu CAT naprieč trom administračným módom (real-data simulácia CAT, tradičná administrácia typu papier-ceruzka, administrácia cez počítač) Viedenského matricového testu (VMT) a Testu intelektového potenciálu (TIP) na slovenskom súbore žiakov stredných škôl. Viedenský matricový test, ktorý je podobný Ravenovým testom Progresívne matice, je nonverbálna metodika pre diagnostiku všeobecnej inteligencie, ktorá je založená na deduktívnom myslení. Dizajn štúdie zahŕňal tri typy údajov pre porovnanie: údaje z tradičnej formy administrácie papier-ceruzka (243 žiakov: 113 mužov, 130 žien), údaje z administrácie cez počítač (236 žiakov: 84 mužov, 152 žien) a údaje získané real-data CAT simuláciou, ktorá bola realizovaná „re-administráciou“ údajov z počítačovej verzie TIP a VMT (236 žiakov). Z výsledkov sa ukázalo, že kriteriálna a konštruktová validita CAT bola adekvátne porovnateľná cez jednotlivé módy administrácie. V súlade s predchádzajúcimi zisteniami CAT používa len malé množstvo položiek dávajúc výsledky, ktoré, pokiaľ ide o validitu, sú len nepatrne odlišné od výsledkov tradičnej verzie papier-ceruzka alebo administrácie cez počítač. Simulovaná CAT administrácia TIP bola o 55 % a VMT o 54 % úspornejšia ako tradičné verzie. Celkovo je možné konštatovať, že zistenia z obidvoch štúdií potvrdili kľúčové závery z predchádzajúceho výskumu a ukazuje sa, že IRT a CAT je užitočný spôsob, ako zlepšiť metodológiu a efektivitu psychologického testovania.

Kľúčové slová

Klasická teória testov (CTT). Teória odpovede na položku (IRT). Počítačové adaptívne testovanie (CAT). Psychometrická analýza. Papier-ceruzka. Cez počítač. Kriteriálna a konštruktová validita. Efektívnosť.

ŽITNÝ, Peter (2012). Application of item response theory in psychometric analysis and computerized adaptive testing. [dissertation]. Trnava : University of Trnava, Faculty of Philosophy and Arts, Department of Psychology, 140 p. Supervisor: Doc. Mgr. Peter Halama, PhD.

Abstract

Present developments in the area of psychological assessment place emphasis on methodological improvements and the importance of increasing effectiveness. The limitation of the assumptions of classical test theory (CTT) in testing have led to the development of various alternative measurement models and one of them has come to be called item response theory (IRT). Item response theory is model-based measurement in which ability level estimates depend on both persons´ responses and on the properties of the items that were administered. The characteristics of IRT have facilitated the development of adaptive assessment, also known as computerized adaptive testing (CAT). Computerized adaptive testing algorithms based on item response theory offer attractive opportunities for simultaneously optimizing both measurement precision and efficiency. Despite theoretical differences between item response theory and classical test theory, there is a lack of empirical knowledge about how comparable are the CTT-based and IRT-based score; and although computerized adaptive testing can be expected to improve efficiency and measurement precision, the increased reliability does not necessarily translate into substantially greater validity. These practical issues are addressed by two studies. The first study deals with the comparison of the CTT-based and IRT-based score of The Test of Intellect Potential. Test of Intellect Potential is a non-verbal method for identification of general intellect abilities via deduction of relations. The research was conducted on the Slovak sample of 567 secondary school students (279 males, 288 females), their mean age was 17,1 years (SD = 1,21). Consistently with previous research, results demonstrated that information from CTT and IRT analysis are complementary if one wants to analyze properly a test or scale. For the two- and three-parameter IRT models, the relationships between CTT- and IRT-based item difficulty estimates appear very strong (2PL r = -0,986; 3PL r = -0,966). Results of this study also showed that the item discrimination indexes from the IRT three-parameter model correlated somewhat less with CTT point-biserials (r = 0,352) than did those from IRT two-parameter model (r = 0,735). In conclusion, results of this study showed that IRT analysis could provide beneficial and additional psychometric information. The second study aim to verify efficiency and validity of CAT across three mode of administration (real-data simulation of CAT, paper-pencil, computer-based) of The Vienna Matrices Test (VMT) and Test of Intellect Potential (TIP) in the Slovak sample of secondary school pupils. Vienna Matrices Test, which is similar to Raven's Standard Progressive Matrices, is a non-verbal assessment of the general intelligence based on deductive thinking. Study design included three data types for comparison: real paper-pencil (243 participants: 113 male, 130 female) and computer-based administrations (236 participants: 84 male, 152 female) and real-data simulated CAT administration derived by "re-administering" computer-based data (236 participants). The results showed that the criterion and construct validity patterns of CAT were reasonably comparable across administration modes. Consistent with previous research, CAT selecting only a small number of items gave results which, in terms of validity, were only marginally different from the results of traditional paper-pencil or computer-based version. CAT simulated administration of the TIP was 55 % and VMT 54 % economical than the traditional version. Overall it can be concluded that findings of both studies confirmed key findings from previous research and shows that the IRT and CAT is a useful way of improving methodology and the efficiency of the psychological testing.

Keywords

Classical test theory (CTT). Item response theory (IRT). Computerized adaptive testing (CAT). Psychometric analysis. Paper and pencil. Computer-based. Criterion and construct validity. Efficiency.