gyldighed

fra Wikipedia, den gratis encyklopædi
Spring til navigation Spring til søgning

Validitet ( latin validus "stærk" "effektiv"; engelsk validitet ; også: validitet ) er (ud over pålidelighed og objektivitet ) et kvalitetskriterium for modeller , målinger eller testprocedurer .

I empiriske termer refererer validitet til, at indholdet af en empirisk måling er i overensstemmelse med et logisk målekoncept. Generelt er dette graden af ​​nøjagtighed, hvormed den funktion, der skal måles, faktisk måles. [1] Med hensyn til modeller og hypoteser refererer validitet til overensstemmelse mellem prognoser eller konklusioner og data.

Der skelnes mellem en repræsentationskonklusion (hvis testadfærden er repræsentativ for den samlede adfærd) og en korrelationskonklusion (hvis adfærden i testen korrelerer med adfærden uden for testsituationen). [2] Afhængigt af hvilken variabel der bruges som kriterium for adfærd uden for testsituationen, skelnes der mellem indholdsrelateret, forudsigelig eller konstruktiv validitet . [3]

Gyldighed som kvalitetskriterium for måleinstrumenter

Gyldigheden er et af de såkaldte vigtigste kvalitetskriterier for måleinstrumenter . Det er et mål for, om de data, der genereres under målingen, repræsenterer variablen, der skal måles efter hensigten. Først derefter kan dataene fortolkes meningsfuldt.

Udover validitet er objektivitet (uafhængighed af resultaterne fra målebetingelserne) og pålidelighed (pålidelighed, formel nøjagtighed af målingen) blandt de tre vigtigste kvalitetskriterier. De bygger på hinanden: uden objektivitet er der ingen pålidelighed, uden pålidelighed er der ingen gyldighed.

Eksempel: Hvis en test skal forudsige kondition til kørsel, sættes tilsvarende opgaver (f.eks. På koncentration, opfattelse, sensorimotoriske færdigheder, intelligens), som giver en testværdi efter testen. Dette skal være objektivt og pålideligt. Gyldighed vedrører spørgsmålet om, hvorvidt det rent faktisk forudsiger kondition til at køre og z. B. Identificerede personer i fare. På trods af den nuværende objektivitet og pålidelighed behøver gyldigheden ikke at blive givet, f.eks. B. hvis de målte egenskaber ikke er repræsentative for konditionen.

Der er forskellige aspekter af validitet og tilhørende måle- og estimeringsmetoder.

Validitet som kvalitetskriterium for psykologiske tests

Disse kvalitetskriterier bruges som evalueringskriterier for kvalitet, især til psykologiske tests . En test skal designes på en sådan måde, at dens udførelse, evaluering og fortolkning er uafhængig af testlederen eller testbetingelserne (objektivitet), og at testresultatet også bekræftes med den samme eller en sammenlignelig test (pålidelighed). Gyldigheden eller gyldigheden hænger sammen med, at z. For eksempel kan aspekter af intelligens virkelig måles ved en intelligens -test, og denne måling tillader en forudsigelse af præstationer i det virkelige liv (f.eks. Træningssucces eller professionel succes). Som et resultat af målingerne er sådanne forudsigelser forsynet med en fejl og er kun sandsynlighedserklæringer - samtidig kritiseres også noget indhold, jf. B. Kritik af begrebet intelligens .

Former eller aspekter af gyldighed

I sine tekniske anbefalinger for psykologiske test og diagnostiske teknikker (1954) foreslog American Psychological Association fire typer validitet, disse er indholdsgyldighed , konstruktionsgyldighed og prognostisk og diagnostisk kriteriegyldighed , heraf "historisk og praktisk [...] kriterierelateret validitet er det mest betydningsfulde aspekt " [4] er. ”Som alle aftaler er aftalen gennem en rating ikke noget lukket, men kan ændres konstant. [...] Det er op til hver testtolk at genkende eller afvise dette kriterium eller at lede efter et bedre. " [5]

Indholdets gyldighed

Indholdsgyldighed antages, hvis en metode til måling af en bestemt konstruktion eller funktion er den bedst mulige operationalisering af denne konstruktion. Dette er f.eks. Tilfældet med interesse- og videnstest: en klassetest eller køreprøve repræsenterer direkte de færdigheder, der skal måles. Derfor taler man om logisk eller triviel validitet . Eksperter bruger ratings til at afgøre, om indholdet er gyldigt eller ej.

Konstruer gyldighed

Udtrykket konstruktion forstås at betyde teoretiske egenskabsdimensioner ( latente variabler ). Konstruktionens gyldighed refererer til, at udsagn kan accepteres baseret på operationaliseringen af ​​hele den underliggende konstruktion. Dette er normalt tilfældet, når omfanget af konstruktionens betydning kortlægges fuldstændigt, præcist og forståeligt. Konvergerende og diskriminerende (eller også: divergerende ) validitet betragtes som empiriske indikatorer for konstruktiv validitet :

Konvergens gyldighed
Måledataene fra testprocedurer, der kortlægger den samme konstruktion, skulle være stærkt korreleret med hinanden.
Diskriminerende gyldighed
Måledataene fra testprocedurer, der kortlægger forskellige konstruktioner, bør kun korrelere lidt med hinanden (forudsat at konstruktionerne faktisk er uafhængige af hinanden).

Både konvergent og diskriminerende gyldighed skal gives for at sikre fuld dokumentation for konstruktionens gyldighed. Den empiriske procedure for konvergent og diskriminerende validitet er særlige tilfælde med kriteriegyldighed.

I multitrait -multimetodeanalysen sammenlignes den konvergente validitet og den diskriminerende validitet med hinanden på basis af en enkelt prøve. Det forventes kort sagt, at den konvergente validitet er større end den diskriminerende validitet.

Faktorer for en reduceret konstruktionsgyldighed kan være: [6]

  • vag definition af konstruktionen
  • mono-operation bias : kun et aspekt af konstruktionen undersøges
  • mono-metode bias : kun én metode bruges til at operationalisere konstruktionen
  • Hypotesehastigheder ( Hawthorne -effekt )
  • social ønsket
  • Forskerens forventninger ( Rosenthal -effekt )
  • Udeladelse af relevante faktorniveauer
  • mere end en uafhængig variabel er effektiv (se forvirringseffekt )
  • Interaktion mellem måling og behandling
  • begrænset generaliserbarhed til lignende variabler

Kriteriums gyldighed

Kriteriegyldighed refererer til forholdet mellem måleinstrumentets resultater og et empirisk kriterium (Schnell, Hill & Esser, 2005, s. 155). For eksempel: En forsker undersøger sammenhængen mellem sin nye intelligens test og testpersonernes skolekarakterer for at kontrollere validiteten af ​​sin test. Udtrykket "intern (kriterium) validitet" bruges, når en anden test, der anerkendes som gyldig, bruges som kriterium. Hvis et objektivt mål (f.eks. Psykofysiologiske mål eller økonomiske værdier) eller en ekspertvurdering bruges som kriterium, betegnes dette som ekstern (kriterium) validitet . Der kan også skelnes efter det tidspunkt, hvor overholdelsen af ​​kriteriet skulle være til stede:

Diagnostisk validitet / samtidig validitet
Det eksterne kriterium, som allerede skal være gyldigt (f.eks. En anden test), præsenteres for de samme testpersoner på samme tid som det måleinstrument, der skal valideres. Resultaterne af de to måleinstrumenter er korrelerede . Korrelationsniveauet er målet for aftalens gyldighed. Proceduren til bestemmelse af konvergenten og den diskriminerende testgyldighed er særlige tilfælde i denne kategori.
Prognostisk validitet / forudsigelig (forudsigelig validitet)
Måledataene indsamles på et tidspunkt før det eksterne kriterium blev indsamlet. I modsætning til aftalegyldigheden ligger forudsigelsesintervallet mellem de to målinger ved bestemmelse af forudsigelsesgyldigheden. På denne måde kan bestemmes i hvilken grad måledata forudsiger kriteriet. For eksempel kan en prognose for professionel succes laves inden for rammerne af et vurderingscenter , eller fremtidig skolesucces kan forudsiges ud fra præstationen i en intelligensprøve . En test opfylder forudsigelsesgyldigheden, hvis dens forudsigelser korrelerer stærkt med det resultat, der faktisk opstod senere.

Ansigtets gyldighed

Ansigtsgyldighed , også kendt som ansigtsgyldighed , afhænger af, om et måleinstrument forekommer plausibelt for lægfolk. Ansigtsgyldighed siger ingenting om den faktiske validitet, dvs. indhold, kriterium og konstruktionsgyldighed, men bestemmer snarere accept af en målemetode. Selv måleinstrumenter, der ikke er særlig gyldige (f.eks. Ustrukturerede rekrutteringssamtaler) nyder et højt niveau af visuel validitet og bruges derfor ofte i praksis.

Udtalelsers gyldighed om årsagssammenhænge

Baseret på de operationer, der er relateret til individuelle konstruktioner, drager forskere i de fleste empiriske undersøgelser konklusioner om årsag-virkningsforhold først i den statistiske analyse og derefter med hensyn til deres årsagshypoteser . Betingelserne for statistisk , intern og ekstern validitet vedrører forekomsten, validiteten og overførslen af ​​disse ( induktive ) konklusioner. Gyldighedsgraden af ​​disse konklusioner kan kun diskuteres og estimeres, aldrig bevises, og det er derfor mere fornuftigt - som før - at tale om graden af ​​validitet snarere end om eksistensen (eller ikke -eksistensen) af disse former for validitet .

Statistisk validitet

Der antages en høj grad af statistisk validitet for udsagn eller konklusioner trukket i empiriske undersøgelser (normalt om årsag-virkningssammenhænge), hvis pålideligheden og teststyrken af måleinstrumenterne og udvalgte statistiske metoder er høj, og generelt er fejlvariansen blevet begrænset , blev de matematiske antagelser om de statistiske metoder ikke krænket, og ikke individuelle signifikationer (f.eks. fra en korrelationsmatrix ) blev "fisket ud" ( fiskeri ).

Intern gyldighed

Der antages en høj grad af intern validitet for udsagn eller konklusioner trukket i empiriske undersøgelser, hvis alternative forklaringer på eksistensen eller omfanget af de fundne effekter stort set kan udelukkes. Intern validitet (eller ceteris paribus validity) eksisterer, hvis ændringen i den afhængige variabel klart kan spores tilbage til variationen i den uafhængige variabel (ingen alternativ forklaring). For at sikre dette skal interfererende variabler kontrolleres eller slukkes ved hjælp af forskellige metoder som eliminering, konstant og parallelisering. For at effekterne ikke kan spores tilbage til egenskaberne ved testpersonerne , skal disse tilfældigt tildeles testbetingelserne.

Den interne gyldighed er truet af: [6]

  • Historie. Hver uplanlagt hændelse mellem to målinger kan have en utilsigtet indflydelse på testpersonerne. Eksempel: Under den første måling, før behandling med et nyt antidepressivt middel, er vejret koldt og regnfuldt, under den anden måling, som skal kontrollere lægemidlets effektivitet, er vejret varmt og solrigt.
  • Modning. Emner skifter mellem to målinger bare ved at blive ældre.
  • Reaktivitet. Testpersoner kan selv reagere på målingerne, f.eks. Med tilvænning eller sensibilisering , især hvis måleprocessen er ubehagelig.
  • Ændring i måleinstrumentet. Under en undersøgelse kan måleinstrumenternes egenskaber, herunder personen, der måler, ændre sig. Disse kan for eksempel måle mere præcist gennem erfaring eller mindre præcist gennem voksende kedsomhed. Som et resultat af behandlingen kan den afhængige variabel også nå et værdiområde, hvor måleinstrumentet er mindre præcist. Dette kan føre til gulv- eller loftseffekter . Eksempel: En intelligens test bruges til at måle effekten af ​​kognitiv træning på børn. Træningen er så vellykket, at børnene alle får fuld karakter på den anden måling.
  • Tilbagegang til midten . Denne statistiske artefakt kan overlejres på behandlingseffekter, hvis for eksempel for at forhindre gulv- eller loftseffekter, emner med særlig høje (eller lave) startværdier i den relevante egenskab udelukkes fra starten.
  • Udvælgelse på grund af utilstrækkelig randomisering. Hvis testpersonernes tildeling til testbetingelserne ikke er tilfældig, kan forsøgs- og kontrolgrupperne variere allerede før behandlingen, så måling af behandlingseffekten forfalskes. Derudover kan historie, modning og virkning af instrumenter påvirke grupperne på forskellige måder.
  • Fiasko. Hvis forsøgspersoner falder ud under undersøgelsen, kan det skyldes behandling. De mindre grupper i den anden måling er resultatet af et uønsket udvalg.
  • Retning af årsagsslutningen. Et årsagssammenhæng mellem uafhængig og afhængig variabel bliver tvivlsom, hvis der (i en anden undersøgelse) også findes en effekt af den afhængige af den uafhængige variabel, og denne sammenhæng kan ikke forklares med en tredje variabel.
  • Udveksling af oplysninger. Hvis emner interagerer mellem målingerne (f.eks. "Jeg tror, ​​jeg tilhører placebogruppen"), kan dette have indflydelse på den næste måleproces. Virkninger af overensstemmelse kan overskygge virkningerne af behandlingen; eller den ene gruppe reagerer på, at dens testbetingelser er meget mere ubehagelige end dem i den anden gruppe, for eksempel med kompensation eller demotivation.
  • Rosenthal effekter . Eksperimentatoren afslører ubevidst mere om eksperimentet gennem gestus, ansigtsudtryk og ordvalg, end testpersonen må vide. Der kan skelnes mellem autosuggestion og forslag . Med førstnævnte har eksperimentatoren, med alle bevidste bestræbelser på at være neutral, en tendens til at indsamle data, der understøtter hans tidligere forventninger og hypoteser. Under forslaget kommunikeres disse forventninger til testpersonen, der handler i overensstemmelse med testdirektørens foreløbige forventninger og giver passende data ( god emneeffekt ).

På engelsk er der æselbroen DETTE MESS. Denne akronym refererer til otte faktorer, der repræsenterer trusler mod den indre validitet, nemlig T ESTNING (se. Reaktivitet), H istory (historie), I værktøjet ændring (ændring i måleinstrumentet), S TATISTISK regression mod middelværdien (regression til middelværdien ), M aturation (modning), e xperimental dødelighed (manglende), S (udvælgelse af utilstrækkelig randomisering) valg og S valg interaktion (vekselvirkning mellem udvælgelse og en anden faktor, z. B. modning kun i forsøgsgruppe). [7]

Ekstern gyldighed

Ekstern validitet - også generel validitet, generaliserbarhed eller økologisk validitet (jf. Økologisk fejlslutning ) - angiver korrespondancen mellem det faktiske og det tilsigtede undersøgelsesobjekt. Grundtanken her er spørgsmålet om generaliserbarhed (induktion). Ifølge den klassiske opfattelse har udsagn eller konklusioner trukket i empiriske undersøgelser en høj grad af ekstern validitet, hvis (a) resultaterne kan generaliseres til den befolkning, som undersøgelsen er designet til, og (b) ud over undersøgelsens specifikke indstilling Kan overføres til andre designs, instrumenter, steder, tidspunkter og situationer, dvs. er generelt gyldige og kan generaliseres. Den hyppigste trussel mod personlig ekstern kvalitet (a) ligger i praktiske problemer med at rekruttere informationsbærerne, dvs. de personer, der interviewes, eller de testpersoner, der kræves til et eksperiment . Er deres deltagelse tvunget eller frivilligt? Hvordan fandt du ud af muligheden for at deltage (gennem avisannonce, meddelelse osv.)? Hvad motiverer dem til at deltage (er de interesserede i emnet, har de brug for pengene osv.)? Disse er filtre, der kan begrænse kvaliteten af ​​prøven. Den hyppigste trussel mod den situationsrelaterede ydre kvalitet (b) ligger i kunstighed i laboratorieforsøg. [8.]

Den eksterne validitet stiger med hver vellykket replikation af fundene, fordi gentagelse med andre testpersoner (aldersgruppe, køn, kultur osv.) Eller variationer i testbetingelserne reducerer begrænsningerne i fundernes validitet. Eksempel: Så længe Pavlov kun havde vist, at hunde vandrede i munden, når en klokke ringede, hvis klokken ringede ofte nok samtidig med, at de fik mad, viste han kun det. Man kan kun tale om fænomenet klassisk konditionering , når mange typer emner viser mange typer af betingede reaktioner på mange typer af betingede stimuli. Metaanalysemetoden er tilgængelig til statistisk evaluering af replikationsstudier.

Fra dette klassiske synspunkt er intern og ekstern validitet i konflikt: Et højt niveau af intern validitet opnås bedst gennem stærkt kontrollerede og derfor ganske kunstige (laboratorie) forhold. I modsætning hertil har særligt realistiske forskningsdesigner , da de synes tilrådelige for den højest mulige eksterne validitet, risiko for ukontrollabel eller overset interferens. Fra et deduktivistisk perspektiv er dette imidlertid kun en tilsyneladende modsigelse. Da begge kriterier blev udviklet ud fra en induktivistisk forskningslogik , er generaliseringen af ​​empiriske fund (f.eks. Fra et eksperiment) i forgrunden. Spørgsmålet om replikerbarheden af ​​resultaterne under forskellige betingelser med forskellige prøver er et nyttigt spørgsmål her. En deduktivistisk forskningslogik forfølger imidlertid et andet mål. Her forsøger man at forfalske en (generelt gyldig) teori på grundlag af en særlig forudsigelse, ikke som i empirisk forskningslogik at verificere en teori gennem tilstrækkelige observationer. Hvis observationen ifølge denne logik modsiger teorien, betragtes den som forfalsket. Det er her uden betydning, om resultaterne på nogen måde er "repræsentative". Hvis forudsigelsen af ​​en teori bekræftes i et eksperiment, anses teorien for at være bevist, men skal underkastes yderligere test. Indvendinger, der sætter spørgsmålstegn ved validiteten af ​​eksperimentets resultater, er indsigelser mod eksperimentets interne validitet.

Forskningsdesignet har stor indflydelse på, om årsagsslutninger kan antages til gyldighed og gyldighed, og derfor er gyldigheden af eksperimentelle og kvasi-eksperimentelle forskningsdesign altid kritisk stillet spørgsmålstegn ved.

Gyldighed i biologisk nomenklatur

I biologisk nomenklatur refererer udtrykket "validitet" til den formelle gyldighed af et taxon (en systematisk enhed af levende væsener). En taxon bliver gyldig, hvis den oprindelige beskrivelse for eksempel opfylder de relevante formkrav (i botanik omtalt som en " gyldig publikation "). Disse formelle krav er opfyldt på de enkelte områder af biologisk nomenklatur, hvis den respektive regel er blevet overholdt. I den botaniske nomenklatur er disse reguleret i den internationale kode for nomenklatur for alger, svampe og planter (ICNafp), [9] i den zoologiske nomenklatur i de internationale regler for zoologisk nomenklatur (ICZN). For yderligere regler se også internationale forskrifter om nomenklatur . Disse regler udarbejdes og videreudvikles af de relevante kommissioner. For zoologisk nomenklatur er dette Den Internationale Kommission for Zoologisk Nomenklatur . Gyldige taxa kan opstå ikke kun gennem indledende beskrivelser, men også ved at genvinde gyldigheden af ​​fejlagtigt synonyme taxa. I disse tilfælde er dette kendt som revalidering. Nye kombinationer af mindst binære navne kan også føre til gyldige taxaer, f.eks. B. ved at klassificere en art i en anden slægt . Derudover kan ændring af rangen skabe nye taxaer. For eksempel en underfamilie kan forhøjes til rang af familien . Omvendt kan gyldigheden af ​​et taxon gå tabt, for eksempel hvis det anerkendes som et synonym for et taxon, der har prioritet i henhold til de gældende regler. Gyldigheden kan også gå tabt ved at ændre en rang. På grund af formelle mangler i den oprindelige beskrivelse af en taxon kan den ansvarlige kommission klassificere den som ugyldig. Sådanne navne er kendt som substantiv nudum . Enhver ændring i status for et taxon, som er beregnet af forfatteren, skal markeres i den tilsvarende publikation siden 1999, f.eks. Som " spec. Nov." (art nova) eller "n. sp." for ny type, "stat. rev." (status revideret) eller "rev. stat." for restaureret, således igen gyldig taxa, som "comb. nov." eller "n. kam." for nyligt kombinerede, i det mindste binomiske taxa. Men dette skal også markeres for taxaer, der har mistet deres gyldighed, for eksempel som "n. Syn." eller "syn. nov." for nyt synonym. Den nøjagtige type mærkning er ikke præcist defineret, men den skal være klar og sædvanlig. [10]

litteratur

  • DT Campbell , DW Fiske: Konvergent og diskriminerende validering ved hjælp af multitrait-multimethod-matrixen. I: Psychological Bulletin . 56, 1959, s. 81-105.
  • Andreas Diekmann : Empirisk social forskning. 18. udgave, Reinbek nær Hamborg 2007.
  • RM Liebert, LL Liebert: Videnskab og adfærd. En introduktion til metoder til psykologisk forskning. Prentice Hall, Englewood Cliffs, NJ 1995.
  • Rainer Schnell , Paul B. Hill , Elke Esser: Metoder til empirisk social forskning. 8., uændret udgave, Oldenbourg Verlag, München 2008.
  • W. Shadish, T. Cook, D. Campbell: Eksperimentelle og kvasi-eksperimentelle designs til generaliseret årsagsslutning. Houghton Mifflin, Boston 2002.

Weblinks

Wiktionary: validitet - forklaringer på betydninger, ordoprindelse, synonymer, oversættelser

Individuelle beviser

  1. Lienert og Raatz 1994 i henhold til gyldighed i DORSCH Lexicon for Psykologi .
  2. Fisseni, Hermann-Josef: Lærebog psykologiske diagnostik, 3. udgave, Göttingen et al 2004, s 62 f...
  3. Fisseni, Hermann-Josef: Lærebog psykologiske diagnostik, 3. udgave, Göttingen et al 2004, s 62 F og Brockhaus Psychologie, 2. udgave, Mannheim 2009....
  4. GA Lienert, U. Raatz: Test setup og test analyse. 5., fuldstændig revideret og udvidet udgave, Beltz, Weinheim 1994, s. 220.
  5. Gustav A. Lienert : Testopsætning og testanalyse. Psychologie Verlags Union, 4. udgave, 1989, s. 256.
  6. a b Joachim Krauth: Eksperimentelt design . Elsevier / Saunders 2000. ISBN 0-444-50637-3 .
  7. ^ PM Wortman: Evalueringsforskning - Et metodisk perspektiv . I: Årlig gennemgang af psykologi . 34, 1983, s. 223-260. doi : 10.1146 / annurev.ps.34.020183.001255 .
  8. ^ E. Aronson , TD Wilson, RM Akert: Socialpsykologi . Pearson Studium, 6. udgave 2008, ISBN 978-3-8273-7359-5 , s. 42 f.
  9. Paul van Rijckevorsel: Overblik over udgaver af kodeksen. International Association for Plant Taxonomy. November 2018, adgang til 2. januar 2021.
  10. ^ Otto Kraus: Internationale regler for zoologisk nomenklatur , Goecke & Evers, Keltern-Weiler, 4. udgave, 2000, ISBN 3-931374-36-X