Zamyšlení třetí – Když testování formuje
Při procházení zdrojů k prvním dvěma příspěvkům k JPZ jsem zjistil, že v mezinárodní vědecké literatuře výrazně ubylo studií, které by řešily základní otázku – tedy zda high-stakes testování či vysoce důležité zkoušky mají negativní systémové dopady, a to nejen za posledních pět, ale asi deset let zpět. Úbytek takových studií vyvolává otázku, zda high-stakes testování je vůbec relevantním a aktuálním výzkumným tématem…
Odpověď je, že v původní podobě už vlastně není!
Důvodem, proč aktuální výzkumné studie ke škodlivosti vysoce důležitých zkoušek a jejich dopadů nejsou nyní ve větší míře publikovány, není ale to, že by se nejednalo o závažné téma. Důvodem je spíše to, že ve výzkumu již delší dobu převažuje velmi silný konsenzus o škodlivém dopadu těchto zkoušek na vzdělávací systémy (školy, kurikulum, žáky i učitele). Konsensus se začal formovat přibližně před dvaceti lety. Pokud tedy někdo říká, že na danou problematiku není jednotný pohled, není tomu tak.

Hlavní kritické závěry k vysoce důležitým zkouškám byly formulovány již v 90. letech minulého století. Bylo to v reakci na reformy jak ve Velké Británii (tržní a manažerská transformace školství za M. Thatcher a s pokračující politikou accountability and delivery za T. Blaira), tak reformy v USA (tzv. „accountability reforms“ vrcholící za G. W. Bushe okolo roku 2001). Obecně byly tyto reformy zaměřené na státem řízené a realizované poměřování škol prostřednictvím veřejně srovnatelných výsledků. Jak na školy, tak i na učitele byla kladena jednoznačná odpovědnost za výsledky žáků. Hlavním nástrojem kontroly pak byly standardizované testy, realizované na státní úrovni. Testy byly využívány především jako nástroj selekce a accountability (odpovědnosti). Byly „high-stakes“, tedy měly dopad na žáky (zejména jejich další životní dráhu), učitele i školy (reputace, vedení a financování). Právě v této době vzniklo mnoho výzkumných studií definujících negativní dopady vysoce důležitých zkoušek. Byly popsány dnes běžně používané koncepty jako: washback effect, narrowing curriculum (s redukcí přírodních věd, umění a například historie), teaching to the test, ale i změna výukových metod s nárůstem drilu. Popisovány byly i manipulace s výsledky a vývoj tzv. shadow economy (doučování pro splnění testů). Velmi závažný dopad byl dokládán u zvyšování nerovností mezi žáky a popisováno bylo zhoršování jejich wellbeingu.
Pro obecný popis důsledků byl využíván tzv. Campbellův zákon, který zhruba říká, že čím více je kvantitativní ukazatel používán pro rozhodování, tím více deformuje proces, který má měřit. Po roce 2010 již vědecká debata tedy nebyla o tom, zda vysoce důležité zkoušky mají negativní dopady na vzdělávací systémy, děti a celou společnost. Došlo k velmi silnému koncenzu, a to napříč různými státy či dokonce světadíly. Na druhou stranu, v této době postkomunistické země často přebíraly modely high-stakes testování, a to bez reflektování dostupné vědecké evidence.
Od té doby se výzkumy zaměřují na to, jak dopady high-stakes testů (zkoušek) zmírnit, jak kombinovat hodnocení a wellbeing žáků nebo jak navrhnout low-stakes systémy, které by nebyly tak poškozující. Značná pozornost je také věnována hodnocení kompetencí a hlubokého porozumění, které jsou často oficiálním cílem vzdělávání – stejně jako u nás v RVP. Zatímco odborný svět již relativně dlouho řeší, jak minimalizovat škody, které high-stakes způsobily či způsobují, tak v některých zemích se stále vedou spory spíše o tom, jak vysoce důležité zkoušky zachovat. Veřejná a politická debata v této otázce stav výzkumů často nereflektuje. Na druhou stranu, státy, které mají velmi silnou tradici high-stakes testování (jako například Singapur) v posledních letech od tohoto přístupu ustupují nebo se ho dlouhodobě snaží kompenzovat. Jinde dochází ke zvláštní substituci problému, kdy se u high-stakes testů řeší a zpřesňuje to, co má na celý systém mezinárodně prokázaný negativní dopad. Bohužel, i u sebevíc vylepšeného testu, který bude součástí vysoce důležité zkoušky, se jeho negativní dopady nezmění.

Je nutné si dále uvědomit, že i sebelepší státní kurikulum (v našem případě RVP) bude ve školách deformováno výše popsanými a dlouhodobě známými negativními principy vysoce důležitých zkoušek. Práce na kurikulu ani jeho implementace tedy nepřinesou očekávané výsledky. Aktuální komparativní studie L. Crahan ukazuje, že úspěšné vzdělávací systémy nestaví fungování kurikula na vysoce důležitých selekčních zkouškách. Naopak se snaží minimalizovat jejich deformující vliv na výuku, obsah vzdělávání i práci učitelů.
Závěrem, pro zlepšení našeho vzdělávacího systému, je možné doporučit následující kroky:
- Přiznat si reálný stav vyplývající z aktuálního vědeckého poznání. Uvědomit si, že debata o tom, zda high-stakes testy a zkoušky mají negativní dopady, má ve výzkumu velmi silný konsenzuální charakter.
- Oddělit funkci měření od funkce selekce. Kvalitně sestavený test realizovaný v dobře určených „uzlových bodech“ s jasným cílem ověřit funkčnost systému, může být užitečným nástrojem zpětné vazby. Proto je třeba říci, že instituci, která bude umět testy vytvářet, vyhodnocovat a testování realizovat, nutně potřebujeme (pro vyhodnocování efektivity a řízení systému – ne třídění žáků nebo žebříčky škol).
- Přestat nahrazovat problém (test) jeho deriváty. Úprava formátu úloh, bodování nebo jiná úprava nepřeváží vliv Campbellova zákona.
Samozřejmě je zcela oprávněná a velmi často kladená otázka, co a jak by tedy mělo JPZ u nás nahradit. Jako první a zásadní krok se jeví respektování hybridního charakteru zkoušky. I v tomto případě ale není nutné vymýšlet zcela nová řešení. Je dobré se podívat, co již bylo zamýšleno a schváleno v aktuální Strategii 2030+ (konkrétně část 1.3 Hodnocení, kapitola 2.):
„Změnit koncept jednotné přijímací zkoušky. Bude upraven obsah a forma přijímacích zkoušek tak, aby odpovídaly revidovanému RVP ZV a jako celek zohledňovaly kompetenční pojetí kurikula. Ředitelé budou podporováni ve využívání dalších možností hodnocení v rámci přijímacího řízení (portfolia žáků, předpoklady pro daný obor, profilové testy apod.).“
Tuto problematiku samozřejmě stojí za to rozpracovat v samostatném příspěvku.
Zdroje:
Au, W. 2007. High-Stakes Testing and Curricular Control: A Qualitative Metasynthesis. Educational Researcher, 36 (5), 258–267.
Berliner, D. C. 2011. Rational Responses to High Stakes Testing: The Case of Curriculum Narrowing and the Harm That Follows. Cambridge Journal of Education, 41 (3), 287–302.
Crehan, L., et al. (2025). International Comparative Review of Curriculum Policy. Centre for Education Systems (CES).
Entrich, S. R., et al. (2020). Social Inequality in Shadow Education: The Role of High-Stakes Testing.
Hanushek, E. A., & Raymond, M. E. (2005). Does School Accountability Lead to Improved Student Performance? Journal of Policy Analysis and Management, 24(2), 297–327.
Cho, E. Y. N., et al. (2020). Children’s Wellbeing in a High-Stakes Testing Environment.
Koretz, D. 2017. The Testing Charade. Chicago: University of Chicago Press.
Minarechová, Michaela. (2012). Negative impacts of high-stakes testing. Journal of Pedagogy, 3(1), 82–100.
Nichols, S. L., & Berliner, D. C. 2007. Collateral Damage: How High-Stakes Testing Corrupts America’s Schools. Cambridge, MA: Harvard Education Press.
OECD (2009). Assessment and Innovation in Education.
OECD (2011). Student Standardised Testing and Assessment.
OECD (2023). Equity and Inclusion in Education.
Smith, M. L., & Kovacs, P. E. 2011. The Impact of Standards-Based Reform on Teachers: The Case of “No Child Left Behind”. Teachers College Record, 113(11), 1–36.

Napsat komentář