Edukacyjna wartość dodana, czyli jak wykorzystywać wyniki egzaminów zewnętrznych do oceny efektywności nauczania
Wprowadzony w 2002 roku system egzaminów zewnętrznych dostarcza obiektywnych danych o osiągnięciach szkolnych. Dane te mogą być wykorzystywane do oceny efektywności nauczania. Jednak by oceny efektywności nauczania formułowane na podstawie wyników egzaminów były adekwatne, należy uwzględnić fakt, że osiągnięcia szkolne ucznia nie zależą tylko od jakości pracy szkoły. Wynik egzaminu jest uwarunkowany trzema grupami czynników:
- indywidualnych, takich jak zdolności i uprzednie osiągnięcia szkolne,
- społecznych, takich jak kapitał kulturowy i społeczny rodziny czy wpływ grupy rówieśniczej,
- szkolnych, takich jak kwalifikacje i zaangażowanie nauczycieli, metody nauczania czy warunki nauczania.
Jeżeli chcemy przeciętny wynik egzaminu dla danej szkoły interpretować jako miarę efektywności nauczania, musimy wytrącić z wyniku wpływ tych czynników, których szkoła nie może skutecznie kształtować. Powyższy wykres pozwala prześledzić, na jaki błąd narażamy się porównując szkoły ze względu na nieprzetworzony wynik egzaminu zewnętrznego.

Wykres 1. Czynniki wpływające na wyniki egzaminu a ocena efektywności nauczania
W hipotetycznym porównaniu na powyższym wykresie przewaga szkoły A nad szkołą B wynika z bardziej korzystnego układu czynników indywidualnych i środowiskowych. Jeżeli z wyniku "wyjmiemy" to, co zależy od zdolności i społecznego środowiska, ocena musi ulec zmianie - to szkoła B lepiej uczy w zakresie sprawdzanym przez egzamin. Metodą, która pozwala tak przetworzyć wyniki egzaminów, by wyeliminować, a w każdym razie znacząco ograniczyć wpływ czynników indywidualnych i społecznych, jest edukacyjna wartość dodana.
Pojęcie edukacyjnej wartości dodanej
Metoda edukacyjnej wartości dodanej (EWD) pozwala w znacznym stopniu "oczyszczać" wynik egzaminacyjny z wpływu czynników indywidualnych i środowiskowych, na które szkoła nie ma skutecznego wpływu.
Pojęcie EWD wywodzi się z ekonomii, gdzie - w pewnym uproszczeniu - wartość dodana to tyle co, przyrost wartości dóbr w wyniku danego procesu produkcyjnego. Analogicznie edukacyjną wartość dodaną można zdefiniować jako przyrost wiedzy uczniów w wyniku danego procesu edukacyjnego. Prawdopodobnie po raz pierwszy pojęcie edukacyjnej wartości dodanej pojawiło się w połowie lat 70. jako krytyczna kontynuacja idei rozliczalności szkół (school accountability). Z perspektywy czasu niektórzy badacze uważają pojęcie edukacyjnej wartości dodanej za najważniejsze narzędzie analityczne, jakie w naukach pedagogicznych pojawiło się w ostatnich 20 latach (Schagen, Hutchison 2003).
Ogólna idea edukacyjnej wartości dodanej była konkretyzowana na wiele sposobów. Wydaje się, że można wyróżnić dwa podstawowe rozumienia. Proste rozumienie wartości dodanej odnosi się do idei postępu uczniów w nauce, czyli uwzględniania w szacunkach efektywności szkoły początkowego stanu osiągnięć szkolnych uczniów. Rozbudowane rozumienie nie zadawala się kontrolą stanu początkowego osiągnięć i sięga do koncepcji wykorzystania zasobów, którymi dysponuje szkoła.
Zacznijmy od prostego rozumienia edukacyjnej wartości dodanej (Dolata 2005). Można wyróżnić dwa typy prostych wskaźników wartości dodanej. Pierwszy typ to wskaźniki bezwzględne. Wymagają one, by pomiar osiągnięć na różnych etapach kształcenia był wykonywany za pomocą tych samych skal pomiarowych. Jeżeli na przykład dysponowalibyśmy skalą do pomiaru rozumienia czytanych tekstów, która umożliwiałaby pomiar w grupie uczniów od I do X klasy, to w dowolnym momencie tego przedziału moglibyśmy szacować wartość dodaną w tam zakresie. Wynikami takich pomiarów w Polsce nie dysponujemy.
Drugi typ to wskaźniki względne. Jeżeli pomiary osiągnięć szkolnych nie są dokonywane na ujednoliconych skalach, możemy jedynie przyjąć, że wynik na egzaminie na niższym szczeblu jest ogólną miarą potencjału edukacyjnego. W następnym kroku używamy tej miary jako prognostyka wyniku na egzaminie kolejnego szczebla. Prognoza ta ma charakter statystyczny i polega - na przykład - na oszacowaniu, jaki przeciętnie wynik na egzaminie gimnazjalnym uzyskuje uczeń, który trzy lata wcześniej uzyskał określony wynik na sprawdzianie. Faktycznie uzyskany przez ucznia wynik odnosimy do wartości oczekiwanej i w ten sposób otrzymujemy oszacowanie wartości dodanej na danym szczeblu kształcenia. Średnia tak obliczonych wskaźników dla danej szkoły jest wskaźnikiem efektywności nauczania w zakresie sprawdzanym przez egzamin.
Względny charakter wskaźnika sprawia, że poprawa jakości nauczania jest grą o sumie zerowej: moja szkoła może uzyskać wyższy wynik mierzony wartością dodaną tylko o tyle, o ile inne szkoły/szkoła uzyskają niższe wyniki. Teoretycznie może się zdarzyć, że szkoła podejmuje skuteczne działania naprawcze, ale wynik w kolejnej edycji egzaminu jest niższy, bo inne szkoły postarały się bardziej.
Choć w prostych wskaźnikach EWD explicite uwzględnia się tylko uprzednie osiągnięcia szkolne, to implicite model uwzględnia też zdolności i czynniki środowiskowe. Dzieje się tak, ponieważ uprzednie osiągnięcia szkolne są przecież uwarunkowane tymi samymi czynnikami, co wynik końcowy. Uwzględnienie więc uprzednich osiągnięć oznacza pośrednią kontrolę pozostałych czynników indywidualnych i czynników środowiskowych. Nie jest to jednak kontrola w pełni efektywna, ponieważ czynniki te w dalszym ciągu działają, stanowiąc wyznaczniki postępu.
Przejdźmy do rozbudowanego rozumienia edukacyjnej wartości dodanej. W tym wypadku nie zadawalamy się tylko informacją o poziomie osiągnięć poszczególnych uczniów na progu szkoły, ale rozszerzamy horyzont analizy wprowadzając pojęcie zasobów szkoły. Rozbudowane rozumienie edukacyjnej wartości dodanej odwołuje się do tradycji badawczej znanej pod nazwą education production functions a łączonej z nazwiskiem E. Hanusheka (1986). Schemat rozumowania przedstawia poniższy rysunek.

Rysunek 1. Rozbudowane rozumienie edukacyjnej wartości dodanej
Najważniejszą klasyfikacją zasobów jest podział na zasoby dane i wypracowane. Te pierwsze rzutują na końcowy poziom osiągnięć szkolnych, ale znajdują się poza kontrolą szkoły (środki finansowe, infrastruktura) lub nie chcemy, by szkoła je kontrolowała (kontrola zasobów indywidualnych uczniów przez ich selekcję na wejściu). Lista składników zasobów danych może wyglądać następująco:
- Zasoby indywidualne uczniów: dotychczasowe osiągnięcia szkolne, kapitał kulturowy, ekonomiczny i społeczny rodziny ucznia.
- Zasoby grupowe: osiągnięcia szkolne rówieśników, ich kapitał kulturowy, ekonomiczny i społeczny, cechy kultury szkoły determinowane jej składem społecznym.
- Zasoby instytucjonalne: nakłady finansowe, infrastruktura.
Zasoby wypracowane to całość praktyk edukacyjnych - wychowawczych i dydaktycznych - składających się na kulturę pedagogiczną szkoły. Oceniając efektywność szkoły należy wytrącić wpływ zasobów danych tak, by końcowy poziom osiągnięć szkolnych mógł być tylko przypisany zasobom wypracowanym. Innymi słowy wskaźnik efektywności nauczania w danej szkole (lub dla danego nauczyciela) powinien być tak skonstruowany, by jego wartość dała się interpretować jako osiągnięcia szkolne w sytuacji całkowitej równości po stronie zasobów danych szkoły.
W polskich realiach jesteśmy w stanie szacować EWD za pomocą prostych modeli uwzględniających przede wszystkim uprzednie osiągnięcia ucznia. Tworzenie rozbudowanych modeli szacowania EWD jest - przynajmniej na razie - niemożliwe z powodu braku potrzebnych, wysokiej jakości danych.
Po co nam edukacyjna wartość dodana?
Metoda edukacyjnej wartości dodanej jest narzędziem polityki oświatowej. Może być rozpatrywana w ogólnym kontekście polityki poprawiania jakości oświaty przez mechanizmy rozliczania szkoły na podstawie wymiernych wskaźników oraz w bardziej swoistym otoczeniu problemów pojawiających się wszędzie tam, gdzie tworzy się rynek usług edukacyjnych i szkoły zaczynają ze sobą konkurować o uczniów. Zanim przejdziemy do dyskusji nad skutecznością EWD jako narzędzia polityki oświatowej, przypatrzmy się procesom mającym miejsce w polskiej oświacie.
Osiągnięciu jakich celów może służyć metoda edukacyjnej wartości dodanej? Można wskazać na trzy cele:
1. Wyparcie z przestrzeni publicznej wyników surowych jako jedynej miary jakości nauczania.
2. Łagodzenie negatywnych skutków konkurencji między szkołami, czyli przeciwdziałanie selekcji na progu szkoły i efektowi zwanemu "spijaniem śmietanki".
3. Zmniejszenie poczucia ciągłej frustracji dobrych nauczycieli pracujących w trudnych środowiskach oraz "odcięcie" słabych nauczycieli od obronnej interpretacji niepowodzeń typu "ale z kim ja muszę pracować".
Cele te są z sobą powiązane, ale dla uporządkowania wywodu omówione zostaną oddzielnie.
Słabość polskiej polityki oświatowej sprawia, że rozważania poniższe mają charakter hipotetyczny. Celów powyższych nie znajdziemy w żadnych oficjalnych dokumentach. Można jedynie domniemać, że są one dla polityków potencjalnie ważne.
Wyparcie z przestrzeni publicznej wyników surowych jako jedynej miary jakości nauczania
Każda dojrzała polityka doskonalenia oświaty musi wykorzystywać zestaw dobrze zdefiniowanych wskaźników jakości. Niektóre z nich będą miały charakter zewnętrzny oraz ilościowy i wykorzystywać wyniki obiektywnych pomiarów, inne będą miały charakter wewnętrzny oraz jakościowy i bazować na całościowych, popartych głębszym wglądem w praktyki edukacyjne danej szkoły metodach diagnozy. System egzaminacyjny dostarcza obiektywnych danych ilościowych o poziomie osiągnięć uczniów. Waga tych informacji egzaminacyjnych z perspektywy mechanizmów ewaluacji zewnętrznej szkoły rośnie. Coraz częściej średni wynik szkoły uzyskany na egzaminie staje się kryterium jej oceny przez otoczenie społeczne. Presja na wysokie wyniki rośnie.
W poprzednich podrozdziałach wskazano, że traktowanie średniego wyniku szkoły jako miary efektywności nauczania jest błędem. Ponieważ wyniki zależą również od czynników, które są poza kontrolą szkoły, używanie nieprzetworzonych wyników jako miary efektywności musi prowadzić do nieadekwatnych ocen. Jeżeli system oświaty chce skutecznie przeciwdziałać stosowaniu tej nieadekwatnej miary, musi zaproponować lepszą alternatywę. Nie wystarcza komentarz do wyników egzaminów przestrzegający przed pochopnym ich wykorzystywaniem do oceny szkoły bez rozpoznania kontekstów kształcenia. Należy zaproponować realną alternatywę. Edukacyjna wartość dodana jest takim rozwiązaniem. EWD jest oczywiście niedoskonałą, ale zdecydowanie bardziej wartościową metodą oceny efektywności nauczania. Tylko wprowadzenie do obiegu informacyjnego konkurencyjnego miernika jakości pozwoli formułować bardziej dojrzałe oceny i podejmować bardziej racjonalne decyzje oświatowe.
Wprowadzenie EWD do zestawu ilościowych wskaźników jakości pracy szkoły tworzy szansę bardziej celnego ukierunkowania presji, jakiej poddawana jest szkoła pod wpływem wyników egzaminów zewnętrznych. Oczywiście jest to tylko szansa, nie mamy żadnych gwarancji sukcesu. EWD realnie zacznie wpływać na oświatę, gdy będzie kompetentnie wykorzystywane przez nauczycieli i dyrektorów, nadzór pedagogiczny, organy prowadzące, media oraz rodziców. To pokazuje skalę niezbędnego wysiłku szkoleniowego i popularyzatorskiego.
Łagodzenie negatywnych skutków konkurencji między szkołami
Badania nad funkcjonowaniem systemów oświatowych, w których szkoły rywalizują o uczniów i są finansowane zależnie od ich liczby (tzw. quasi-rynkowe mechanizmy w oświacie) wskazują, że poza ewentualnymi korzyściami płynącymi z tych rozwiązań, pojawiają się zagrożenia. Najczęściej wskazuje się na silne różnicowanie się systemu szkół. Różnice między szkołami zwiększają się. Najsłabsze - z punktu widzenia wyników uczniów na egzaminach końcowych - szkoły nie są eliminowane, ale z różnych powodów z coraz mniejszą liczbą uczniów trwają na rynku. Najlepsze placówki, wykorzystując mechanizm zwany przez Anglosasów "spijaniem śmietanki", umacniają swoje pozycje. Różnicowanie to owocuje nasileniem segregacji społecznych w oświacie i zagraża ważnemu celowi polityki oświatowej jakim jest równość szans edukacyjnych (por. Ball 1993, Gorard, Fitz 2000, Dolata 2002).
Czy w polskim systemie oświaty zachodzą takie procesy? Choć w żadnych oficjalnych dokumentach nie znajdziemy deklaracji wprowadzania mechanizmów rynkowych do oświaty, to zjawisko takie zachodzi. Niż demograficzny oraz liberalizacja zasady rejonizacji, szczególnie w dużych miastach, doprowadziły do uruchomienia konkurencji. Prowadzi to do silnego różnicowania się szkół. W dużych miastach gimnazja coraz bardziej się polaryzują, różnice w wynikach egzaminów między szkołami rosną.
Opisywany proces różnicowania szkół wymaga reakcji. Jeżeli zrezygnujemy z restrykcyjnych narzędzi polityki nakazowej - a wydaje się, że ten sposób uprawiania polityki oświatowej ma dostatecznie dużo skutków ubocznych, by go porzucić - parametryczne zarządzanie z użyciem wskaźników edukacyjnej wartości dodanej wydaje się potencjalnie skutecznym instrumentem osłabiania procesów różnicowania oświaty i realizacji postulatu działań na rzecz spójności społecznej. Ocena szkoły na podstawie edukacyjnej wartości dodanej powinna zmniejszyć nacisk na selekcję na wejściu do szkoły, zaś ocena nauczycieli według tej miary powinna podnieść atrakcyjność pracy w szkołach pracujących w mniej korzystnych warunkach społecznych. Oczywiście EWD z pewnością nie zahamuje w krótkiej perspektywie czasowej segregacji społecznych i ekonomicznych w skali makrospołecznej, ale w dłuższej perspektywie może przyczynić się do rewitalizacji szkół pracujących w społecznych gettach.
Zmniejszenie poczucia ciągłej frustracji dobrych nauczycieli pracujących w trudnych środowiskach oraz "odcięcie" słabych nauczycieli od obronnej interpretacji niepowodzeń typu "ale z kim ja muszę pracować"
Znaczne zróżnicowanie cywilizacyjne Polski, silna segregacja ekonomiczna i idące za tym zróżnicowanie składu społecznego szkół sprawia, że duże grupy nauczycieli pracują w trudnych środowiskach społecznych. Wprowadzenie egzaminów zewnętrznych unaoczniło różnice w wynikach końcowych szkół. Z pewnością istotnym problemem psychologicznym jest włączenie tych wyników w swoisty rachunek sukcesów i porażek decydujący o tym, czy nauczyciel spostrzega swoją pracę jako satysfakcjonującą. Jeżeli dobry nauczyciel pracujący w trudnym środowisku przez kolejne lata dostawał informację zwrotną, że jego uczniowie marnie wypadali na egzaminach, to z pewnością poczucie satysfakcji - jeden z ważnych czynników zawodowej efektywności - musiało na tym cierpieć. Edukacyjna wartość dodana może zmienić ten stan rzeczy. Być może wielu dobrych nauczycieli po raz pierwszy, od kiedy zaistniały egzaminy zewnętrzne, otrzyma jednoznaczny komunikat - Dobrze pracuję, osiągnięcia moich uczniów są na miarę ich możliwości, wyniki jakie uzyskuję są lepszy, niż innych nauczycieli pracujących w podobnych warunkach.
Z drugiej strony słaby nauczyciel, którego uczniowie uzyskują wyniki poniżej ich możliwości, czyli edukacyjna dodana jest niska, nie będą mogli sięgać po proste wyjaśnienie - No tak, moi uczniowie są słabi. Nikt by z nimi więcej nie uzyskał. Odcięcie od takiego obronnego tłumaczenia niskich wyników uczniów może uruchomić zdrową konkurencję i próbę poprawy wyników. Równocześnie EWD da mocny argument tym, którzy nauczycieli oceniają.
Czy edukacyjna wartość dodana jest niezawodnym panaceum?
Krytyczne argumenty formułowane wobec EWD dobrze można poznać śledząc dyskusję prowadzoną w USA związaną z jednym z najbardziej rozbudowanych systemów wartości dodanej a mianowicie Tennessee Value-Added Assessment System (TVAAS). Za głównego twórcę systemu uważany jest W. Sanders, statystyk związany z naukami rolniczymi. Sanders opracował metodę, która ideowo pokrewna jest innymi sposobami szacowania wartości dodanej. Autor przyjął założenie, że można oddzielić wpływ czynników pozaszkolnych od wpływu jakości nauczania śledząc indywidualne wzory wykonania przez uczniów standaryzowanych testów osiągnięć szkolnych . Na przykład, jeżeli dany uczeń przez kilka kolejnych lat otrzymywała na testach raczej słabe wyniki w okolicy 30 centyla, (skala centylowa informuje nas, jaki procent uczniów uzyskało wynik słabszy od danego; w tym wypadku 30% uczniów wypadło słabiej, czyli 70% lepiej), by nagle skoczyć do 60 centyla, i ta gwałtowna zmiana pokrywa się ze zmianą nauczyciela, to przyrost ten można przypisać efektywności nauczania.
Nie wdając się w szczegóły statystyczne można powiedzieć, że w TVAAS oszacowanie wartości dodanej dokonywane jest na podstawie odchyleń od indywidualnych wzorów wykonania przez uczniów standaryzowanych testów osiągnięć szkolnych: odstępstwa in plus lub in minus od wzoru są przepisywane efektywności nauczyciela (oczywiście taki złożony system szacowania EWD może istnieć tylko wtedy, gdy uczniowie dostatecznie często są oceniani przy pomocy standaryzowanych testów - to założenie spełnione jest w USA).
Na podstawie dokonanych analiz Sanders i współpracownicy doszli do wniosku, że problem nierówności edukacyjnych da się rozwiązać metodami czysto edukacyjnymi. Rozumowanie ich było następujące. Jeżeli różnica w przeciętnych osiągnięciach szkolnych między dwoma grupami społecznymi, na przykład grupami uczniów z niższej i średniej klasy społecznej, wynosi 25 punktów testowych, a różnica między efektywnością nauczycieli o przeciętnej efektywności (50 centyl) i efektywności wysokiej (np. 90 centyl) wynosi również 25 punktów testowych, to strategia kompensacyjna jest bardzo prosta: należy efektywność nauczycieli pracującymi z uczniami z niższej klasy społecznej (zakładamy, że na wyjściu jest to efektywność przeciętna, charakterystyczna dla 50 centyla) podnieść do poziomu efektywności charakterystycznego dla 90 centyla. Ten skok efektywności przełoży się na zniesienie obserwowanej nierówności edukacyjnej. Wyobraźmy sobie, że informacje o efektywności poszczególnych nauczycieli i przeciętnej efektywności danej szkoły są upubliczniane a rodzice zachęcani do ich wykorzystywania przy wyborze szkoły. W takiej sytuacji należałoby się spodziewać odpływu uczniów z klas i szkół o niższej efektywności do nauczycieli i placówek o wyższej efektywności, co przełoży się na wzrost osiągnięć całej populacji. Jeżeli odpływ ten dodatkowo uruchomiłby rywalizację, a więc doprowadziłby do wzrostu zaangażowania i podwyższenia kwalifikacji przez słabszych nauczycieli, to - w połączeniu z bonusem mniej licznych klas (efekt odpływu) - mogłoby to zaowocować wzrostem efektywności i odzyskiwaniem rynku przez szkoły, w których notowano odpływ uczniów.
Przeciw trafności tego typu argumentacji można wysunąć wiele argumentów. R. Rothstein (2004) zwraca uwagę na kilka istotnych problemów. Po pierwsze, TVAAS posługując się pojęciem efektywności ufundowanym na metodzie wartości dodanej nie dostarcza informacji, jakie praktyki edukacyjne za tę efektywność odpowiadają. Efektywność to wysokie wyniki w testach, wysokie wyniki w testach to efektywność. Co zmienić w swoim działaniu, by podnieść swą efektywność? To pytanie pozostaje bez odpowiedzi, a nauczycielom pozostaje działać zgodnie z najprostszą regułą: jeżeli 10 godzin metody A nie przynosi pożądanych wyników, zastosuję . 20 godzin metody A. Cytowany Rothstein twierdzi, że wiara w możliwość dokonania w krótkim czasie znaczącego postępu w umiejętnościach nauczycieli jest kompletnie nierealistyczna. Naukom pedagogicznym bardzo daleko do dokonania przełomowych odkryć w tym zakresie i nie ma żadnych podstaw by wierzyć, że można w zakresie efektywności uzyskiwać spektakularne zmiany w krótkim czasie. Oczywiście można twierdzić, że postęp można dokonać przez eliminację nieefektywnych nauczycieli i szkół, ale ileż szkół możemy zlikwidować, ilu nauczyciel zwolnić? Lepsze szkoły mają skończone zasoby i ich możliwości absorpcji uczniów z gorszych szkół szybko się wyczerpią. A jaki mechanizm zapewni, że nowe szkoły, nowi nauczyciele będą znacząco lepsi, od tych których mechanizm rywalizacji wyrzuci z rynku? Od mieszania herbata robi się słodsza tylko wtedy, gdy przedtem dosypiemy cukru.
Po drugie, i ten argument wydaje się najważniejszy, TVAAS - jak i inne metody szacowania wartości dodanej - opiera się na założeniu, że nie ma interakcji między kapitałem kulturowym ucznia a skutecznością różnych sposobów nauczania. Jeżeli coś jest dobre dla ucznia X, dobre będzie dla wszystkich uczniów, jeżeli coś przynosi owoce w klasie IIIa, to będzie efektywne dla wszystkich klas. Założenie to jest w najwyższym stopniu wątpliwe. Istnieje wiele dowodów na rzecz hipotezy zgodności kulturowej, która mówi, że nauczanie szkolne jest najbardziej efektywne wtedy, gdy metody oddziaływania stosowane przez nauczyciela są zgodne z wzorcami uczenia się znanymi dziecku z doświadczeń kulturowych (Vasta, Haith, Miller 1995). Jeżeli hipoteza zgodności kulturowej jest trafna, to zmiana szkoły przez dziecko z rodziny o innych wzorcach kulturowych niż preferowane w nowej, "bardziej efektywnej" placówki, wcale nie musi przynieść podwyższenia jego osiągnięć.
Z powyższych rozważań wyraźnie widać, że EWD nie jest żadnym doskonałym panaceum na problemy współczesnej oświaty. Racjonalnie zbudowane wskaźniki jakości pracy szkoły stosowane przez nadzór pedagogiczny mogą uruchomić procesy poprawy efektywności nauczania. Jednak bez wiedzy nauczycieli, jak skutecznie nauczać, może okazać się to niemożliwe. Ocena szkół ze względu na EWD może osłabić negatywne skutki rywalizacji między szkołami, ale może się okazać narzędziem zbyt słabym.
Zastosowanie edukacyjnej wartości dodanej do oceny efektywności nauczania w gimnazjum
W latach 2005-2007 przy Centralnej Komisji Egzaminacyjnej pracował zespół metodologiczny, którego zadaniem było przetestowanie metody edukacyjnej wartości dodanej w realiach polskiego systemu oświaty. W wyniku prac zespołu:
- powstał model szacowania EWD dla gimnazjów: model został doprowadzony do fazy pilotażu, przeszkolono duże grupy potencjalnych użytkowników;
- zaproponowano alternatywne modele szacowania EWD dla szkół maturalnych: prace doprowadzono do fazy symulacyjnego testowania i badania trafności metody;
- przeanalizowano możliwości szacowania EWD dla szkół podstawowych.
Na lata 2007-2013 planowane są prace nad rozwojem metody EWD w Polsce.
W tym tekście skupimy się na najbardziej zawansowanych pracach nad EWD dla gimnazjów.
Ogólną logikę szacowania EWD dla gimnazjów pokazuje poniższy schemat postępowania:
- Na podstawie wyniku ucznia na sprawdzianie szacujemy wynik przewidywany na egzaminie gimnazjalnym.
- Obliczamy różnicę - tzw. resztę - między faktycznym wynikiem ucznia na egzaminie a jego wynikiem przewidywanym.
- Obliczamy średnią reszt, czyli EWD dla szkoły.
- Szacujemy przedział ufności dla EWD.
Opiszę te kroki a następnie przedstawię najważniejsze problemy związane z szacowaniem EWD:
Wynik przewidywany
W uproszczeniu wynik przewidywany można rozumieć jako uśredniony wynik na egzaminie gimnazjalnym grupy uczniów o tym samym wyniku na sprawdzianie po szkole podstawowej. W rzeczywistości model jest bardziej złożony, bo wynik przewidywany określamy za pomocą takiej zależności funkcyjnej, jaka najlepiej odpowiada rzeczywistym danym uzyskanym na poziomie kraju, a otrzymaną wartość korygujemy o wpływ takich czynników jak płeć i dysleksja. Wynik przewidywany jest szacowany na podstawie zależności między wynikami sprawdzianu a egzaminu gimnazjalnego dla wszystkich trzecioklasistów w kraju.
Wynik przewidywany na egzaminie gimnazjalnym uczniów na podstawie ich wyników ze sprawdzianu szacujemy metodą regresji. Jest to typowa metoda stosowana w statystyce do oceny zależności między zmiennymi (w tym przypadku wynikami egzaminu gimnazjalnego oraz sprawdzianu), którą można ująć w postaci funkcji.
Sposób wyznaczania wartości przewidywanych prześledźmy na przykładzie danych ze sprawdzianu 2002 i egzaminu gimnazjalnego w części matematyczno-przyrodniczej w roku 2005. Analiza taka jest możliwa, gdy dla każdego ucznia mamy informacje zarówno o wyniku sprawdzianu jak i wyniku egzaminu. Przy aktualnym stanie egzaminacyjnego systemu informatycznego łączenie danych z różnych egzaminów dla uczniów jest trudne. Pokonanie tej przeszkody technicznej jest jednym z warunków rozwoju metody EWD.

Wykres 2. Zależność między wynikami na sprawdzianie 2002 a wynikami tych samych uczniów 3 lata później na egzaminie gimnazjalnym w części matematyczno-przyrodniczej
Na powyższym wykresie widzimy kształt zależności między analizowanymi egzaminami. Małe punkty na wykresie reprezentują uczniów. Położenie punktu na wykresie zależy od wyniku na sprawdzianie (oś pozioma) i od wyniku na egzaminie gimnazjalnym (oś pionowa). Na wykresie zaznaczono linię, która najlepiej odzwierciedla kształt związku między wynikami. To, jaki będzie miała kształt, zależy od tego, z jakiego rodzaju zależnością między wynikami sprawdzianu a egzaminu gimnazjalnego będziemy mieli do czynienia w danym roku. W kolejnych latach kształt zależności może być nieco inny. Linia ta pozwala wyznaczać wyniki przewidywane. Można powiedzieć, że linia na wykresie - zwana linią regresji - pozwala w sensie statystycznym przewidywać wyniki egzaminu gimnazjalnego w zależności od wyniku ucznia na sprawdzianie. Pojedyncze punkty prezentujące wyniki poszczególnych uczniów w większości leżą poza linią regresji, a więc różnią się od przewidywanych wartości. Jest to naturalne i wynika zarówno z różnej efektywności nauczania - co oczywiście nas tu najbardziej interesuje - jak i innych czynników odpowiedzialnych za wynik testowania, w tym czynnika losowego związanego z błędem pomiaru.
Na podstawie linii regresji wyznaczamy wynik przewidywany egzaminu gimnazjalnego dla uczniów o danym wyniku na sprawdzianie. Na przykład, jeżeli interesuje nas wynik przewidywany dla uczniów, którzy na sprawdzanie uzyskali 20 pkt, z wykresu odczytujemy, że wynikowi temu odpowiada 15 pkt na egzaminie gimnazjalnym w części matematyczno-przyrodniczej. W praktyce wynik ten odczytywać będziemy ze specjalnych tabel, jednak wykres w dobry sposób pokazuje skąd bierzemy te wartości.
Podstawowym problemem przy wyznaczaniu linii regresji jest wybór postaci funkcyjnej równania regresji. Wyniki egzaminu tylko w części humanistycznej pozwalają opisać zależność z wynikami sprawdzianu funkcją prostoliniową. W części matematyczno-przyrodniczej i dla sumy z obu części egzaminu trzeba uwzględnić krzywoliniową zależność między wynikami egzaminu a sprawdzianem. Przyjęte kryterium wyboru zależności funkcyjnej odpowiada zasadzie, że EWD powinna być w pełni neutralna względem potencjału uczniów z jakimi pracują szkoły. Z tego względu niezależnie od poziomu wyników sprawdzianu średnia reszt (różnic między wynikami uzyskanymi a oczekiwanymi) powinna być bliska zeru, dzięki czemu szkoły nie będą "nagradzane" lub "karane" ze względu na potencjał uczniów. Inaczej mówiąc, EWD jest w skali całego kraju takie same dla uczniów o niskich wynikach ze sprawdzianu, jak i dla uczniów o wynikach bardzo wysokich. Dla EWD w części humanistycznej egzaminu ilustruje to poniższy wykres.

Wykres 3. Wynik na sprawdzanie a EWD w części humanistycznej egzaminu gimnazjalnego. Dane dla całego kraju, sprawdzian 2002- GH 2006
Wykres pokazuje, że obserwujemy zaniedbywanie małe odstępstwa od warunku neutralności EWD.
W szacowaniu wyniku przewidywanego dodatkowo brane są pod uwagę tzw. zmienne kontrolne. W przyjętym dla gimnazjum modelu wykorzystywane są informacje o dysleksji i płci. Zmienne te są dostępne w bazie danych egzaminacyjnych, a równocześnie są powiązane z wynikami egzaminów. Potrzebę użycia zmiennych kontrolnych rozważmy na następującym przykładzie. W części humanistycznej w skali kraju lepiej wypadają dziewczęta. Gdybyśmy nie wzięli tego pod uwagę w modelu szacowania EWD, to szkoła z silną przewagą liczby chłopców byłaby tak samo traktowana w obliczeniach, jak szkoła z przewagą dziewcząt. Wprowadzenie do modelu zmiennej płci pozwala nam porównywać szkoły, biorąc pod uwagę tę cechę. W ten sposób np. szkoły żeńskie będą porównywane z innymi szkołami żeńskimi. Mówiąc w skrócie, zmienne kontrolne pozwalają bardziej adekwatnie wyznaczać EWD.
Reszty
Kolejnym ważnym pojęciem a równocześnie etapem w obliczaniu EWD jest wspomniana już reszta z równania regresji. Reszta w języku statystyki oznacza różnicę między wartością faktyczną a wartością przewidywaną na podstawie równania regresji. W metodzie EWD reszta to różnica między realnym wynikiem ucznia na egzaminie gimnazjalnym a wartością oczekiwaną obliczoną na podstawie wyniku na sprawdzianie i wartości zmiennych kontrolnych - płci i dysleksji.
Czym jest reszta, łatwo zrozumiemy, gdy wrócimy do wykresu 4, który ilustrował obliczanie wyniku przewidywanego. Przypomnijmy, punkty reprezentują uczniów. Jeżeli jakiś punkt znajduje się ponad linią wyniku przewidywanego, reszta jest dodania. Oznacza to, że wynik ucznia na egzaminie gimnazjalnym jest wyższy niż oszacowany, przeciętny wynik uzyskany w kraju przez uczniów o tym samym wyniku na sprawdzianie oraz wartości zmiennych kontrolnych. Jeżeli reszta dla ucznia A wynosi 10 pkt. oznacza to, że na egzaminie gimnazjalnym uzyskał o tyle punktów więcej, niż średnio uczniowie o tych samych cechach: wynik na sprawdzianie, dysleksja, płeć. Jeżeli jakiś punkt znajduje się poniżej linii wyniku przewidywanego, reszta jest ujemna. Oznacza to, że wynik ucznia na egzaminie gimnazjalnym jest niższy niż przeciętny wynik uzyskany przez uczniów o tych samych cechach. Jeżeli reszta dla ucznia B wynosi -10 pkt. oznacza to, że na egzaminie gimnazjalnym uzyskał o tyle punktów mniej, niż średnio rówieśnicy w kraju o tym samym wyniku na sprawdzianie, dysleksji, płci.
Jak interpretować wartość reszty? Na wartość reszty wpływają rożne czynniki. Mogą to być:
- czynniki motywacyjne - wzrost motywacji w porównaniu z końcem szkoły podstawowej może dać relatywnie wyższy wynik,
- czynniki środowiskowe - poprawa sytuacji materialnej rodziny pozwala na większe inwestycje w edukację dziecka,
- czynniki biologiczne - zmienne tempo dojrzewania i rozwoju umysłowego,
- czynniki sytuacyjne czy losowe - lepsze samopoczucie w trakcie pisania testu, więcej szczęścia w wskazywaniu poprawnych odpowiedzi w zadaniach zamkniętych.
Dla nas jednak najważniejszy jest czynnik związany z efektywnością nauczania - za część wartości wskaźnika resztowego odpowiada szkoła i jej efektywność nauczania.
Ponieważ reszta jest wartością nieprecyzyjną, nie należy jej wykorzystywać jako indywidualnej miary edukacyjnych postępów ucznia w gimnazjum. Reszty należy używać jedynie do analizowania EWD szkoły lub innej badanej grupy.
Wskaźnik edukacyjnej wartości dodanej
EWD obliczamy uśredniając reszty dla danej szkoły (lub innej analizowanej grupy uczniów np. klasy, grupy uczniów dojeżdżających i niedojeżdżających itp.). Średnią tę interpretujemy jako miarę efektywności nauczania w danej szkole lub grupie uczniów.
Warto jeszcze raz podkreślić, że EWD szkoły szacujemy na podstawie reszt wszystkich uczniów danej szkoły. Przykładowo, niektórzy z nich mogą mieć reszty ujemne, jednak jeśli większość ma reszty dodatnie, to EWD szkoły będzie także dodatnia. Obrazowo, jeśli większość uczniów będzie leżeć nad linią regresji, to szkoła ma dodatnią EWD (większość uczniów uzyskuje wyniki wyższe niż oczekiwane dla przeciętnego ucznia w Polsce o podobnym wyniku ze sprawdzianu). Im dalej nad krzywą leży większość uczniów szkoły, tym wyższa jej EWD. Jeśli większość leży pod krzywą, to EWD będzie ujemna (większość uczniów uzyskała wyniki poniżej oczekiwanego).
Trzeba pamiętać, że średnia reszt wynosi dla wszystkich uczniów w kraju zero. EWD jest więc miarą względną - część szkół będzie miała dodatnią EWD i podobna liczba - ujemną EWD. Miara ta pozwala na porównanie szkół między sobą w skali kraju.
EWD dla szkoły wyrażona jest w jednostkach, w których odbywa się pomiar na egzaminie gimnazjalnym, czyli w punktach egzaminacyjnych. Jeżeli w szkole EWD wynosi +3,5 pkt oznacza to, że uczniowie w tej placówce uzyskali średnio o tyle punktów więcej na egzaminie gimnazjalnym w porównaniu ze szkołami o analogicznym składzie ze względu na wyniki na sprawdzianie, płeć i dysleksję w całym kraju. Natomiast jeżeli w szkole EWD wynosi na przykład -2,3 pkt oznacza to, że średnio uczniowie uzyskali o tyle punktów mniej na egzaminie gimnazjalnym w porównaniu ze placówkami o analogicznym składzie uczniowskim.
EWD można wyrażać w skali staninowej i centylowej. Przypomnijmy, skala staninowa to:
- Skala 9-stopniowa.
- Kolejne stopnie skali to
- pierwszy stanin to przedział obejmujący 4% najniższych wyników,
- drugi stanin to przedział obejmujący 7% kolejnych wyników,
- trzeci stanin to przedział obejmujący 12% kolejnych wyników,
- czwarty stanin to przedział obejmujący 17% kolejnych wyników,
- piąty stanin to przedział obejmujący 20% kolejnych wyników,
- szósty stanin to przedział obejmujący 17% kolejnych wyników,
- siódmy stanin to przedział obejmujący 12% kolejnych wyników,
- ósmy stanin to przedział obejmujący 7% kolejnych wyników,
- dziewiąty stanin to przedział obejmujący 4% najwyższych wyników.
Na przykład, wynik w staninie 8.(tzw. bardzo wysokim) oznacza, że 4% szkół uzyskało wynik wyższy, 7% - porównywalny, a 89% - wynik niższy.
Inna miarą pozycyjną - wspomnianą już wczesnej - jest skala centylowa.
- Skala 99-stopniowa.
- Pozycja centylowa mówi o tym, jaki procent szkół ma wynik niższy, niż uzyskany przez tę szkołę.
- Na przykład, 45 centyl oznacza, że 45% szkół uzyskało wynik niższy.
Na przykładzie wybranej szkoły zobaczmy, jak może wyglądać relacja między wynikami egzaminacyjnymi a edukacyjną wartością dodaną.
GMP=26,45, stanin - wysoki GH=34,97, stanin - wyżej średni
EWD =-2,95, stanin - niski, 12 centyl EWD =-2,59, stanin - niski, 14 centyl
Wykres 4. Wynik egzaminu a edukacyjna wartość dodana dla przykładowego gimnazjum
Powyższe wykresy przedstawiają wyniki w przykładowym gimnazjum. Na osi poziomej mamy wyniki na sprawdzianie, na osi pionowej wyniki na egzaminie gimnazjalnym. Na wykresie orientacyjne wrysowano linie wyniku przewidywanego. Punkty na wykresie reprezentują uczniów tej szkoły. Analiza wykresów pozwala zrozumieć, dlaczego wyniki surowe (podane w punktach) egzaminu gimnazjalnego lokują tę szkołę wysoko w skali staninowej, a w EWD - nisko. Choć wyniki egzaminacyjne uczniów są dość wysokie, to jednak większość punktów znajduje się poniżej linii wyniku przewidywanego. Dzieje się tak, ponieważ uczniowie legitymowali się w większości przypadków wysokimi wynikami na sprawdzianie po szkole podstawowej. Innymi słowy wysoki potencjał uczniów nie został przez szkołę wykorzystany.
Należy podkreślić, że w całej populacji gimnazjów dominować będą przypadki niewielkich lub umiarkowanych różnic między wynikiem surowym egzaminu a EWD. Jednak dla pewnej grupy gimnazjów notujemy duże lub bardzo duże rozbieżności między wynikiem surowym a EWD.
Precyzja szacowania edukacyjnej wartości dodanej
Wskaźnik EWD jak każdy wynik pomiaru nie jest doskonale precyzyjny. Jak oszacować błąd pomiaru? Służy temu statystyczne narzędzie zwane przedziałem ufności.
Przedział ufności - jest to przedział, który z określonym prawdopodobieństwem zawiera prawdziwą wartość interesującego nas parametru. Przedział ufności mówi nam, że dany parametr (w naszym przypadku EWD) z określonym prawdopodobieństwem mieści się między wyznaczonymi wartościami. W wypadku EWD szacowanie przedziału ufności jest konieczne, ponieważ określanie tej wartości obarczone jest dwojakim błędem. Po pierwsze, błędem pomiaru na sprawdzianie i egzaminie gimnazjalnym. Po drugie, błędem próbkowania - absolwenci danego rocznika są tylko próbą uczniów szkoły, na podstawie której wypowiadamy się o efektywności nauczania w danym gimnazjum, która jest cechą charakteryzującą szkołę w dłuższej perspektywie czasowej. Zauważmy przy okazji, że ocena jakości pracy szkoły - w różnych jej aspektach, bo przecież EWD to tylko jeden ze wskaźników tej jakości - wymaga wieloletniej perspektywy. Kto formułuje oceny na podstawie pojedynczego pomiaru, analizy jednego rocznika, postępuje nieodpowiedzialnie.
Wielkość przedziału ufności dla EWD danej szkoły zależy od trzech czynników. Po pierwsze, im bardziej zróżnicowane wartości reszt, czyli indywidualnych wskaźników postępu, tym szerszy przedział ufności. To intuicyjne zrozumiałe. Reszty to informacje, na podstawie których wnioskujemy o efektywności nauczania. Jeżeli ich wartości są bardzo zróżnicowane, trudno o pewny wniosek co do "wkładu" szkoły w wynik egzaminacyjny ucznia. Po drugie, im mniej uczniów przystępuje do egzaminu, tym szerszy przedział ufności. Ta zasada jest też łatwa do zrozumienia - im mniej uczniów, tym mniej informacji o efektywności, a tym samym mniej pewny wniosek. Po trzecie, im bardziej nam zależy na pewności, że faktyczna wartość EWD znajdzie się w wyznaczonym przedziale ufności, tym szerszy musimy wyznaczyć przedział. Poziom tej pewności w statystyce nazywamy poziomem ufności. Zwykle przyjmujemy 95% poziom ufności, czyli zgadzamy się na 5% ryzyko popełnienia błędu polegającego na tym, że prawdziwa wartość EWD znajdzie się poza wyznaczonymi wartościami granicznymi. Przydziały ufności określa się zgodnie z obowiązującymi w statystyce procedurami.
Wyznaczone dla EWD przedziały ufności możemy traktować jako regułę decyzyjną. Jeżeli chcemy w sposób odpowiedzialny formułować na podstawie EWD oceny typu szkoła A lepiej uczy w zakresie sprawdzanym przez egzamin gimnazjalnym od szkoły B, to warto wiedzieć, jakie jest ryzyko popełnienia błędu. Przydziały ufności pozwalają nam to ryzyku oszacować. Jeżeli wyznaczymy 95% przedziały ufności EWD dla porównywanych szkół i przedziały te są rozłączne, to ryzyko sformułowania nietrafnej oceny jest niewielkie - poniżej 5%. Gdy przedziały częściowo pokrywają się, formułowanie oceny staje się bardziej ryzykowane. Jeżeli ocena jest doniosła i brzemienna w skutki - należy się od niej powstrzymać. Jeśli przedział ufności EWD dla szkoły A wynosi (1,05; 3,47) a dla szkoły B (-1,17; 0,53), to możemy odpowiedzialnie stwierdzić, że szkoła A ma wyższą EWD niż szkoła B. Natomiast jeżeli dla szkoły C przedział wynosi (-1,93; 1,82), to nie możemy bez dużego ryzyka popełnienia błędu sformułować oceny, że EWD szkoły A jest wyższe niż szkoły C - oba przedziały zawierają wspólny zakres wartości (od 1,05 do 1,82).
W przypadku szacowania EWD dla szkoły przyjmujemy 95% poziom ufności (podobnie jak w większości badań naukowych), a dla klas lub innych grup uczniów porównywanych w obrębie jednej szkoły można przyjąć niższy poziom ufności np. 90%. Niższy poziom ufności w tym wypadku wynika z mniejszych kosztów sformułowania nietrafnej oceny. A należy pamiętać, że w pewnych sytuacjach większe ryzyko wiąże się z niedocenianiem różnicy niż jej przecenieniem. Gdy oceniamy szkoły i za oceną idą decyzje ważne dla szkoły, przede wszystkim należy wystrzegać się ocen pochopnych. Ale gdy analiza wykaże na przykład, że być może w danej szkole relatywnie gorzej nauczani są uczniowie zdolni, być może warto dmuchać na zimne i podejmować działania, nawet gdy diagnozy nie możemy być pewni.
Włączanie do analiz danych z kolejnych edycji egzaminów zewnętrznych poprawi precyzję szacowania EWD dla szkoły i pozwoli na formułowanie odpowiedzialnych ocen nawet przy mniejszych różnicach między szkołami.
Bardzo ilustratywne jest prezentowanie przedziałów ufności w sposób graficzny. Poniższy wykres przedstawia oszacowania EWD wraz z przedziałami ufności dla dwóch przykładowych gimnazjów.

Wykres 5. EWD wraz z przedziałami ufności dla dwóch gimnazjów
Wykres ten w graficzny sposób przedstawia przedziały ufności EWD dla dwóch gimnazjów i dwóch części egzaminu. Punkty symbolizują oszacowania EWD, linie pionowe szerokość przedziałów.
Poprawna interpretacja jest następująca: w części humanistycznej obydwa gimnazja charakteryzuje podobna efektywność nauczania (to samo EWD więc i przedziały ufności się pokrywają). W części matematyczno-przyrodniczej Gimnazjum 1 ma wyższą EWD niż Gimnazjum 2. Co więcej przedziały ufności tych dwóch szkół nie "zazębiają się" - nie mają wspólnej części, a to świadczy, że w pełni uprawiony statystycznie sposób można wnioskować, że efektywność nauczania w obszarze sprawdzanym przez egzamin matematyczno-przyrodniczy w tych dwóch szkołach jest różna. Jeśli EWD byłyby różne, ale przedziały ufności częściowo by się pokrywały, to takie wnioskowanie byłoby obarczone dużym ryzykiem popełnienia błędu.
Warto także zwrócić uwagę na znacznie szersze przedziały ufności Gimnazjum 2. Może to wynikać z mniejszej liczby uczniów w tej szkole. Jednak jeśli liczba uczniów jest podobna, to wynika z większego zróżnicowania efektów pracy w Gimnazjum 2, co jest dodatkową, interesującą informacją o tej szkole.
Problem stabilności oszacowań edukacyjnej wartości dodanej w czasie
Tak jak zaznaczyliśmy w poprzednim podrozdziale, ocena jakości pracy szkoły to przedsięwzięcie długofalowe, wymagające kolekcjonowana w systematyczny sposób informacji przez wiele lat. Dotyczy to również EWD i orzekania o efektywności nauczania w zakresie sprawdzanym przez egzaminy zewnętrzne. Wynik uzyskany przez szkołę w danym roku to tylko próbka efektywności. Z pewnością z roku na rok będziemy obserwować wahania w wartości EWD dla danej szkoły. Ważne jest jednak, jak duże będą te wahania. Jeżeli szacunki EWD dla kolejnych lat nie byłyby z sobą skorelowane, wskazywałoby to na bezużyteczność metody.
Jak przedstawiają się fakty? Na razie wiemy niewiele. Zespół EWD pracujący przy CKE przeanalizował dane dla dwóch edycji egzaminu: panel sprawdzian 2002 - egzamin gimnazjalny 2005 oraz panel sprawdzian 2003 - egzamin gimnazjalny 2006. Gdyby stałość w czasie EWD dla szkoły określać na podstawie tych wyników, to stabilność jest umiarkowana. Korelacje między oszacowaniami EWD dla gimnazjów w 2005 i 2006 roku wynosi około 0,5. Wskazuje to na konieczność - o której już wspominaliśmy powyżej - opierania szacunków EWD na wynikach wieloletnich. Prawdopodobnie okres trzyletni zapewni stabilizację szacunków EWD. Oznacza to, że pierwsze odpowiedzialne, czyli nadające się do upublicznienia, szacunki EWD dla szkół będą mogły być dokonywane po egzaminie gimnazjalnym AD 2007.
Dlaczego korelacja między szacunkami EWD dla kolejnych lat nie jest zbyt duża? Jest prawdopodobnie kilka tego przyczyn. Po pierwsze, niedoskonałość danych, na których opieramy wyliczenia. Zarówno wyniki sprawdzianu jak i egzaminu gimnazjalnego - jak każdego zresztą pomiaru - obarczone są błędem. Warto podjąć badania nad rzetelnością testów i podjąć działania zmierzające do ograniczenia takich źródeł błędu pomiaru jak, na przykład, efekt egzaminatora czy efekt ściągania. Z pewnością do poprawy rzetelności przyczyniłoby się rozbudowanie sprawdzianu. Na wartość metody EWD z pewnością rzutują również problemy związane z trafnością testów. Po drugie, na zmienność oszacowań EWD w kolejnych latach z pewnością ma wpływ czynnik nauczycielski. Wiadomo, że efektywność nauczania to przede wszystkim dobrzy nauczyciele. W większych gimnazjach co roku skład kadry nauczycielskiej "wypuszczającej" absolwentów jest inny. To z pewnością sprawia, że EWD z roku na rok może się zmieniać. Po trzecie, czynnikiem niestabilności może być zmiana w efektywności nauczania w danej szkole. Gdyby korelacje między kolejnymi oszacowaniami EWD były doskonałe, czyli przybierały wartość 1, byłoby to wynik przygnębiający. Oznaczałoby to, że efektywność jest niezmienna i nie ma "przestrzeni zmiany" -szkoły nie miałyby szansy na poprawę.
Problem trafności metody edukacyjnej wartości dodanej
Jeżeli metoda szacowania EWD jest dobrze skonstruowana, rachunki dobrze przeprowadzone, a dane wejściowe są w pełni wartościowe, to można powiedzieć, że metoda EWD jest niejako definicyjne trafną miarą efektywności nauczania. Ale przy pewnym ważnym zastrzeżeniu - efektywności nauczania w zakresie sprawdzanym przez egzaminy zewnętrzne. Świadomość tego ograniczenia podpowiada korektę nazwy metody. Może nie mówić o edukacyjnej wartości dodanej a o egzaminacyjnej wartości dodanej? Przy obecnym stanie wiedzy o polskiej aplikacji EWD to zasadna ostrożność. Trzeba na każdym kroku podkreślać, że EWD to miara o ograniczonej wartości i jest tylko sposobem lepszego - co nie znaczy doskonałego - wykorzystania wyników egzaminacyjnych. Jednak z drugiej strony metoda EWD ma szersze ambicje. Chciałaby dostarczać podstaw do uogólniania oceny na cały obszar nauczania. Warunkiem jest znalezienie silnych dowodów empirycznych, że EWD jest silnie skorelowana z niekwestionowanymi, bezpośrednimi miarami efektywności nauczania. Innymi słowy trzeba dysponować dowodami ekologicznej trafności metody.
Co na ten temat wiemy? Do tej pory przeprowadzono dwie analizy. W obu szukano odpowiedzi na 3 kluczowe dla problemu trafności pytania.
- Czy EWD jest wolna od wpływu czynników składających się na zasoby dane szkoły, głównie czynników środowiska rodzinnego?
- Czy EWD jest skorelowana z bezpośrednimi miarami efektywności edukacji?
- Czy EWD nie jest powiązana z takimi patologiami szkolnymi jak nauczanie pod testy i korepetycje?
Jeżeli otrzymalibyśmy trzy przekonujące odpowiedzi twierdzące, moglibyśmy sformułować tezę, że opracowana metoda nie jest tylko "zabawą statystyczną" z wynikami egzaminów, ale wartościowym wskaźnikiem jakości pracy szkoły.
Artur Pokropek (2006) wykorzystując wyniki badań przeprowadzonych przez OKE Kraków na reprezentatywnej próbce gimnazjalistów z obszaru działania Komisji wykazał, że:
1. Jedyne, czego jesteśmy pewni to to, że EWD jest zdecydowanie słabiej powiązana z charakterystykami społecznymi, kulturowymi i ekonomicznymi rodziny ucznia niż nieprzetworzone (podane w punktach) wyniki egzaminów gimnazjalnych.
2. Niestety nie udało się przekonująco pokazać, że EWD jest silnie związana z tym, co powszechnie uważamy za wyznaczniki dobrego nauczania. Wymowę tego faktu łagodzi jednak to, iż praca szkoły opisywana przez wyznaczone wskaźniki nie miała odbicia również w wynikach surowych testów.
3. Stwierdzano brak związków z nauczaniem pod testy.
Drugie badanie zostało specjalnie zaprojektowane na potrzeby badania trafności EWD i objęło celową próbę 40 gimnazjów. Wyodrębniono 4 grupy porównawcze:
A. gimnazja o wysokich wynikach surowych i wysokiej wartości EWD
B. gimnazja o wysokich wynikach surowych i niskiej wartości EWD
C. gimnazja o niskich wynikach surowych i wysokiej wartości EWD
D. gimnazja o niskich wynikach surowych i niskiej wartości EWD
Taki dobór próby pozwala to na dokonanie dwóch kluczowych dla oceny trafności EWD porównań:
1. Porównanie grupy A i B pozwoliło ocenić, czy EWD jest dobrą metodą różnicowania szkół "spijających śmietankę" i dochodzących do wysokich wyników dobrą pracą.
2. Porównanie grup C i D pozwoliło ocenić, czy EWD jest dobrą metodą wyławiania tych szkół, które ciężko pracując w niekorzystnych warunkach społecznych, uzyskują relatywnie wysokie wyniki.
Podstawowe wyniki to:
1. Charakterystyki społeczne, kulturowe i ekonomiczne rodziny ucznia słabo różnicują porównywane grupy.
2. W grupie szkół o wysokich wynikach egzaminacyjnych EWD wiąże się:
- pozytywnie z rodzicielskimi ocenami wychowania i współpracy szkoły z rodzicami,
- negatywnie z fluktuacją kadry,
- negatywnie z czasem dojazdu do szkoły,
- pozytywnie z oceną jakości szkolnych dokumentów (statut, wewnątrzszkolny system oceniania itp.),
- negatywnie z uczniowską oceną nauczania,
- pozytywnie z nauczaniem pod testy,
- brak związku z oceną wizytatora.
Powyższy układ wyników nie pozwala jednoznacznie ocenić trafności EWD w zakresie różnicowania szkół w grupie gimnazjów o wysokich wynikach egzaminacyjnych. Oprócz wyników oczekiwanych mamy efekty niepokojące, przede wszystkim związki z nauczaniem pod testy i - negatywne -z uczniowską oceną nauczania do autonomii.
3. W grupie szkół o niskich wynikach egzaminacyjnych EWD wiąże się:
- pozytywnie ze stosowaniem metod aktywizujących (wg opisu uczniów),
- negatywnie z czasem dojazdu do szkoły,
- brak związku z oceną wizytatora,
- brak związku z oceną jakości dokumentów szkolnych.
W grupie gimnazjów o niskich wynikach na egzaminie gimnazjalnym obserwujemy niewiele znaczących związków z EWD. Te, które są, wskazują na trafność metody, ale ich niewielka liczba nie pozwala na pozytywną konkluzję.
Badania nad trafnością nie dostarczają na razie mocnych argumentów na rzecz trafności EWD jako miary szerzej rozumianej efektywności nauczania. Przy obecnym stanie wiedzy należy zachować ostrożność w interpretacji EWD. Dopiero dalsze badania być może lepiej udokumentują trafność metody i pozwolą na uogólniającą interpretację.
Zastosowanie edukacyjnej wartości dodanej do analiz wewnątrzszkolnych
Do tej pory skupialiśmy się na problemach ewaluacji zewnętrznej efektywności nauczania i szacowaniu edukacyjnej wartości dla całej szkoły. Jednak metoda EWD może i powinna być stosowana też do analiz wewnątrzszkolnych. Analizy takie mogą być wykonywane przez szkoły na własne potrzeby, lub przez nadzór pedagogiczny, by wspierać szkoły w poprawie jakości pracy. W USA, Wielkiej Brytanii, Francji czy Australii wskaźnik EWD wykorzystywany jest od wielu lat zarówno w ewaluacji zewnętrznej jak i w pracy pedagogicznej w szkole. EWD jest wartościowym wskaźnikiem dla wewnątrzszkolnej oceny i planowania działań podejmowanych przez szkołę w celu podniesienia jakości kształcenia. Takie analizy ze względu na swoje zastosowanie nie wymagają tak dużej precyzji jak szacowanie EWD dla szkoły- przyjmuje się, że w tym przypadku wystarczy rozpatrywać 90% przedziały ufności dla EWD.
W rozdziale tym pokrótce omówimy typy analiz, jakie można wykonywać w gimnazjum za pomocą metody EWD (na stronie CKE znajduje się Kalkulator EWD 2006, który pozwala obliczyć reszty potrzebne do poniższych analiz za rok 2006.
W ramach wewnątrzszkolnych analiz EWD można rozważać bardzo wiele problemów. Poniższa lista nie jest z pewnością wyczerpująca. Wszystko zależy od potrzeb i pomysłowości użytkowników tej metody.
1. Analiza rozkładu reszt
Choć w dotychczasowych rozważaniach EWD definiowaliśmy jako średnią arytmetyczną reszt, to pogłębiona analiza efektywności wymaga przyjrzeniu się pełnemu rozkładowi wyników w szkole. Za daną średnią mogą się kryć bardzo różne rozkłady reszt, czyli tak naprawdę różne edukacyjne wartości dodane. W analizie rozkładu bardzo ważne jest też pojęcie wartości odstających, czyli znacząco odbiegających od pozostałych wartości w próbie. W wypadku EWD wartości odstające to reszty drastycznie różniące się od pozostałych reszt w szkole. Na przykład, w 56 osobowym gimnazjum wartości reszt 54 uczniów mieszczą się w przedziale (-10 ; +10). Wyniki dwu pozostałych to +19,5 oraz -21,1. Te wartości uznamy za odstające, bo znacznie różnią się od pozostałych. Można przypuszczać, że wartości odstające są wynikiem działania czynników losowych, więc wskazane jest minimalizowanie ich wpływu na szacowanie EWD szkoły.
2. Analiza EWD dla klas lub nauczycieli
Dla szkoły niezwykle ważne jest szacowanie EWD dla poszczególnych klas lub nauczycieli. Pozwala to lepiej poznać czynniki odpowiedzialne za wynik szkoły, a tym samym trafniej zaplanować program naprawczy. Analiza wyników dla klas pozwoli też ocenić efekty przyjętego w szkole sposobu dzielenia uczniów na klasy.
3. Analiza efektu płci
Komu lepiej wiedze się w szkole, dziewczętom, czy chłopcom? Oczywiście w skali kraju EWD dla dziewcząt i chłopców jest takie samo, ale w danej szkole mogą wystąpić znaczące różnice. Choć w polskiej debacie edukacyjnej problemy równości szans edukacyjnych chłopców i dziewcząt są słabo jeszcze obecne, z pewnością w najbliższych latach problem będzie traktowany coraz poważniej, a tym samym śledzenie różnic w tym zakresie w efektywności nauczania nabierze społecznego znaczenia.
4. EWD w grupach uczniów o różnym potencjale edukacyjnym
Niezwykle interesującą dla szkoły analizą może być przyjrzenie się edukacyjnej wartości dodanej w grupach uczniów lepszych i słabszych. Z kim lepiej szkoła pracuje, dla kogo ma bardziej efektywną ofertę? To informacja, która pozwoli szkole wiele dowiedzieć się o sobie. To również bardzo ważny problem z perspektywy polityki równych szans edukacyjnych.
5. EWD w grupach uczniów dojeżdżających do szkoły
Wprowadzenie gimnazjów ożywiło nie nowy spór o to, co lepsze dla uczniów: czy szkoła mała, gorzej wyposażona, oddalony od lokalnych centrów kulturowych, ale blisko domu dziecka, czy szkoła duża, lepiej wyposażona, funkcjonująca w korzystniejszym środowisku kulturowym, ale wymagająca czasochłonnego dowożenia? Szkoła lub organ prowadzący może na bieżąco śledzić skutki rożnych rozwiązań organizacyjnych szacując EWD dla odpowiednich grup uczniów.
6. EWD w grupach uczniów objętych zajęciami wyrównawczymi
Analiza EWD może przenosić cenne informacje na temat skuteczności zajęć wyrównawczych. Czy intensyfikacja tych zajęć, nowe rozwiązania organizacyjne czy metodyczne przynoszę pożądane efekty? Na takie pytania może odpowiedzieć systematyczne monitorowanie EWD w różnych grupach uczniów.
7. EWD w grupach uczniów pochodzących z różnych szkół podstawowych.
To ostatni przykład problemu, który można oświetlić za pomocą metody EWD. Dla niektórych gimnazjów może to być ważne i interesujące.
Oczywiście każda szkoła musi samodzielnie określić listę kluczowych w swojej placówce problemów. Powyższa lista to tylko przykłady możliwych analiz EWD.
Podsumowanie
Najbardziej fundamentalny spór o metodę edukacyjnej wartości dodanej wiąże się z pytaniem o kształt polskiego systemu oświaty. Czy wzmacniać tendencje decentralistyczne, pluralizm programowy i zakorzenianie się szkoły w lokalnej społeczności, czy uruchamiać mechanizmy rynkowe w oświacie, zrezygnować z rejonizacji, postawić na rywalizację i regulację oświaty przez wybory rodziców - klientów, czy też znów centralizować i wzmacniać tendencje uniformistyczne przez, na przykład, wzmacnianie systemu egzaminów państwowych. Z pewnością EWD wpisuje się raczej w tendencje centralistyczne i choć znalazłaby swoje miejsce również w liberalnej wizji oświaty, z pewnością kłóci się ze strategią pierwszą. Z jednej strony wizja szkoły otwartej na różnorodne, często subtelne "impulsy sterujące" płynące od różnych partnerów społecznych szkoły w jej lokalnym środowisku. Z drugiej strony szkoła poddana jednolitemu, silnemu nadzorowi pedagogicznemu, którego orężem staje się nowy wskaźnik jakości szkoły - edukacyjna wartość dodana. Choć strategia centralistyczna na pierwszy rzut oka wygląda odpychająco, pamiętajmy, że tak kluczowy cel polityki oświatowej jak podtrzymywanie spójności społecznej, a w tym polityka równych szans edukacyjnych, nie da się skutecznie realizować zarówno w obrębie strategii wspólnotowej jak i rynkowej. Zarówno szkoła-element wspólnoty lokalnej, jak i szkoła-dostawca usług nie gwarantuje realizacji tych celów. To dylematy warte dyskusji.
Metoda edukacyjnej wartości dodanej to instrument polityki oświatowej. Można oceniać go w oderwaniu od innych narzędzi, ale bardziej racjonalne jest myślenie w kategoriach porównawczych - czy instrument X jest lepszy od instrumentu Y? W realiach polskiego systemu oświatowego od 2002 roku zaczął funkcjonować system egzaminów zewnętrznych - potężne narzędzie polityki oświatowej. Czy wykorzystujemy jego możliwości? Czy śledzimy realne skutki? To szerszy kontekst namysłu nad wartością metody EWD. Z niego wynika pytanie, czy wskaźniki EWD są lepszą miarą efektywności nauczania w danej szkole niż średnia arytmetyczna wyniku egzaminu? Dotychczasowe wyniki analiz pozwalają odpowiedzieć twierdząco. Dotychczasowe prace nad EWD w Polsce można następująco podsumować.
1. Metoda edukacyjnej wartości dodanej może być z powodzeniem stosowana do oceny efektywności nauczania w gimnazjach i szkołach maturalnych w zakresie sprawdzanym na egzaminach zewnętrznych. Tworzenie modeli szacowania EWD dla gimnazjów weszło już w fazę pilotażową. W wypadku szkół maturalnych potrzeba jeszcze dalszych prac, by doprowadzić metodę do fazy pilotażowej.
2. Wskaźniki EWD wzbogacają repertuar miar jakości pracy szkoły i powinny być traktowane jako komplementarne wobec nich.
3. Dysponujemy bardzo bogatym repertuarem metod statystycznych szacowania EWD - od najprostszych modeli regresyjnych - przedstawionych w tym tekście - po wyrafinowane modele hierarchiczne. W praktyce jednak różnice między oszacowaniami EWD za pomocą różnych metod nie są duże. Znacznie ważniejsza jest dostępność i jakość danych - głównie egzaminacyjnych - użytych w modelach szacowania EWD.
4. Wskaźniki EWD obliczane na podstawie danych jednorocznych są umiarkowanie stabilne w czasie. Znacząca zmienność EWD szkoły w kolejnych latach z jednej strony pokazuje konieczność szacowania przedziałowego tego wskaźnika (przedziały ufności), z drugiej strony wyznacza kierunek prac nad modelami szacowania. Dla potrzeb ewaluacji wewnątrzszkolnej powinny być stosowane modele jednoroczne, ale dla ewaluacji zewnętrznej należy stosować modele wieloletnie. Wydaje się, że z wielu względów optymalna perspektywa czasowa obliczania wskaźników EWD, to trzy lata.
5. Badania nad trafnością metody EWD w odniesieniu do gimnazjów wykazały, że miary efektywności nauczania wykorzystujące metodę EWD są zdecydowanie słabiej - w stosunku do nieprzetworzonych wyników egzaminów - powiązane z uwarunkowaniami środowiskowymi pracy szkoły. Kontrola wpływu czynników środowiskowych pozwala traktować EWD jako zdecydowanie lepszą miarę efektywności nauczania. Jednak brak mocnych argumentów na rzecz prawomocności uogólniania znaczenia wskaźnika EWD na całość procesu dydaktycznego. Badania wskazały, że istnieją znaczące korelacje EWD z niezależnymi miarami jakości nauczania, ale pokazały również, że wiele empirycznych wskaźników jakości opartych na opiniach i ocenach uczniów i rodziców nie potwierdza jednoznacznie przewagi miar EWD nad surowymi wynikami egzaminów. Dopóki dalsze badania nie dostarczą mocnych przesłanek dla takich uogólnień, należy wskaźniki EWD interpretować jako miarę efektywności nauczania w zakresie sprawdzanym na egzaminach zewnętrznych. By podkreślić tę zawężającą interpretację warto rozważyć zastąpienie powszechnie na świecie stosowanej nazwy edukacyjna wartość dodana terminem egzaminacyjna wartość dodana.
6. W ewaluacji zewnętrznej metoda EWD powinna być używana przede wszystkim do identyfikacji szkół o szczególnie niskiej efektywności nauczania oraz szkół o najwyższym poziomie tej cechy. Identyfikacja tych pierwszych powinna prowadzić do uruchamiania działań naprawczych ze strony nadzoru pedagogicznego, rozpoznanie najlepszych placówek pozwala nierbitralnie wybierać szkoły, które mogą źródeł inspiracji dla innych.
7. Metoda EWD może być z powodzeniem stosowana do ewaluacji wewnątrzszkolnej. EWD pozwala analizować takie problemy jak: efektywność nauczania w poszczególnych klasach, skutki segregacyjnych metod dzielenia uczniów na oddziały, problemy równości szans edukacyjnych różnych grup uczniów, ocena skuteczności różnych działań zmierzających do podniesienia jakości nauczania.
8. Krytyczna analiza metody EWD pozwoliła zidentyfikować kluczowe problemy metody.
a. Jakość metody edukacyjnej wartości dodanej zależy od dwóch czynników, które są wobec niej zewnętrzne. Są to program kształcenia i wiedza o czynnikach decydujących o opanowywaniu przez uczniów celów kształcenia, co łącznie można nazwać teorią kształcenia. Tylko wtedy, gdy model szacowania EWD jest zbudowana na dobrej teorii kształcenia, wskaźniki mogą być pełni wartościowe. Podstawowe zadanie do wykonania to rozwój programów nauczania i doskonalenie testów egzaminacyjnych. Obecnie wartość metody EWD jest ograniczona przez słabość standardów wymagań egzaminacyjnych i - powiązaną z tym - problematyczną trafność narzędzi pomiarowych.
b. Ponieważ jest wysoce prawdopodobne, że takie zasoby szkoły, jak potencjał edukacyjny uczniów, wyposażenie dydaktyczne czy korzystny skład społeczny szkoły są powiązane z efektywnością nauczania, do modeli szacowania EWD należy bardzo ostrożnie włączać dodatkowe zmienne. Choć mamy przykłady stosowania tzw. modeli kontekstowych szacowania EWD (Anglia), to rozwiązania takie należy wdrażać z dużą ostrożnością.
c. Precyzji wskaźników EWD zagraża niedostateczna rzetelność testów. Z punktu widzenia metody EWD kluczowe są dwa źródła błędu pomiaru: efekt egzaminatora i efekt ściągania.
d. Każda nowa informacja o jakości nauczania ma szansę wpływać na procesy decyzyjne, gdy jest właściwie rozumiana. Oznacza to, że wdrożenie metody EWD to wielkie przedsięwzięcie szkoleniowe. Bardzo dużo już w tym zakresie zrobiono, jeszcze więcej jest do wykonania.
Bibliografia
Ball, S., J. (1993) Education Markets, Choice and Social Class: The Market as a Class Strategy in the UK and USA. British Journal of Sociology of Education, Vol. 14, Issue 1, pp. 3-20.
Dolata R. (2002) Procedury rekrutacji i dzielenia uczniów na oddziały w gimnazjach - próba oceny z perspektywy nierówności społecznych w edukacji. W: Zmiany w systemie oświaty. Wyniki badań empirycznych. Instytut Spraw Publicznych, Warszawa.
Dolata R. (2006) Edukacyjna wartość dodana w komunikowaniu wyników egzaminów zewnętrznych. Egzamin. Biuletyn Badawczy CKE, 8, s. 9-20.
Dolata R. (2006) Efektywność nauczania w gimnazjach miasta X. Analiza edukacyjnej wartości dodanej. Egzamin. Biuletyn Badawczy CKE, 8, s. 28-37.
Dolata R., Murawską B., Putkiewicz E., Żytko M. (1997) Monitorowanie osiągnięć szkolnych jako metoda doskonalenia edukacji. Zarys metody oraz przykłady zastosowań w edukacji początkowej. Warszawa, Wydawnictwo Żak.
Hanushek E., A. (1986) The economics of schooling: production and efficiency in public schools. Journal of Economic Literature, vol. 24, pp. 1141-1177.
Jakubowski M. (2006) Empiryczna analiza metod szacowania edukacyjnej wartości dodanej. Egzamin. Biuletyn Badawczy CKE, 8, s. 83-112.
Jakubowski M. (2006) Metody szacowania edukacyjnej wartości dodanej. Egzamin. Biuletyn Badawczy CKE, 8, s. 67-82.
Pokropek A. (2006) Analiza trafności wskaźnika edukacyjnej wartości dodanej. Egzamin. Biuletyn Badawczy CKE, 8, s. 113-136.
Rothstein R. (2004) Class and schools. Using social, economic, and educational reform to close the Black-White achievement gap. Washington, Teachers College, Columbia University.
Schagen I., Hutchinson D. (2003) Adding value in educational research - the marriage of data and analitical power. British Educational Research Journal, vol. 29, no. 5.
Vasta R., Haith M., M., Miller S., A. (1995) Psychologia dziecka. Warszawa. WSiP.
Gorard S., Fitz J. (2000) Markets and stratification: a view from England and Wales. Educational Policy, vol. 14, no. 3, pp. 405-428.
|