Історія розвитку системи тестування в Росії і за кордоном
план
1. Виникнення тестування.
2. Перші педагогічні тести.
3. Розвиток тестування в Росії.
4. Сучасна теорія тестів (IRT).
виникнення тестування
Будь-яка спроба визначити точний час виникнення тестів нагадує прагнення географів знайти точне початок великої річки, яка витікає безліччю струмочків з обширного болота. Приблизно так само йде справа і з тестами. Для вивчення історії тестів спочатку треба було вивчити передісторію - то саме болото, з якого і випливає їх справжня історія.
У Стародавньому Єгипті мистецтву жерців навчали тільки тих, хто витримував систему певних випробувань. Спочатку кандидат проходив процедуру, яку можна було б зараз назвати співбесідою. При цьому з'ясовували біографічні дані, рівень освіченості, оцінювали зовнішність, вміння вести бесіду. Потім перевіряли вміння - трудитися, слухати, мовчати. Проводили випробування вогнем, водою і загрозою смерті. Тим, хто не впевнений, що витримає всі тяготи тривалого освіти, пропонувалося подумати - з якого боку остаточно закрити за собою двері до храму - з внутрішньої або зовнішньої?
Повідомляється (там же), що цю сувору систему випробувань і відбору успішно подолав в молоді роки Піфагор. Повернувшись після навчання до Греції, він заснував свою школу, допуск в яку відкривав тільки після серії різних випробувань, схожих на ті, які витримав він сам.
Піфагор підкреслював важливу роль інтелектуальних здібностей, стверджуючи, що "не з кожного дерева можна виточити Меркурія". І тому надавав значення діагностиці, в першу чергу, саме цих здібностей, що робилося за допомогою важких математичних задач.
Як вважають, Піфагор звертав також увагу на ходу і на сміх молодих людей, стверджуючи, що манера сміятися служить найкращим показником характеру людини. Він уважно ставився до рекомендацій батьків і вчителів, ретельно вів спостереження за кожним новачком, особливо після того, як останнього запрошували вільно висловлюватися і, не соромлячись, сміливіше заперечувати думку співрозмовників (там же).
У III тисячолітті до н.е. в Китаї існувала посада урядовця. Відповідно, з'явилися і перші елементи профвідбору на цю посаду. Відбору сприяла атмосфера урочистості і уваги до молодих людей, які насмілилися тримати державні іспити на заняття за цією посадою. У китайському суспільстві ці іспити сприймалися майже як свято. Тему іспиту нерідко давав сам імператор, і він же проводив перевірку знань претендентів і на заключному етапі конкурсу.
Однією з найпоширеніших форм діагностики здібностей людини в ті часи була физиогномика - мистецтво розпізнавання характеру і здібностей людини за її зовнішнім виглядом. Гіппократ, вперше вжив цю назву, вважав фізіогноміку наукою. Тоді ж з'явилися перші підручники і практичні посібники з физиогномике, а також і перші фахівці.
Є чимало свідчень застосування різних випробувань в Стародавньому Римі і Спарті. У Спарті була створена і успішно здійснювалася система виховання воїнів, в Римі - система навчання гладіаторів. "Люди- писав Платон, - народжуються не дуже схожими один на одного, їх природа різна, та й здатності до тієї чи іншої справи також ... Тому можна зробити все в більшій кількості, краще і легше, якщо виконувати одну якусь роботу відповідно до своїх природних задатків ".
В Афінах обговорювалося питання про залежність могутності держави від здібностей осіб, їм керуючих. В роботі Платона "Держава" на питання про те, яких правителів потрібно вибирати, Сократ відповідає: "Треба віддавати перевагу найнадійнішим, мужнім, і по можливості, самим благообразним; крім того, треба відшукувати людей не тільки благородних і суворого вдачі, а й володіють також властивостями, придатними для такого виховання. у них ... повинна бути гостра сприйнятливість до наук і швидка кмітливість. Треба шукати людину з хорошою пам'яттю, незламно твердого та в усіх відношеннях працьовитого "(там же).
Нерідко результати випробування інтелектуальних здібностей ставали предметом гордості. Повідомляється, наприклад, що індійський цар Девсарам, бажаючи випробувати мудрість іранців, надіслав їм шахи. Передбачалося, що іранці навряд чи зуміють розгадати суть цієї гри, і тому вони повинні були, за умовою, відіслати до Індії подати. Однак візир Важургміхр зрозумів правила гри і, в свою чергу, винайшов гру, яка називається зараз нарди. Цю гру він послав до Індії, і там з'ясувалося, що розгадати правила цієї гри індійці не змогли.
Різноманітні конкурси та іспити влаштовувалися і в середньовічному В'єтнамі. Всього за два роки, в період з 1370 по 1372 р вдалося провести переатестацію всіх цивільних чиновників і військовослужбовців, що дозволило поліпшити роботу державного апарату. В результаті цього В'єтнам став сильним і життєздатним державою. Особливу увагу було приділено створенню боєздатного офіцерського корпусу. У ХV ст. іспити були там впорядковані. Вони проводилися за етапами і турам. Лауреати отримували подарунки від короля, їх імена вносилися в "золотий список", який експонувався у Східних воріт столиці, про їхні звитяги на конкурсі повідомлялося в рідну общину. Імена, хто найбільше відзначився учасників висікалися на спеціальних кам'яних стелах, встановлених в Храмі Літератури (там же).
Якщо використання письмових контрольних робіт та іспитів в країнах Сходу вже в ті роки вважалося цілком нормальним і природним справою, то цього не можна сказати про країни Заходу. Там виникали труднощі психологічного характеру, викликані спробами заміни звичних усних форм контролю письмовими. Наприклад, в Англії сто років пішло на злам консервативних традицій, які перешкоджали застосуванню письмових контрольних робіт в навчальному процесі, і ще сто років на те, щоб останні почали використовуватися на приймальних та випускних іспитах.
Втім, були винятки. У тій же Англії цінність письмових робіт швидше за інших оцінив Орден Єзуїтів, який побачив в них засіб підвищення мотивації навчальної роботи. Використовуючи свій вплив, Орден розповсюдив практику застосування письмових робіт у багатьох інших країнах. Відповідна реакція на це в першу чергу проявилася в Америці. Повідомляється, що там, в 1762 р, відбулося відкрите виступ студентів Єльського університету проти використання письмової форми іспитів, через які їм доводиться багато зубрити.
У 1884р. в США вийшла перша книга з тестовими матеріалами, що містила завдання і відповіді до них з оцінкою за п'ятибальною шкалою. У цій книзі містилися завдання з математики, історії, граматики, навігації, давалися зразкові тексти творів разом з методом кількісної оцінки творів. Це був перший в історії випадок використання найпростіших статистичних розрахунків в педагогічній роботі.
Швидко поширюється в США, така форма контролю знань мала не тільки багато прихильників, а й противників. Повідомляється, наприклад, про шкільному інспектора з Чикаго, заборонити в 1881р. проводити письмовий контроль і зобов'язані здійснювати переклад учнів в черговий клас не на основі перевірок, а спираючись виключно на думки вчителів і директорів шкіл. Поширилася думка, що ніхто краще вчителі не зможе оцінити здібності учня, і тому іспити і всякі інші форми контролю є знущанням над здоровим глуздом. Цим було покладено початок громадському руху проти будь-якого контролю в школі. Пік такого руху в США припав на кінець XIX століття (1880-ті роки), після чого знову стали з'являтися передумови для формування доброзичливого ставлення до контролю знань.
Потреба у створенні суспільно-державної системи контролю знань була усвідомлена в США в 1885 році. У Нью-Йорку почав діяти екзаменаційний рада - один з небагатьох рад, які змогли розробити методи об'єктивного контролю знань. Початок загальнодержавної системи оцінки знань поклало створення там в 1900 році комітету з перевірки знань абітурієнтів коледжів в США.
У Росії кінця XIX - початку XX століття питання розробки тестів і їх застосування не ставилося і не обговорювалося. "Перевірка знань, - писав один з авторів, - я вважаю за досвідом самим нудним, марним і навіть шкідливим заняттям. Вона терпима, як необхідне зло, тільки там, де від учителя вимагають щомісячних відміток як засобу контролю не тільки над учнями, а й над учителем ". Однак з того часу в російській педагогіці стихійно сформувалися дві суперечать тенденції: одна за контроль знань учнів, інша - проти.
Наведений тут короткий історичний екскурс дозволяє зробити висновок про необхідність розглядати випробування як важливу частину життя багатьох - якщо не всіх - народів світу, з часів найдавніших цивілізацій і до наших днів. Однак чи можна на підставі наведених даних говорити про ранній історичний період виникнення тестів? Якщо погодитися з найбільш поширеними зараз визначеннями тесту, що даються як переклад з англійської слова "test" (випробування, перевірка, проба), то на поставлене запитання треба буде відповісти ствердно. А якщо не погодитися? Тоді треба допустити, що справжні тести з'явилися пізніше, в кінці XIX-початку XX століття.
Перші педагогічні тести
Родоначальником тестового руху можна назвати відомого англійського вченого Френсіса Гальтона. У 1884-85 роках він проводив серію випробувань для відвідувачів своєї лабораторії. Туди приходили діти і дорослі, вік випробовуваних варіював від 5 до 80 років. За невелику плату там визначалися швидкість реакції, вага, життєва ємкість легень, сила кисті (стискання відомого кожному ручного динамометра; цей винахід Ф. Гальтона) сила удару кулаком, станова сила, зростання, гострота зору. Крім того, оцінювалися здібності запам'ятовувати букви і розрізняти кольори, ряд фізіологічних можливостей організму і деякі психічні властивості. За повною програмою було обстежено 9337 осіб.
Гальтон відзначав, що методично впорядковане тестування вимагає певних умов експерименту. Це був суттєвий відхід від тисячолітньої практики випробувань і перевірок, заснованих на інтуїції. Стосовно до тестів значення діяльності Гальтона можна порівняти з тим, що зробив для фізичної науки своїми дотепними експериментами Галілей. Набирав силу радикальний емпіризм розглядалося рядом вчених кінця XIX століття як прийнятна альтернатива ідеалізму, а експеримент - як справжній фундамент науки. Хоча не всі апаратурні випробування Гальтона можна назвати тестами з позиції сьогоднішнього дня, він зробив перший крок на шляху створення об'єктивних методів оцінки здібностей і якостей особистості.
Іншим внеском Гальтона є висунення ідеї статистичної обробки результатів експерименту. Зіставляючи по осях абсцис і ординат середній зріст батьків зі зростанням їх дорослих дітей, тобто, відкладаючи точки на площині, він виявив такий, здавалося б, природний факт - чим вище було зростання батьків, тим вище, в середньому опинявся і зростання дітей. Але потім його наглядова розум зауважив, що у дуже високих батьків діти були, як правило, трохи нижче, в той час як у батьків, зростання яких був нижче середнього, діти виявлялися трохи вище ростом. Оскільки в цьому проглядало явне прагнення потомства до середнього зросту, виявлена таким чином закономірна тенденція була витлумачена їм в якості загального закону природи, закону збереження виду, і названа "регресією до середнього.
Дж.Кеттелл першим, ймовірно, побачив у тестах засіб вимірювання, здавалося б, не вимірюваних властивостей особистості. У роботі, опублікованій в 1890 р, він дав список 50 лабораторних тестів, до яких була стандартна інструкція. У тій же роботі підкреслювався науково-лабораторний характер випробувань. Зокрема, вказувалося, що лабораторію слід добре обладнати, під час тестування в неї не допускаються глядачі; всі випробовувані однаково інструктуються, вони повинні добре засвоїти, що і як потрібно їм робити. Крім того, робилися рекомендації по підрахунку балів.
Більшість завдань Кеттелла і Гальтона можна зараз назвати психомоторними завданнями, тому що їх тестам явно не вистачало стандартизації процедури тестування і правил інтерпретації результатів. Чи треба говорити, наскільки незвичною виявилася ідея вимірювання для педагогіки і психології кінця XIX століття. Практичні потреби вивчення здібностей були сформульовані тоді в вигляді важливою для педагогіки і психології проблеми дослідження індивідуальних відмінностей. Дослідження цієї проблеми і дало імпульс до появи перших тестів
Вимірювання за допомогою тестів здавалося тоді (а багатьом педагогам з гуманітарних дисциплін здається і до цього дня) справою якщо не дивним, то претензійною. Буденна свідомість виходить при цьому з аналогії з фізичними вимірами і розглядає подібні спроби як математизацію, чужу для гуманітарних наук.
До кінця ХIХ століття в Європі склалися дві традиції в контролі знань. В одній (її можна назвати умовно назвати німецької) упор робився на усні форми іспиту, в присутності комісії, що складалася щонайменше, з двох осіб. На іспиті давалися один (рідко два) порівняно об'ємних питання, відповідь на які мав свідчити про рівень знань всього курсу. Інша традиція, яку можна назвати англійської, - це письмова форма контролю, під час якого піддослідним давалося десять-дванадцять коротких завдань з різних тем.
Починаючи з першого десятиліття XX століття повсякденне уявлення про тест і його наукове визначення стали помітно відрізнятися один від одного. Хоча про всяк тест включає в себе завдання як елементи випробувань, він не зводиться тільки до цього, бо зараз це і метод наукового дослідження, що включає в себе ряд вимог вимірювання. На кожному етапі розвитку науки змінювалися вимоги до тестів і самі тести. Ігнорування цього діалектичного моменту нерідко призводило до спрощенцям в оцінках тестів. Спрощенство виявлялося, головним чином, у поглядах на тест як на засіб, що збігається з іншими поширеними формами оцінки знань - такими, як, наприклад, залік, іспит. Але це невірно. Тест є засобом педагогічного вимірювання, що вигідно відрізняє його від всіх інших форм педагогічного контролю.
Перша спроба наукового вимірювання інтелектуальних здібностей дітей була зроблена на початку XX століття. Це сталося у Франції. Автори створеного для цієї мети тесту А. Біне і Т. Симон провели емпіричну перевірку завдань, які претендують на включення в тест. Для оцінки працездатності завдань тесту автори використовували два основних критерії: 1) емпіричну міру труднощі кожного завдання, визначену на групах дітей різного віку і 2) інформацію про ступінь збігу результатів тесту з думкою викладачів. Для досягнення порівнянності даних, отриманих ними з даними інших дослідників і мінімізації помилок вимірювання, А. Біне і Т. Симон доклали до тесту стандартну інструкцію з проведення тестування.
Перша світова війна активізувала розробку тестів для визначення професійної придатності та для прискореної підготовки осіб, що володіють потрібними для військової справи знаннями і навичками, інтелектуальними і фізичними якостями. Інтенсивне технічне переозброєння промисловості провідних капіталістичних держав на початку XX століття актуалізувало проблему "людина - техніка". Все гостріше стала усвідомлюватися думка про те, що не кожен бажаючий зможе управляти складними технічними пристроями: для цього необхідні знання, здібності і відповідні навички, а значить, потрібні тести, професійний відбір та професійна підготовка. За даними англійської статистики, в першу світову війну тільки 2% втрат авіації були пов'язані безпосередньо з бойовими операціями; 8% було втрачено через дефекти матеріальної частини, а найбільше - 90% втрат було викликано професійною непридатністю тих, хто пілотував літаки.
Війна істотно загострила інтерес до питань співвіднесення здібностей людини з вимогами професій. "Всім стало ясно, - писав в ті роки Г. Мюнстерберг, - що ніяка марнотратство цінних благ не має настільки згубного характеру, як марнотратство ... живих сил народу, що розподіляються в повній залежності від випадку. ... Зовсім не звертається увага на відповідність між працею і працівником ". Тим самим було підготовлено грунт для розгортання науково-дослідних робіт за тестовими методам оцінки особистості. У США був створений перший варіант так званого групового тесту, який дозволяв швидко оцінити придатність призовників до військової служби в різних родах військ. Створений тест розглядався як таємна зброя, тому всі випробування, масштаб досліджень і результати не розголошувалися. На підставі цих досліджень проводилося відрахування "негідних осіб", призначення на "чорні роботи" нездатних до строю, комплектування унтер-офіцерських і офіцерських шкіл, вирівнювання частин за рівнем інтелектуальності, набір в спеціальні частини і т.п.
Перші тести для об'єктивного контролю знань, умінь і навичок з'явилися на початку XX століття. Вони швидко завоювали популярність серед викладачів вузів і шкіл в Англії і США, а пізніше в Росії і СРСР. Приблизно з цього часу їх стали в США називати педагогічними. Саме ці тести викликали насторожене ставлення до себе у прихильників традиційної, "чистої", без тестів, педагогічної науки і практики. Така ж настороженість виявлялася і по відношенню до педології, широко спиралася на тести. Поява в цей час нового прикладного напрямку, педології, не було історичною випадковістю. Це було неминуче, як поява інших прикладних наук. Хоча педологія претендувала на статус фундаментальної науки про комплексний розвиток дитини вона, якщо судити по її методи і результати, була все-таки прикладної педагогікою, необхідно доповнювати тодішню вітчизняну педагогіку в її самому слабкому місці - в зв'язку науки з практикою освіти і навчання. Однак замість співпраці педагогіки і педології почалося політичне побиття останньої, що закінчилося не науковою, а політичною ж "перемогою" прихильників "чистої" педагогіки. На хвилі революційних перетворень "перемогли" прихильники вигнання зі школи тестів, будь-якого контролю знань і, разом з цим, педології. Педологія стала першою в списку наук, які пізніше назвуть репресованими.
У ті роки були, однак, і інші виступи - на користь тестів. Так, відомий психолог М.Я. Басов говорив: "Я думаю все ж, що ця довга, часом гостра критика тестової методики ... врешті-решт, призведе не до повалення, ні до скасування цієї методики, а, навпаки, до її зміцнення і до її утвердження в певних межах , в яких вона, очевидно, має повне право на застосування і існування ". Оскільки в той час тести отримали визнання і розвиток лише в рамках прикладних напрямків - педології і психотехніки, розмежування цих напрямків з педагогікою та психологією проходило, в першу чергу, по відношенню до тестів. Крім цього, обидві сторони вели затяжні дискусії з взаємними звинуваченнями. Педагогіка і психологія звинувачувалися в схоластики, вузькому академізмі, в нездатності сприйняти нове і у відриві від практики. Прикладники, в свою чергу, засуджувалися за вузький практицизм, що суперечить духу науки, за відрив від педагогіки, психології; вони звинувачувалися також в голом емпіризму, наслідуванні західним зразкам і в надмірному захопленні тестами.
Розрив між фундаментальним і прикладним напрямами був до недавнього часу характерний для багатьох інших наук, але не скрізь він протікав настільки болісно, як в педагогіці. Для представників "чистої науки" прікладность не мала помітної цінності. У 30-х роках вчені Кембриджу, як згадує Ч. Сноу, найбільше пишалися тим, що їх наукова діяльність ні за яких мислимих обставин не може мати практичного сенсу. Методи і результати педології лежали в сфері прикладної діяльності, в той час як зусилля традиційної педагогіки були спрямовані на створення загальної теорії. Ці ж роки характеризуються широким використанням тестів в інших країнах. У Франції вони стали застосовуватися для дефектологических цілей і для профорієнтації, в США тести використовувалися при прийомі на роботу, до вузів, для оцінки знань школярів і студентів, для проведення соціально - психологічних досліджень. Була зроблена перша спроба об'єктивно порівняти знання студентів різних коледжів штату Пенсільванія. Але і критика не заспокоювалася. Вона починала набувати все більш широкого розмаху і виходити за рамки чисто наукових дискусій.
У США проти використання тестів виступали представники основних груп населення - дорослі і діти, білі і негри, робітники і управлінський персонал, а також представники національних меншин. Дослідження по соціальних наслідків тестування з'ясували, що 37% опитаних заперечували проти використання тестів під час вступу на роботу, 50% - при просуванні по службі, 25% - проти використання тестів у школі. Випадки порушення етики у використанні тестів виявилися настільки злободенними, що ними змушений був зайнятися конгрес, який влаштував спеціальні слухання у цій справі. В результаті було прийнято рішення, яке засуджує неетичну використання тестів. У серпні 1966 року в сенаті США обговорювалася пропозиція про повну заборону тестів, але ця пропозиція не була підтримана більшістю.
У зарубіжній літературі виділяється кілька джерел критики тестів. Перше джерело Брим вбачає в особистісному портреті критиків. У числі останніх частіше за інших виявляються ті, хто не схильний до інтроспекції, авторитарний в міжособистісних відносинах, нетерпимий до думки інших і заперечує проти будь-яких соціальних змін. Як правило, в США ці особи примикають до правих політичних груп, які вимагають заборони тестів. Друге джерело критики бачить в системі соціальних цінностей, яка має своє коріння в ставленні до питань рівності людей. Якщо в суспільстві схвалюється принцип відкритого змагання його членів, то в кожному поколінні на передові позиції висуваються найбільш талановиті люди. У такому суспільстві кожен має можливість внести свій внесок відповідно до своїх здібностей. Останні повинні бути оцінені, і тому орієнтація на цей принцип створює сприятливе ставлення до тестів. Третє джерело, на думку Кеттела, є наслідком емоційного і сентиментального ставлення людей естетичного і нарцісстіческого типу до будь-якої спробі уявити "унікальну, художню особистість", як він пише, у вигляді формул і т.п.
Тести застосовувалися в двох основних сферах: в освіті і в сфері профвідбору-профорієнтації. Порушені тестами настільки важливі сфери життя і прямий вплив результатів тестового контролю на долі мільйонів людей породили широку гаму думок на користь і проти тестів. Велике зацікавлення тих, хто їх застосовував, і не менший песимізм тих, хто бачив недосконалість цього методу або постраждав в результаті його неправильного використання, породили в багатьох країнах, в тому числі і в СРСР, листи в урядові органи і в газети з вимогою заборони тестів .
Застій в розробці тестів і їх застосуванні тривав близько сорока років - з середини 30-х до кінця 70-х років, після чого знову стали з'являтися публікації з цієї проблеми, спрямовані як на користь тестів, так і проти них.Типові аргументи опонентів тестового методу зводилися, в узагальненому вигляді, до наступних тверджень:
- тести використовуються в капіталістичних країнах, де з їх допомогою вирішуються питання расової і класової диференціації;
- застосування тестів принижує гідність особистості, особливо у випадках, коли одержувані бали виявляються нижче середнього рівня;
- ніякі методи вимірювання не можуть замінити викладача і його особистий досвід;
- в педагогіці немає і не може бути точною одиниці виміру, і тому не слід гаяти час, сили і засоби на розробку неточних методів.
У цих твердженнях багато спірного, і навіть помилкового. Що стосується застосування тестів для цілей расової і класової диференціації, то навряд чи тут треба звинувачувати тести. Як всякий засіб, вони можуть бути використані на користь чи на шкоду, в залежності від ідеології, політики, компетенції, цільових установок і т.п. Про можливе приниженні гідності особистості, наклеюванні ярликів тощо можна сказати, що для запобігання неприємних наслідків такого роду, якщо це взагалі можливо при культурній роботі, розроблені спеціальні правила поводження з тестами і випробуваними. У цих правилах всі виникаючі питання етичного характеру передбачено вирішувати на користь особистості. Дотримання етичних норм є неодмінною частиною професійної підготовки тих, хто працює з тестами. Тестові методи не покликані замінювати викладача і його особистий досвід, а навпаки, покликані допомагати йому, звільнивши його від рутинної роботи і дати, тим самим, йому можливість зосередитися на підвищенні якості викладання. По-друге, хоча точність педагогічних вимірювань і не може зрівнятися з точністю фізичних вимірювань, переваги перше, тим не менш, досить очевидні, вони описані повсюдно.
У той час як в нашій країні обговорювалося питання, бути тестам чи не бути, в США ставилися інші питання: як підвищити якість тестів, як зробити результати тестування незалежними від групи випробовуваних і від того чи іншого набору завдань? До початку другої світової війни там вже був накопичений великий досвід розробки тестів. Війна дала сильний поштовх авіабудування. Відповідно, знадобилися сотні тисяч пілотів, штурманів, механіків, стрільців-радистів, фахівців з налагодження навігаційного обладнання. Кожна з перерахованих професій вимагала наявності певних здібностей - інтелектуальних, фізичних, психомоторних, і всі ці здібності треба було швидко і ефективно оцінити. Для участі в цій роботі були мобілізовані вчені, які займалися питаннями вимірювання в психології і в соціології. З початкової освіти це були, в основному, математики, які займалися питаннями відповідних психологічних або соціологічних вимірів. З початком війни майже всі кадри так званих психометрики були спрямовані в спеціально створену військову частину на авіабазі Рандольфільд, для проведення там, на основі багатостороннього тестування, професійного відбору та класифікації готується по всій країні персоналу з числа льотчиків, штурманів, мотористів і т. Д. оскільки війна диктувала короткі терміни проведення дослідження, а тестів не вистачало, вся робота з профвідбору, створення і по перевірці якості тестів велася паралельно. Наприклад, з 550 тисяч, підданих тестового контролю в одному, 1942 році, приблизно тільки половина була допущена до навчання зазначеним професіями.
Тим часом громадськість продовжувала висловлювати сумніви в якості використовуваних тестів. Тому було вирішено провести експеримент. В рядах самих експериментаторів не було одностайності, оскільки потрібно було перевірити ефективність їх власної роботи. Серед аргументів, що висувалися проти експерименту, були: чи потрібен він в важкий воєнний час; а раптом розкриють недоліки тестів, які здаються зараз цілком працездатними, а головне, вже затверджених керівництвом ... ".
Експериментальна група складалася з 1 143 осіб, відібраних у випадковому порядку з числа осіб, які пройшли тестування по повній програмі і зарахованих на курси підготовки військових льотчиків, незалежно від показаних ними результатів у тестуванні. Контрольну групу склали понад 230000 осіб, допущених до навчання в 1943 році в залежності від отриманих ними тестових балів. Результати порівняння виявилися наступними: в експериментальній групі лише 23 відсотки змогли закінчити курс навчання, в той час як серед відібраних за допомогою тестів відсоток успішно закінчили льотні школи виявився більш 60. Відмінності, як кажуть статистики, виявилися вельми достовірними. Оскільки навчання військового льотчика коштує дорожче підготовки професора, а відрахування невдах проводилося, як правило, не раніше того, як курсанти проходили приблизно третю частину терміну підготовки, неважко було уявити собі масштаби економії коштів за рахунок використання тестів. Один з активних учасників процесу відбору військових фахівців підрахував, що на кожен долар, витрачений на цю програму, бюджет зекономив тисячу доларів.
Інший проект використання тестів у США був спрямований на вивчення і вдосконалення методів адаптації призовників до військової служби. Зокрема, він мав на меті підняти боєздатність американських солдатів за рахунок зниження у них почуття страху. Відповідно до вчення З. Фрейда, це почуття відносилося до прихованих, або, інакше, латентним властивостями особистості. Звідси і назва загальної методології дослідження таких властивостей - латентно-структурний аналіз (від англ. Latent Structure Analyses, або скорочено, LSA). Ця методологія націлена на виявлення латентних якостей і факторів поведінки за допомогою математико-статистичних моделей вимірювання. Було проведено широкомасштабне соціально-психологічне дослідження "American Soldier", покликане підвищити боєздатність солдат за рахунок виявлення та усунення тих прихованих чинників, які впливають на поведінку солдатів в бойовій обстановці.
Поняття "латентна", або, як іноді пишуть в нашій літературі, "прихована" змінна мимоволі викликає асоціацію з метафізичним вченням про якихось прихованих від безпосереднього сприйняття "сверхфізіческіх" сутності кожної речі або явища, взятих поза ними зв'язків і відносин в навколишньому їхньому світі. Грунтуючись на цій помилкової асоціації, можна було б, як робилося раніше, взагалі не розглядати ідею латентно-структурного аналізу, вважаючи її черговим проявом антідіалектізма в науці. Однак такий хід мислення привів би до помилки, бо наукове мислення спирається не стільки на асоціації, скільки на раціональність. А це, перш за все, є сфера принципів, припущень і процедур, що забезпечують об'єктивність, логічну примусовість і результативність в процесі пізнання.
Сенс введення латентної змінної вимагає короткого роз'яснення. Вона являє собою найпростішу форму реалізації ідеї існування прихованого чинника, що впливає на результати випробовуваних. Результати тесту завжди містять в собі помилки вимірювання, що утрудняють оцінку істинного значення тестового бала на латентної змінної. Оскільки латентна змінна з'являється в результаті концептуалізації, вона завжди залишається гіпотетичної змінної, на якій з більшою або меншою точністю оцінюються справжні результати випробовуваних. Латентна змінна представляє собою концептуальну модель даного дослідника якості піддослідних.
Спроби судити про невидимі речі по видимим проявам мали місце ще в глибоку давнину. Так, наприклад, Платон стверджував, що справжня астрономія займається не вивченням руху спостережуваних небесних тіл, а вивченням законів руху зірок з математичного неба; недосконалим зображенням останнього є видиме небо. В епоху Відродження приховані якості розглядалися як якісь сили, властиві усім речам, причому кожна річ представлялася як щось двоїсте: чуттєво сприймається предмет і внутрішнє "приховане якість", яке викликало зміна спостережуваних властивостей. Ця ідея знову пробила собі дорогу в науці середини ХХ століття.
Розвиток тестування в Росії
Можна сказати, що Росія кінця XIX століття запозичила в основному німецький варіант перевірки знань. Але в ті роки тут про тести ніхто ще нічого не писав. Схоже, що в країні їх не було.
У Росії кінця XIX - початку XX століття питання розробки тестів і їх застосування для оцінки знань не ставилося і не обговорювалося. Як свідчать перші звіти Санкт-Петербурзького педагогічного товариства, ще в 1872-1875гг. йшли дискусії лише про корисність і шкідливість бальних оцінок.
Суть і дух дискусій передає уривок зі статті О.Ерна: "... ні по одному з поставлених питань члени педагогічного товариства не змогли прийти до угоди. Правда, під кінець дебатів захисники балів готові були майже поступитися своїм опонентам. Вони погоджувалися визнати, що оцінка успіхів учнів балами у багатьох відношеннях незручна і вносить в школу багато небажаних елементів; вони вирішувалися навіть відмовитися від системи позначок, але тільки під однією умовою: вони вимагали, щоб їм точно і виразно було зазначено, ніж передбачається зам еніть бали ". Позиція прихильників вигнання бальної оцінки з російської школи чітко була виражена словами члена педагогічного товариства Миропольского: ... "смерть балам загрожує неминуча, не нині, завтра, дні їх полічені". Учасник тих дискусій К. Сент-Ілер поставив ряд питань, що стосуються застосування позначок (балів) в школі. Основним з питань був: варто чи не варто успіхи учнів висловлювати цифрами? Певної відповіді на нього не було отримано.
Відповідно, не велася наукова робота в цій області. Але приділялася увага поліпшенню якості контролю знань. В кінці XIX століття в пресі обговорювалося питання про введення іспитів. У циркулярі по Санкт-Петербурзькому навчальному округу "Про виробництво випробувань зрілості без послаблень", повідомлялося, що в багатьох гімназіях випробування зрілості виробляються вкрай поблажливо, з вельми великими послабленнями. А ця обставина, в свою чергу, дуже несприятливо відгукується на всі справи навчального справи, привчаючи вихованців поверхнево відноситься до засвоєння викладаються їм наук в надії на очікувані послаблення на випробуваннях. У цьому ж циркулярі є разюче точні слова про вимоги до змісту контрольних матеріалів: "не обтяжуючи вимогами дрібних і другорядних подробиць ... необхідно упевнитися в знанні істотно-важливого в кожному предметі".
У травні 1918 року було прийнято Постанову Народного Комісаріату по освіті РРФСР, в якому були скасовані всі іспити - вступні, перехідні і випускні. Разом з цим була скасована і бальна система оцінки, як там написано, "знань і поведінки учнів у всіх, без винятку, випадках шкільного життя. Переклад з класу в клас, і видача свідоцтв повинні проводитися на підставі успіхів учнів, за відгуками педагогічної ради про виконання навчальної роботи. 2 серпня 1918 року було прийнято декрет Ради Народних Комісарів Української РСР "Про правила прийому до вищих навчальних закладів", в якому стверджувалося буквально наступне: "Кожна особа може вступити в число слухачів будь-якого вищого навчального закладу без надання диплома, атестата або свідоцтва про закінчення середньої або будь-якої школи ". Пізніше було підведено і обгрунтування під рішення про скасування іспитів: "шляхом іспиту не можна скласти правильне уявлення про знання і про розумовий розвиток учнів" і що "іспит чинить руйнівну дію на учнів і студентів", "має стільки смертних гріхів, що навряд чи знайдуться його захисники ".
Відхід від такого роду нігілізму настало спочатку у вищій школі, що сталося в 1924 році.Постановою другої сесії ВЦВК було запропоновано "розробити питання про форми перевірки придатності кандидатів до вступу до вузу, а також виробити нову систему перевірки знань і обліку успішності студентів". У 1932 році ЦК ВКП (б) в своїй постанові визнав за потрібне "встановлення в кінці року перевірочних випробувань для всіх учнів. У цій же постанові є цікавий пункт. "Всякі складні схеми і форми обліку і звітності заборонити".
Поступово зростав і рівень загального обов'язкового освіти, з 7 до 10 класів середньої школи, тобто вирішувалося завдання народної освіти. Під впливом егалітаристських установок в педагогічному середовищі актуалізувалося безліч розхожих афоризмів типу "незамінних людей немає", "немає поганих учнів, є погані вчителі", "не висовуватися" і т.п. У країні, влаштованої по егалітарної принципом, люди розглядалися як взаємозамінні "гвинтики" суспільної машини, керованої Вождем. З початку тридцятих років виникла ідея тотального контролю, в рамках якої в системі освіти знову почали використовуватися іспити.
В середині тридцятих років виявилася неадекватність системи оцінки знань завданням, поставленим партією перед радянською школою. У Постанові Ради народних Комісарів і ЦК ВКП (б) від 3 вересня 1935 р стверджувалося, що "встановлена Наркомпросса система оцінки успішності не дає уявлення про фактичні знання учнів і веде, на практиці, до зниження рівня навчання". Там же доручалося відділу ЦК ВКП (б) розробити, обов'язково для всіх шкіл СРСР, норми оцінки успішності учнів, з тим, щоб один і той же рівень знань однаково оцінювався в усіх школах ". З огляду на нездатність навчального відділу ЦК партії вирішити цю методичну задачу доручення так і залишилося невиконаним. Чи не вирішили її і всі наступні покоління керівних діячів союзного і російського освіти.
Насувалася друга світова війна, для перемоги в якій були потрібні мільйони технічно підготовлених фахівців. По всій країні відкривалися нові навчальні та науково-дослідні інститути, військові училища. Промисловість поступово переводилася на військові рейки. Для відбору курсантів в льотні училища створювалися медичні комісії, які і повинні були займатися питаннями якщо не професійного відбору, то хоча б отбраковкой тих, хто не годився для виконання льотної роботи за показниками здоров'я. Тестів як системи завдань зростаючої складності в цих комісіях ще не було. В основному там використовувалися різні проби, вимірювання рівня тиску крові, пульсу, перевірялися здатність розрізняти кольори, реакція на звук, нервова провідність, стійкість до запаморочення. За допомогою контрольних нормативів перевірялася і фізична підготовленість.
Возрождавшаяся після революційних потрясінь радянська школа відкрилася практично всім відомим тоді в світі педагогічним новаціям, таким як Вальдорфские і Монтессорі-школи, Дальтон-план і ін. Серед цих новацій були і тести. Розквіт був, однак, недовгим. До початку 30-х років все почало згортатися і повертатися до старих форм. У 1933 році було прийнято рішення про проведення перших в історії радянської держави перевірочних випробувань всіх школярів. У керівному документах з цього приводу спеціально відзначалася "неприпустимість - як там було написано - навмисного" срезиванія "учнів шляхом постановки особливо важких для них," каверзних питань ". Оскільки подібні явища відбувалися не тільки тоді, але відбуваються, в масовому порядку і зараз на вступних екзаменах до вузів, то щось подібне, але в сучасному формулюванні, і з мірою відповідальності, корисно було б ввести і в "Порядок прийому до державних освітніх установ вищої професійної освіти", яким мін освіти намагається зараз регламентувати процес оцінки знань абітурієнтів.
Введення масового контролю знань школярів збіглося за часом з періодом зміцнення режиму особистої влади Сталіна, з його прагненням безпосередньо підпорядкувати собі роботу Наркомпросів. У зв'язку з тим, що більшість його політичних опонентів доброзичливо ставилися до педології і до ідеї тестування, Сталін розгорнув боротьбу проти педології, вважаючи їх своїми якщо не явними, то потенційними противниками. Поява в той час педології не було історичною випадковістю. Це було так само неминуче, як поява і інших прикладних наук. Хоча педологія претендувала на статус фундаментальної науки про комплексний розвиток дитини, вона була, якщо судити по методам і результатам, все-таки прикладної педагогікою, необхідно доповнювати педагогіку в її самому слабкому місці - зв'язку науки з практикою освіти і навчання. Однак замість співпраці педагогіки і педології почалося політичне побиття останньої, що закінчилося не науковою, а скоріше, політичної "перемогою" прихильників "чистої" педагогіки. Таким чином, педологія стала першою в списку наук, які пізніше назвуть репресованими.
Заборона педології, а разом з нею і тестів, стало одним з перших фактів ідеологічного тиску на неугодні науки, наукові напрямки і на окремих вчених. У числі постраждалих від такого тиску, а часом просто нахабною і підлої цькування, виявилися автори випускалися в кінці 20-х - початку 30-х років збірок "Тести: теорія і практика". Це М.Я. Басов, М.С. Бернштейн, П.П. Блонський, А.П. Бюлетенів, С.М. Васілейскій. Запанувала після заборони ситуація негативного ставлення до тестів, в якій останні відкидалися, як то кажуть, з порога не давала практичної можливості публікувати що-небудь в їх захист. Всього в 1937 році було репресовано понад 300 вчених - педагогів і педології. Було репресовано також наркоми освіти Cоюза і всіх республік, їх заступники, начальники відділів та багато інших. У політичному житті країни різко посилився суб'єктивізм. Суб'єктивізм в політиці, а потім і в педагогіці, перешкоджав розвитку будь-якого об'єктивного методу контролю, бо в останньому вбачалася загроза існуванню командно-адміністративної системи, з її ретельно культивуються "негативним" підбором кадрів, відповідно до якого кожне наступне покоління управлінських кадрів виявляється гіршим за попередній . Це відбувається, зокрема, через те, що вирішальними ознакою підбору стають не знання і не здатності, а слухняність у виконанні наказів вищестоящих, часто некомпетентних, а то і психічно нездорових осіб. Слухняними легко керувати. На жаль, помилкова кадрова політика триває в Росії і зараз.
Тести виникли значно пізніше того періоду, коли в Європі вже склалися перші педагогічні системи Коменського, Ушинського, Дістервега, Гербарта, Песталоцці та ін. Ідея Гельвеція про всемогутність виховання була підхоплена Марксом і абсолютизувати на російському грунті з початку 30-х років - у формі панівної ідеї радянської педагогічної науки, основним предметом і метою якої стало виховання в дусі відданості відомим особам і ідеям; інші складові, такі, як освіта та навчання, могли бути тільки виховують в тому ж дусі. Побічним продуктом цієї ідеї стала так звана "виховна концепція" профорієнтації, мета і методи якої виродилися в пропаганду робітничих професій і в яке суперечить здоровому глузду заперечення тестів.
Тести заборонили в 1936 році як "буржуазні і шкідливі", але справжні причини заборони - розстановка сил в політичній боротьбі того періоду. Запанувала після заборони ситуація негативного ставлення до тестів не давала практичної можливості публікувати що-небудь в їх захист. І ця ситуація тривала протягом приблизно сорока років. Протягом усього цього часу друкувалися в основному статті про шкідливість тестів, про неприпустимість використання останніх у вітчизняній педагогічній науці і практиці. Відповідно, в цих умовах важко було знайти бажаючих займатися тестової проблематикою і вводити її в плани науково-дослідних установ, а також писати праці на "недіссертабельную" тему. Педагогіка того часу втратила інтерес до тестів і до проведення емпіричних досліджень; почасти тому вона протягом багатьох років залишалася однією з небагатьох громадських наук, позбавлених якісного емпіричного базису. З тієї далекої пори емпіричне напрямок педагогічних досліджень так і залишилося в нерозвиненому стані.
Хоча в тридцятих роках практична робота по тестах загальмувалася, наукове вивчення дійсних можливостей цього методу в СРСР повністю не припинялося. Частина тестів застосовувалася під виглядом контрольних завдань, випробувань. І навпаки, різні випробування нерідко називалися тестами. Практика тестування характеризувалася серйозними суперечностями, що призвело до заборони застосування тестів в сфері освіти, профвідбору та профорієнтації.
З тих пір ставлення до тестів стало неоднозначним. Одні бачили в тестовому контролі засіб приниження ролі педагога, сприймали тести як засіб вираження недовіри до традиційно виставляються оцінками і тому проявляли певну настороженість. Інші вважали самі тести винними в різних порушеннях і тому відкидали ідею тестового контролю знань, як то кажуть, з порога. І тільки деякі розглядали їх як засіб радикального перетворення навчального процесу в бік його об'єктивізації - і ставали ентузіастами цього методу. Як прозорливо зазначав П.П. Блонський, тести - це більше, ніж засіб контролю; це засіб раціоналізації шкільної справи, і хочеться додати, освіти в цілому.
Оскільки тести вважалися основним методом педології, то відмовивши в науковості педології, керівники педагогічної науки тих років відмовилися визнати також і науковість тестів. Тут було допущено відразу кілька помилок, можливо, навмисних. Одна - у ставленні до педології, яка мала ряд цікавих наукових досягнень, які не вписувалися в сучасну їй педагогіку. Друга помилка - у визнанні тестів як специфічного методу педології. Хоча відомо, що абсолютно специфічних приватних методів (в яких би не були присутні елементи пізнання, що застосовуються в інших методах) немає. І третя помилка - відмова у визнанні науковості тестового методу. Це сильно загальмувало розвиток самої педагогічної науки, позбавивши її передумов для розробки самого ефективного методу контролю знань.
В СРСР умов для занять тестами фактично не було.
Тестування в СРСР і Росії періоду п'ятдесятих - сімдесятих років нашого століття можна охарактеризувати як застій. Над суспільним устроєм життя тяжів суб'єктивізм членів Політбюро ЦК КПРС. Суб'єктивізм, як відомо, світоглядна позиція, що ігнорує об'єктивний підхід до дійсності, яка заперечує об'єктивні закони природи і суспільства. Він завжди перешкоджав розвитку суспільства, а разом з тим, і тестових методів об'єктивного контролю знань.
В СРСР багато писалося про шкідливість і буржуазності тестів, про неприпустимість використання останніх в педагогічній науці і практиці. Суб'єктивізму і пов'язаним з ним різних порушень протиставляється така система організації контролю, яка виключила б негативні прояви в принципі, спиралася б на об'єктивувалися методи. Однак в рамках авторитарної педагогіки контроль нерідко ставав засобом не тільки спонукання, скільки примусу до доброго навчання, що викликало нерідко негативну реакцію учнів.
Аналіз стану справ з тестовим контролем в СРСР і в інших країнах показував: багато країн випереджали нас за масштабами практичної роботи, по фінансуванню наукових досліджень, по числу публікацій, з підготовки наукових кадрів, за рівнем і якістю розвитку теорії тестів, з технічної та програмно обчислювальної оснащеності тестового процесу. Найбільш розвинені в тестовому щодо країни - Нідерланди, США, Англія, Японія, Данія, Франція, Ізраїль, Фінляндія, Канада, Австралія, Нова Зеландія та ін. Немає ніякої випадковості в тому, що в цей список потрапили країни з високим рівнем життя населення. На думку В.С. Аванесова, тут зв'язок опосередкований ланцюжком: застосування тестів благотворно впливає на якість освіти; якість освіти пов'язано з якістю управління; якісне управління створює передумови для підвищення якості життя населення. Така дивовижна зв'язок тестів з якістю життя.
Хоча інтерес до тестів в СРСР помітно зріс, ситуація з ними не тільки не покращилася, а в деяких аспектах навіть погіршилася.Тому що уявна простота створення тестів, в поєднанні з кон'юнктурними інтересами породили безліч неякісних саморобок, які дискредитують цей перспективний метод наукової організації самоконтролю і об'єктивного педагогічного контролю знань. Тестування ставало свого роду модою, особливо в престижних школах, де тести починають застосовувати замість приємних і випускних іспитів. Почасти це відбувалося через те, що найбільш поширеним і визнаним в світі методом об'єктивної оцінки знань вважався саме тест.
І це не випадково. Тести дають можливість помітно поліпшити освітній процес, тому що мають ряд переваг перед іншими методами контролю знань; будучи обов'язковою частиною багатьох педагогічних новацій, онісніжают витрати на перевірку знань, допомагають виявити індивідуальний темп навчання, а також прогалини в поточної та підсумкової підготовці. У поєднанні з персональними ЕОМ, тести допомагають перейти до створення сучасних систем адаптивного навчання та контролю - найбільш сучасних організації навчального процесу. Без тестів неможливий перехід до самої прогресивному на сьогодні навчання учнів на основі, так званої у нас системи повного засвоєння знань. Саме в такій системі тести і завдання в тестовій формі буквально пронизують всю навчальну діяльність викладачів і учнів. Навчання починається з вхідного тестування, супроводжується поточним контролем за допомогою завдань у тестовій формі і закінчується об'єктивним тестуванням навчальних досягнень. Крім того, тести дозволяють налагодити самоконтроль - найкориснішу для навчання і гуманну форму контролю знань, а також організувати рейтинг - ефективний засіб підвищення навчальної мотивації.
Сучасна теорія тестів (IRT)
Педагогічна вимір латентних якостей в західній літературі асоціюється з Latent Trait Theory; цією назвою затверджується специфічна спрямованість і навіть унікальність даної теорії для вимірювання саме латентних якостей. Однак це не так. Насправді все, без винятку, теорії тестів спрямовані на оцінку справжніх компонентів вимірювань, явно не спостерігаються.
І все теорії виходять з аксіоми стійкого існування справжніх (латентних) компонентів вимірювання випробовуваних. На початку 30-х років класик Чиказької психометрической школи Тюрстон підкреслював важливість індексу надійності результатів вимірювання (r xt). Цей індекс є мірою зв'язку спостережуваних значень кожного варіанта тесту з істинними, неспостережуваними компонентами вимірювань. В силу наведених аргументів назву Latent Trait Theory не можна визнати правильним.
Ймовірно, тому часто застосовується друга назва Latent Trait Theory - Item Response Theory. Зважаючи на відсутність прийнятного аналога назви цієї теорії російською мовою російський тестолог В.С. Аванесов, як і більшість на Заході, називає її сучасною.
У фокусі вивчення IRT знаходиться, строго кажучи, не тести, як системи завдань, а окремі завдання. Ось чому це скоріше не теорія «тестів», а математизована теорія аналізу характеристик тестових завдань.
Не випадково головним в IRT є твердження про залежність ймовірності правильної відповіді випробуваного від рівня підготовленості випробуваного і від параметрів завдання. Цю залежність зручніше представляти у вигляді логістичної функції.
Числа розглянутих параметрів ставиться у відповідність одна-, дво- і трипараметричної моделі вимірювання. Ці моделі з належною повнотою викладені в роботах багатьох західних дослідників. Одним із перших дослідником цих моделей вимірювання в Росії був В.С. Аванесов.
Хоча окремі методи IRT (наприклад, розрахунок інформаційної функції тесту) застосовуються для оцінки відповідності тесту рівню підготовленості випробовуваних, це - наслідок підсумовування значень інформаційних функцій окремих завдань. Все зазначене дозволяє запропонувати новий варіант перекладу назви IRT на російську мову як математико-статистичної теорії аналізу тестових завдань. Що близько до змістом назви оригіналу і узгоджується з викладається нижче класифікацією теорій педагогічного вимірювання латентних якостей. ...........
|