Определение теоретической валидности

Как указывает А. Анастази, для доказательства теоретической валидности в ряде случаев используется метод внутренней согласованности. В качестве критерия при этом выступает суммарный показатель данного теста. Иногда используются контрастные группы, которые формируются из испытуемых, показавших самые высокие и самые низкие суммарные результаты.

Выполнение теста группой с высокими результатами сравнивается с выполнением группой с низкими результатами, и те задания, с которыми первая группа справляется хуже, чем вторая, признаются невалидными и либо исключаются, либо переделываются. Можно также воспользоваться бисериальной корреляцией между результатами выполнения каждого задания и суммарным результатом теста. Это позволяет оставить только те задания, для которых отмечена значимая корреляция с тестом в целом. Если тест состоит из заданий, прошедших такого рода отбор, то говорят, что тест обладает внутренней согласованностью, поскольку все его задания подчинены основному направлению теста как целого.

А. Анастази подчеркивает, что критерий внутренней согласованности теста — это существенная мера его однородности. Поскольку этот показатель помогает охарактеризовать область поведения или свойство, выборочно представленное в тесте, то степень однородности теста имеет отношение к конструктной валидности. Конечно, сама по себе внутренняя согласованность теста мало что может сказать о том, что тест измеряет. Однако при наличии тщательно проработанных теоретических оснований создания теста, прочно обоснованной научной базы эта процедура подкрепляет теоретические представления о психологической сущности методики.

Для доказательства внутренней согласованности или конструктной валидности использовался прием, который в тестологии получил название «теория-задание-ответ». Суть его состоит в том, что при измерении какой бы то ни было особенности признается без обсуждения равная диагностическая ценность каждого задания, включенного в тест, диагностирующий данную особенность. Так ли это на самом деле? Нет ли среди заданий таких, которые не отвечают прямой цели тестирования и не испытывают искомую особенность? Данный формальный прием дает материал для ответа на этот вопрос.

Метод «теория-задание-ответ» можно использовать только в тех случаях, когда задания, включенные в тест, измеряют одно и то же свойство, а не комбинацию свойств.

Анализ заданий проводится относительно общего балла по тесту. Выборка испытуемых разбивается по успешности выполнения теста на несколько групп, тем самым каждая группа характеризуется присушим ей уровнем диагностируемого качества. Далее выводится процент выполнения каждого задания в каждой группе. Строится система координат, где по оси абсцисс откладываются номера групп по возрастающей успешности в тесте, а по оси ординат — процент испытуемых, выполнивших данное задание.

В идеале должна быть получена кривая, которая указывает на то, что рост успешности выполнения конкретного задания прямо пропорционален росту успешности выполнения теста в целом (рис. 1).

alt

Рис. 1. «Идеальная» кривая соотношения результата выполнения задания и критерия успешности по тесту

Другими словами, в группе испытуемых, показавших низкий результат по тесту, каждое конкретное задание должно быть выполнено хуже, по сравнению с группой, получившей более высокий тестовый балл. В действительности при проверке заданий теста, по-видимому, трудно рассчитывать на получение подобного графика из-за множества факторов, влияющих на выполнение заданий. Здесь могут быть различного рода отклонения, однако важно помнить, что чем ближе реальная кривая к «идеальной», тем выше диагностическая значимость конкретного задания.

В нашем исследовании выборка испытуемых в сто человек была разбита по успешности выполнения теста натри группы согласно правилу 25—50—25 % (успешные, средние по успешности и неуспешные). Были подсчитаны проценты выполнения заданий теста отдельно по каждой группе и построены графики, отражающие соотношение между конкретным заданием и общим баллом по тесту.

Приведем примеры графиков, построенных по результатам выполнения некоторых заданий второго субтеста в разных по успешности группах (рис. 2).

Анализируя рис. 2, где представлены графики, построенные по процентам выполнения заданий 2 и 5 в разных по успешности группах, можно увидеть, что они имеют более или менее удовлетворительные соотношения с выделенными критериями успешности (в группе успешных они выполняются лучше, а в группе неуспешных — хуже). Эти задания можно оценить как валидные по содержанию и, следовательно, как информативные по отношению к диагностируемому свойству.

Задание 11 обладает низкой дифференцирующей способностью: группа испытуемых, показавших высокий результат выполнения теста в целом (успешные), данное задание выполняет хуже, чем группа менее успешных (средних). Оно не представляет собой ценности с точки зрения диагностируемого качества и должно быть исключено.

Анализ графиков, построенных по процентам выполнения заданий в разных по успешности группах, свидетельствует, что в основном задания показывают хорошую диагностическую способность, т.к. соответствие между процентом выполнения заданий и критерием успешности по тесту выражено достаточно четко (в группе успешных они выполняются лучше, чем в остальных двух, а в группе неуспешных — хуже).

Это указывает на то, что тест обладает внутренней согласованностью или однородностью.

Критерием внутренней согласованности являются также коэффициенты корреляции между результатами каждого субтеста и суммарным результатом по тесту. Если какой-то из субтестов плохо коррелирует с тестом в целом, он должен быть отброшен.

Рис. 2. Результаты выполнения заданий теста в разных по успешности группах

ТУРВ состоит из семи раздельно применяемых субтестов, из результатов которых складывается суммарный результат (общий балл) теста. Коэффициенты корреляции между результатами каждого субтеста и общим баллом, полученные на выборке численностью сто человек, приведены в табл. 1.

Эти данные свидетельствуют о хорошей конструктной валидности теста, т.к. все субтесты направлены на измерение одного и того же конструкта, каковым является уровень умственного развития взрослых.

Таблица 1

Коэффициенты корреляции субтестов ТУРВ с общим баллом

Субтесты	Коэффициенты корреляций субтестов с общим баллом по тесту
1	0,76
2	0,69
3	0,59
4	0,55
5	0,64
6	0,85
7	0,70

Примечание. Все коэффициенты значимы на уровне р≤0,01.

Следующим этапом проверки качества ТУРВ был подсчет коэффициентов корреляций между субтестами. Это сделано для того, чтобы определить, в каких соотношениях субтесты находятся между собой, насколько согласуются измеряемые ими аспекты умственного развития. В тест были включены разнородные задания. По нашим предположениям, они должны диагностировать разные стороны одной и той же характеристики — содержания, способов и операций теоретического мышления. Можно предположить, что у людей вряд ли будут в одинаковой мере представлены все те стороны теоретического мышления, которые измеряются тестом. Не исключено, что у какой-то части испытуемых все включенные в тест составляющие теоретического мышления развиты или одинаково хорошо, или одинаково плохо, или одинаково в средней степени. Однако в большинстве случаев в силу различных социальных и индивидуальных причин следует ожидать определенную неравномерность в развитии этих особенностей у одного и того же человека, что в свою очередь отразится на тесноте связей между субтестами.

Об уровне согласованности субтестов между собой свидетельствуют коэффициенты корреляций, представленные в табл. 2.

Несмотря на наличие невысокой тесноты связи между некоторыми субтестами, следует признать конструктную валидность разрабатываемого теста, оцененную таким способом удовлетворительной.

Для проверки теоретической валидности теста также важно установить степень его связи с родственной методикой, т.е. измеряющей то же самое качество (конвергентную валидность).

Таблица 2

Коэффициенты корреляций между субтестами

Субтесты	1	2	3	4	6	7
1	—	0,56	0,29	0,31	0,57	0,43
2		—	0,41	0,41	0,46	0,38
3			—	0,55	0,35	0,41
4				—	0,35	0,49
6					—	0,49
7						—

Примечание. Все коэффициенты значимы на уровне р≤0,01.

В нашей работе для доказательства конвергентной валидности было проведено сопоставление показателей разработанного теста, направленного на диагностику теоретического мышления взрослых, с показателями интеллектуального теста Р. Амтхауера, также измеряющего теоретическое мышление. Другими словами, сопоставлялись тесты, диагностирующие одинаковые типы мышления.

В эксперименте принимали участие 21 человек. Коэффициент ранговой корреляции оказался равен 0,70 (р≤0,01). Это свидетельствует о том, что оба теста измеряют один и тот же вид мышления, характеризующий умственное развитие взрослых. Полученный показатель доказывает конвергентную валидность ТУРВ.

Итак, мы использовали несколько способов доказательства теоретической валидности разработанного нами теста. Полученные результаты подтвердили, что тест измеряет некий конструкт, который с опорой на теоретические представления, теоретические обоснования, используемые при его разработке, может быть интерпретирован как показатель сформированности теоретического мышления. Таким образом, ТУРВ пригоден для оценки умственного развития взрослых.

Комментарий к статье Отмена