Продукты и услуги Информационно-правовое обеспечение ПРАЙМ Документы ленты ПРАЙМ Методика проведения апробации оценочных средств для независимой оценки квалификации (утв. Национальным агентством развития квалификаций 6 октября 2023 г.)

Методика проведения апробации оценочных средств для независимой оценки квалификации (утв. Национальным агентством развития квалификаций 6 октября 2023 г.)

11 октября 2023

1. Введение

Приоритетными направлениями развития системы независимой оценки квалификации на период до 2024 года (утверждены председателем Национального совета при Президенте Российской Федерации по профессиональным квалификациям А.Н. Шохиным 8 июля 2022 года) введение процедуры апробации оценочных средств на постоянной основе необходимо для обеспечения контроля за надлежащим качеством оценочных средств. Процедура апробации предполагает проведение тестовых профессиональных экзаменов, обобщение и анализ их результатов и оценку на этом основании валидности и надежности оценочного инструментария НОК. Лучшие практики разработки оценочного инструментария (например, Российский стандарт тестирования персонала, Единый государственный экзамен) обязательно включают процедуру апробации. На современном этапе развития НОК процедура апробации оценочных средств становится крайне востребованной ввиду масштабирования НОК, расширения обязательности НОК в различных сегментах экономики и, соответственно, в связи с повышением ответственности за ее качество.

Основными задачами апробации в том числе выступают:

- проверка оценочных средств на валидность, надежность и практичность (технологичность);

- оптимизация ресурсной (материально-технической, кадровой, информационно-методической) обеспеченности оценочных процедур (проверяется, достаточно ли расходных материалов для выполнения заданий, все ли инструменты и оборудование учтены; насколько удобно работать с экспертными заключениями и т.д.);

- отработка (технологизация) в пилотном режиме различных аспектов и процедур оценивания;

- проверка релевантности процедуры проведения оценки квалификаций (достаточность времени на выполнение заданий, наличие необходимых источников, оборудование и т.п.), а также выявление проблем содержания конкретных заданий, входящих в оценочные средства.

Настоящая методика содержит целесообразный алгоритм организации проведения апробации оценочных средств для независимой оценки квалификации и практические рекомендации к его выполнению, которые, в свою очередь, базируются на положениях:

- Федерального закона "О независимой оценке квалификации" от 3 июля 2016 года № 238-ФЗ,

- Постановления Правительства Российской Федерации от 16 ноября 2016 года № 1204 "Об утверждении Правил проведения центром оценки квалификаций независимой оценки квалификации в форме профессионального экзамена",

- Приказа Министерства труда и социальной защиты Российской Федерации от 19 декабря 2016 года № 759н "Об утверждении требований к центрам оценки квалификаций и Порядка отбора организаций для наделения их полномочиями по проведению независимой оценки квалификации и прекращения этих полномочий",

- Приказа Министерства труда и социальной защиты Российской Федерации от 01 ноября 2016 года № 601н "Об утверждении положения о разработке оценочных средств для проведения независимой оценки квалификации",

- Приказа Министерства труда и социальной защиты Российской Федерации от 11 июля 2022 года № 410н "Об утверждении Положения о разработке наименований квалификаций и требований к квалификации, на соответствие которым проводится независимая оценка квалификации",

- Приказа Министерства труда и социальной защиты Российской Федерации от 15 ноября 2016 года № 649н "Об утверждении порядка формирования и ведения реестра сведений о проведении независимой оценки квалификации и доступа к ним, а также перечня сведений, содержащихся в указанном реестре",

- Приоритетных направлений развития системы независимой оценки квалификации на период до 2024 года (утверждены председателем Национального совета при Президенте Российской Федерации по профессиональным квалификациям А.Н. Шохиным 8 июля 2022 года).

Практические рекомендации, содержащиеся в настоящей методике, направлены на оказание методической помощи советам по профессиональным квалификациям в организации и проведении апробации оценочных средств для независимой оценки квалификации.

Используемые сокращения:

НОК - независимая оценка квалификации

СПК - совет по профессиональным квалификациям

ЦОК - центр оценки квалификаций

2. Глоссарий

Апробация [оценочных средств] - практическая проверка оценочных средств внешними независимыми экспертами - носителями квалификаций - путем проведения модельного или реального экзамена с последующей оценкой заданий, что обеспечивает методические основания, необходимые для дальнейшей доработки (в случае необходимости) и последующего утверждения оценочных средств. Целью апробации является установление содержательной, критериальной, функциональной и очевидной валидности, надёжности и практичности (технологичности) оценочных средств.

Валидность (действенность, пригодность) - показатель качества, комплексная характеристика оценочного средства, теста, процедур оценки, отражающая обоснованность, значимость результатов, адекватность целям и предмету оценивания; виды (способы доказательства) валидности: содержательная - степень соответствия содержания оценочного средства всем предметам оценки, оцениваемой квалификации в целом; очевидная (доверительная) - валидность с точки зрения испытуемого: "измеряется именно то, что подразумевается"; функциональная - соответствие каждого задания тем предметам оценки, которые и подлежат оценке; критериальная - степень соответствия результатов оценки определенным критериям и др.

Измерительный инструмент [в квалиметрии, тестологии, системах контроля качества] - средство, алгоритм (в узком смысле), метод и средство (в широком смысле) оценивания, сравнения, установления соответствия между свойствами различных объектов посредством измерительных шкал. Тест в НОК, оценочное средство НОК в целом - являются измерительными инструментами, в которых в качестве объектов измерения (сравнения с эталонами) выступают различные характеристики квалификации - предметы оценки.

Квалиметрия - научная область, объединяющая методы количественной оценки качества различных объектов.

Критериально-ориентированная оценка - оценка, базирующаяся на определении уровня овладения предметами оценки испытуемым относительно некоторого критерия, а не относительно групповых норм (отличие от нормативно-ориентированной оценки), то есть индивидуальные результаты оценки каждого испытуемого не соотносятся с результатами других испытуемых, как это требуется, например, в условиях конкурса, соревнований, обучения, подбора персонала и т.п.

Корректность (заданий) - 1) формулировка задания логически корректна, если она недвусмысленна, однозначна; 2) задание корректно, если существует хотя бы один алгоритм его выполнения (хотя бы единственное решение), не изменяющийся при изменении начальных условий; 3) корректным считается задание теста с выбором ответов, содержащее один предмет оценки и один или более правильных ответов, в отличие от некорректных заданий, имеющих более одного предмета оценки и при этом допускающих несколько вариантов правильных ответов

Надежность [теста, заданий] - точность, стабильность, устойчивость результатов тестирования (постоянные результаты при повторных предъявлениях). Надежность - это характеристика того, в какой степени выявленные у соискателей различия по результатам НОК являются отражением действительных различий в измеряемых свойствах квалификации и в какой мере они могут быть приписаны случайным и систематическим ошибкам. На надежность теста влияют: а) количество заданий (чем больше заданий, тем надежнее тест), б) трудность заданий (трудный тест считается более надежным), в) стандартность внешних условий тестирования (времени, инструкций).

Оценочное средство [в НОК]- комплекс заданий, критериев оценки, используемых при проведении профессионального экзамена

Практичность (технологичность) [оценочных средств] - доступность инструкций и содержания заданий для понимания экзаменуемого.

Предметы оценки - квалиметрически обоснованный набор характеристик содержания квалификации, для оценивания которых составляются задания: готовность выполнять трудовые функции; готовность выполнять трудовые действия; освоенные умения /профессиональные навыки; способность применять знания (профессионально значимую информацию) в профессиональной деятельности.

Спецификация [оценочного средства] - табличный элемент структуры оценочного средства, указывающий на взаимосвязь предметов оценки с критериями оценки, с типами и номерами конкретных заданий - отдельно для теоретического и практического этапов профессионального экзамена.

Тестовый профессиональный экзамен - воспроизведение деятельности экзаменаторов и соискателей в реальных или приближенных к ним условиях проведения НОК, моделирующая в целях апробации оценочных средств проведение реального профессионального экзамена.

Тестология - междисциплинарная наука о создании качественных и научно обоснованных измерительных методик (тестирование как метод, многокритериальный подход, правило статистической значимости, дистракторный анализ, проверка на валидность и надёжность и др.) и их интерпретации.

Трудность (задания) - мера количества и длительности предполагаемых операций, необходимых для успешного выполнения задания. Операция - законченная часть (этап) процесса обработки предмета труда (в т.ч. информации), выполняемая за счет физических и умственных усилий (мыслительных операций) человека. Мыслительные операции - решение разнообразных мыслительных задач, направленных на раскрытие сущности чего-либо: анализ, синтез, сравнение, абстрагирование, конкретизация, обобщение.

Эксперт-тестолог - специалист по теоретической и практической тестологии, тестированию, занимающийся разработкой тестов, проведением тестовых испытаний, экспертизой качества тестов.

3. Требования к организации и проведению апробации оценочных средств для проведения НОК

3.1. Возможные организационные схемы апробации

Апробации оценочных средств для проведения НОК может быть реализована в двух основных организационных схемах: 1) "внешняя экспертная оценка" - экспертная оценка оценочных средств в ходе модельного выполнения и анализа заданий независимыми экспертами; 2) "тестовые профессиональные экзамены" - анализ и экспертная оценка оценочных средств независимыми экспертами по результатам проведения реального или модельного профессионального экзамена на группах соискателей или испытуемых, не являющихся экспертами.

При этом вариативность способов организации апробации иллюстрируется следующей таблицей (Таблица 1):

М - число экспертов

N=N1+N2 - число испытуемых, не являющихся экспертами

N1 - число испытуемых - носителей квалификации

N2 - число испытуемых - непрофессионалов1

К - количество проб (экзаменов, оценок)

Ц - средняя цена одной пробы в расчете на одного соискателя

Таблица 1. Способы организации апробации оценочных средств для НОК

№	Задания к этапу профессионального экзамена	Организационная схема апробации	Методы апробации	Данные к оценке финансовых затрат (на каждую квалификацию)
1	теоретический	внешняя экспертная оценка	Метод субъективных оценок - надежность, валидность и практичность	N=0 K=1
2	практический	внешняя экспертная оценка	Метод субъективных оценок	N=0 K=1
3	теоретический	тестовый профессиональный экзамен	Статистические методы - надежность и валидность Метод субъективных оценок - практичность	N=N1+N2>20 500 р.< Ц < 1000 р.
4	теоретический	комбинированная: внешняя экспертная оценка и тестовый профессиональный экзамен	Статистические методы - надежность и валидность Метод субъективных оценок - надежность, валидность и практичность Сравнительный анализ	N=N1+N2>20 500 р. < Ц < 1000 р
5	практический	тестовый профессиональный экзамен (в случае использования цифровых технологий)	Метод субъективных оценок	N1>3 N2=0
6	практический	комбинированная: внешняя экспертная оценка и тестовый профессиональный экзамен (для практических заданий с использованием цифровых технологий)	Метод субъективных оценок Сравнительный анализ	N1>3 N2=0 10000 р .< Ц < 15000 р.

Применение комбинирования схем апробации повышает объективность выполненных оценок валидности, надежности и практичности различными методами.

Возможные варианты комбинирования приведены также в Таблице 1.

Количество проб (экзаменов, оценок), число испытуемых и экспертов всякий раз может сильно различаться в зависимости от возможностей бюджета на проведение апробации. Так, М=1 предполагает оценку силами одного "суперэксперта" с соответствующим размером оплаты его труда; число испытуемых в группе обеспечит репрезентативность выборки; число проб (оценок) позволит увеличить точность применения статистических методов, и т.п. В любом случае при организации апробации руководствуются принципом оптимальной достаточности (разумной достаточности, приемлемого риска, целесообразной экономичности), предполагающим достижение компромисса между количественными и качественными характеристиками получаемого результата и затрачиваемыми или отпущенными для этого ресурсами.

Количество вариантов организации апробации заданий практического этапа оценочных средств для НОК ограничивается типами заданий и типами квалификаций, для которых были разработаны апробируемые оценочные средства (Таблица 2).

Таблица 2. Наличие ограничений в применении схем и методов апробации оценочных средств для НОК

Условия применения схемы и метода апробации			Тестовые профессиональные экзамены (эксперты и соискатели (и/или испытуемые))		Внешняя экспертная оценка (только эксперты в ролях "экзаменатор" и "экзаменуемый")
Условия применения схемы и метода апробации			Статистические методы	Метод субъективных экспертных оценок	Метод субъективных экспертных оценок
Тестирование (теоретический этап)			нет ограничений
Выполнение заданий офлайн на специальных площадках, отвечающих требованиям оценочного средства к площадкам по безопасности, санитарным нормам, производственным условиям и оснащению оборудованием и материалами (если предусмотрено)	Задания на выполнение трудовых функций, трудовых действий в реальных или модельных условиях	Квалификации с определенной долей физического труда, использующие психомоторные умения (предметы труда - реальные материальные объекты)	возможны высокая финансовая затратность и(или) длительное время на последовательное прохождение экзамена большим количеством реальных соискателей с последующей статистической обработкой результатов	эксперт может выступать только в одной роли - экзаменатора, то есть часть показателей оценки (доступность формулировок заданий для понимания испытуемым, трудность заданий, удобство работы с инструментарием и др.) окажутся за рамками непосредственной экспертной оценки	нет ограничений
		Квалификации, в качестве предметов труда для которых выступает информация (интеллектуальная деятельность), в том числе использующие коммуникативные навыки	длительное время на последовательное прохождение экзамена большим количеством реальных соискателей с последующей статистической обработкой результатов
	Задания на оформление и защиту портфолио
Выполнение заданий онлайн с использованием цифровых технологий (если предусмотрено)	Задания на выполнение трудовых функций, трудовых действий в реальных или модельных условиях	Квалификации с определенной долей физического труда, использующие психомоторные умения (предметы труда - реальные материальные объекты)	нет существенных ограничений при условии использования программ-симуляторов, основанных на AR/MR- и VR-технологиях, геймификации: сравнительно низкие затраты, возможность одновременного участия большого количества испытуемых	не применяется, поскольку в качестве "экзаменатора" выступает искусственный интеллект, эта роль для эксперта исключается	эксперт может выступать только в одной роли - экзаменуемого, то есть часть показателей оценки (степень реалистичности и типичности заданий, объективность и корректность критериев, модельных ситуаций и др.) окажутся за рамками непосредственной экспертной оценки; кроме того, для экспертизы потребуется значительно большее время, поскольку необходима проверка всего алгоритма при правильных и неправильных действиях экзаменуемого
		Квалификации, в качестве предметов труда для которых выступает информация (интеллектуальная деятельность), в том числе использующие коммуникативные навыки	нет существенных ограничений при условии использования интерактивных программных сред, программных приложений с функцией видеоконференцсвязи, специализированных программных сред и прикладных программ для проведения расчетов и исследований, конструирования, моделирования, программ-симуляторов, , использующих геймификацию	применяется только в случае использования приложений с функцией видеоконференцсвязи, при этом эксперт может выступать только в одной роли - экзаменатора, то есть часть показателей оценки (доступность формулировок заданий для понимания испытуемым, трудность заданий, удобство работы с инструментарием и др.) окажутся за рамками непосредственной экспертной оценки
	Задания на оформление и защиту портфолио		нет ограничений		нет ограничений

3.2. Общие требования к организации и проведению апробации

Апробация оценочных средств для проведения НОК, как правило, проводится в три этапа: подготовительный, основной (исследовательский), завершающий (аналитический).

3.2.1. Подготовительный этап включает:

- Составление руководства и подготовка инструментария апробации оценочных средств

- Отбор экспертов, имеющих образование и опыт работы по видам деятельности, соответствующим оцениваемым квалификациям

- Отбор площадок для проведения апробации, оснащенных оборудованием в соответствии с требованиями оценочных средств

- Краткосрочное обучение экспертов работе в информационных системах (онлайн-тестирования и экспертизы), обучение по проведению профессионального экзамена (при необходимости - для экспертов, выступающих в роли экзаменаторов на практическом этапе профессионального экзамена)

Руководство по апробации - документ, устанавливающий порядок организации, проведения, обработки и оформления результатов апробации, план-график и программу (сценарий) апробации и содержащий в т.ч. инструкции для экспертов по апробации оценочных средств на базе информационной системы (систем).

Деятельность экспертов-носителей квалификации должна быть регламентирована в руководстве по апробации и основываться на следующих принципах:

- принцип независимости эксперта: эксперт не должен быть заинтересованным лицом, проводить индивидуальную экспертизу и давать заключение, основываясь на результатах собственных исследований, при этом он несет личную ответственность за данное им заключение (выносимое им экспертное суждение);

- принцип объективности, при котором выводы о качестве оценочного средства строятся исключительно на профессиональном мнении и практических знаниях эксперта;

- принцип компетентности, который гарантирует участие в качестве экспертов-носителей квалификации и экспертов-тестологов (при необходимости);

- принцип осведомленного согласия в отношении испытуемых; эксперт, участвующий в тестовом профессиональном экзамене, должен давать о нем исчерпывающую информацию испытуемым;

- принцип открытости и публичности экспертных действий и решений.

Инструментарий апробации - информационная система (платформа) онлайн-тестирования, информационная система экспертизы (модуль, программа), обеспечивающая индивидуальную работу экспертов и автоматизирующая обработку и анализ данных экспертизы в соответствии с методами апробации, перечни показателей экспертизы, бланки для выставления экспертных баллов, формы экспертных заключений и сводного аналитического отчета.

В качестве площадок для проведения апробации могут выступать: экзаменационные площадки ЦОК, в том числе на базе образовательных организаций или предприятий, иные специально отобранные площадки, отвечающие требованиям оценочного средства.

3.2.2. Основной (исследовательский) этап осуществляется в соответствии с руководством по апробации и включает:

- Проведение реального / модельного теоретического этапа профессионального экзамена и/или работу экспертов с соответствующим блоком заданий в электронной системе тестирования

- Заполнение экспертных листов (заключений), работа экспертов в электронной системе экспертизы

- Проведение реального / модельного практического этапа профессионального экзамена и/или работу экспертов с соответствующим блоком заданий в ролях "соискатель" и "экзаменатор"

- Заполнение экспертных листов (заключений), работа экспертов в электронной системе экспертизы

3.2.3. Завершающий (аналитический) этап включает:

- Обобщение и анализ результатов апробации

- Составление сводного аналитического отчета о результатах апробации, содержащего предложения по доработке оценочных средств с учетом выявленных недостатков

- Проведение экспертных семинаров с участием представителей СПК и ЦОК о результатах апробации оценочных средств

3.3. Требования к проведению апробации путем внешней экспертной оценки

Модельный теоретический этап профессионального экзамена может быть организован дистанционно с подключением через Интернет рабочих мест с компьютерами экспертов в любой удобной для работы экспертов локации при условии соблюдения технических требований устанавливаемой системы (платформы) онлайн-тестирования и электронной системы экспертизы.

Допускается, аналогично теоретическому этапу, удаленное прохождение модельного практического этапа профессионального экзамена как для эксперта, выступающего в роли "испытуемого", так и для эксперта, выступающего в роли "экзаменатора", в случае, если оценочным средством предусмотрено его проведение с помощью цифровых технологий, т.е. с использованием интерактивных программных сред, программных приложений с функцией видеоконференцсвязи, специализированных программных сред и прикладных программ для проведения расчетов и исследований, конструирования, моделирования, программ-симуляторов, программно-технических средств, использующих AR/MR- и VR-технологии, геймификацию и т.п.

Во всех остальных случаях модельный практический этап профессионального экзамена организуется на специальных площадках, отвечающих требованиям оценочного средства к площадкам по безопасности, санитарным нормам, производственным условиям и оснащению оборудованием и материалами.

Модельный практический этап профессионального экзамена как для эксперта, выступающего в роли "испытуемого", так и для эксперта, выступающего в роли "экзаменатора", проводится в полном соответствии с установленными процедурами НОК и не должен иметь организационно-технических отличий от реального экзамена по НОК, включая протокольные и инструктивную части.

Обработка и анализ результатов апробации осуществляются в электронной системе экспертизы.

3.4. Требования к проведению тестовых профессиональных экзаменов

К организации апробации по схеме тестовых профессиональных экзаменов необходимо, помимо экспертов - носителей квалификации, дополнительное привлечение экспертов-тестологов, владеющих статистическими методиками определения качества критериально-ориентированного оценочного инструментария.

В соответствии с порядком, установленном в руководстве по апробации, при выборе тестового профессионального экзамена на подготовительном этапе осуществляется формирование групп испытуемых - в экспериментальную группу (группы) "носители квалификации" и контрольную группу "непрофессионалы". В качестве испытуемых могут выступать:

- реальные соискатели ЦОК, проходящие НОК, в том числе выпускники образовательных организаций, проходящих НОК совмещенно с государственной итоговой (промежуточной) аттестацией;

- в ролях соискателей и участников контрольной группы - выпускники профильных образовательных программ (на добровольной основе);

- в ролях соискателей и участников контрольной группы - отобранные добровольцы (волонтеры) или нанимаемые специалисты профильных предприятий из числа носителей квалификации и др.

Условия реальности / модельности НОК и мотивации (материальной заинтересованности) к участию для разных категорий испытуемых могут варьироваться.

В целях экономии финансовых средств допускается в качестве участников контрольной группы "непрофессионалы" при апробации оценочного средства по одной квалификации задействовать тот же состав лиц, входящих в состав экспериментальной группы "носители квалификации" при апробации оценочного средства по другой квалификации, при условии, что эти квалификации не являются связанными (один вид профессиональной деятельности) или родственными (общая профессия (род занятий), наличие схожих трудовых функций), а также при одинаковом уровне квалификации.

Теоретический этап тестового профессионального экзамена организуется в специальных помещениях, отвечающих требованиям оценочного средства, в том числе по безопасности, санитарным нормам с количеством автоматизированных рабочих мест для испытуемых, экспертов и иного необходимого персонала достаточным для выполнения программы (сценария) апробации. Техническое оснащение автоматизированных рабочих мест для испытуемых должно соответствовать требованиям оценочного средства и техническим требованиям устанавливаемой системы (платформы) онлайн-тестирования.

Модельный, организованный специально в целях апробации, теоретический этап тестового профессионального экзамена не должен иметь организационно-технических отличий от реального экзамена по НОК за исключением этапов подачи и проверки заявительных документов соискателя и принятия решения о допуске к практическому этапу профессионального экзамена с регистрацией в системе тестирования и в реестре НОК.

Если это предусмотрено руководством по апробации, в целях экономии финансовых средств допускается засчитывать в качестве результатов тестирования отобранных испытуемых, входящих в экспериментальную группу (группы) "носители квалификации", обоснованную выборку (выборки) результатов тестирования реальных соискателей, проходящих НОК, при этом необходимо организовать их повторное тестирование в целях установления надежности оценочного средства - модельный вариант НОК, где в качестве стимула, например, может быть предложена возможность использования лучшего показанного результата тестирования для дальнейшего прохождения НОК.

Поэтому практический этап тестового профессионального экзамена с участием в качестве испытуемых соискателей НОК может быть организован в случае, если оценочным средством предусмотрено его проведение с помощью цифровых технологий, т.е. с использованием интерактивных программных сред, программных приложений с функцией видеоконференцсвязи, специализированных программных сред и прикладных программ для проведения расчетов и исследований, конструирования, моделирования, программ-симуляторов, программно-технических средств, использующих AR/MR- и VR-технологии, геймификацию и т.п.

Обработка и анализ результатов апробации осуществляются в электронной системе экспертизы.

4. Подходы к оценке валидности, надежности и практичности (технологичности) оценочных средств для НОК

4.1. Общие положения

Процедура оценки квалификации предусматривает принятие решения на основе проводимых измерений в отношении ее характеристик, выступающих в роли предметов оценки: готовности (опыта) выполнения трудовых функций, трудовых действий, умений и знаний. В этом смысле оценочное средство, используемое в НОК, является измерительным инструментом, представляющим собой систему заданий и критериев оценки, созданных в соответствии с закладываемой измерительной методикой, методом измерений (оценки).

Основными характеристиками (или критериями) качества измерительных инструментов, связанными со способностью нивелирования влияния систематических и случайных ошибок при измерениях, и которые возможно установить в ходе апробации, являются их валидность, надежность и практичность (технологичность).

Используемые при апробации оценочных средств для НОК методы определения надежности, валидности и практичности (технологичности) кардинально отличаются по способам их реализации и по материальным и временным затратам.

К этим методам относятся:

- метод субъективных экспертных оценок,

- статистические (вероятностные) методы.

4.2. Установление надежности, валидности и практичности (технологичности) оценочных средств для НОК методом субъективных оценок

Основным, а по отдельным параметрам оценки и типам заданий - единственно возможным, методом при установлении валидности, надежности и практичности оценочных средств для НОК в ходе их апробации является метод субъективных оценок, предполагающий сопоставление оценок, данных независимыми экспертами - носителями квалификации.

Валидность всегда трактуется как комплексная характеристика, включающая, с одной стороны, сведения о том, насколько пригодно оценочное средство для измерения того, для чего оно было создано, а с другой стороны, какова его действенность, эффективность, практическая полезность. По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности необходимо количественно либо качественно оценить, используются и разные способы доказательств.

При этом валидность (очевидная, функциональная, содержательная, эмпирическая, прогностическая и др.) оценочного средства для практического этапа профессионального экзамена, равно как и валидность критериально-ориентированного теста для теоретического его этапа, обуславливается валидностью отдельных заданий. При ее оценке независимыми экспертами - носителями квалификации устанавливается, прежде всего, конгруэнтность каждого задания элементу содержания - оценивается то, в какой степени тестовое задание измеряет элемент или аспект содержания, соответствующий предмету оценки, включенному в спецификацию.

Однако вопрос о валидности оценочного средства решается уже после того, как установлена его надежность, так как ненадежная методика не может быть валидной. Другими словами, надежность является необходимым условием валидности оценочного средства, поэтому хорошие показатели надежности свидетельствуют также в пользу его валидности.

Надежность (точность) измерений является одним из критериев качества оценочного средства.

К факторам, снижающим надежность, относят:

- субъективизм при оценке (практический этап), элементы субъективности в способах оценки и интерпретации результатов;

- угадывание в заданиях закрытой тестовой формы (теоретический этап);

- некорректные формулировки заданий, небрежно составленные инструкции, отсутствие четких указаний по предъявлению результатов;

- некорректные критерии (практический этап), неоправданный выбор весовых коэффициентов (теоретический этап);

- недостаточная длина теста и недостаточная трудность заданий (теоретический этап), неравномерность распределения заданий по трудности, типам и формам, недостаточное время, отводимое на выполнение теста;

- меняющаяся ситуация в проведении оценки: использование разного оборудования и материалов в разных ЦОК (практический этап), тестирование на бумажных формах или компьютерное интернет-тестирование (теоретический этап);

- неравные условия оценки одновременно для всех соискателей, различия в манере поведения экзаменатора (по-разному предъявляет инструкции, проводит дополнительный инструктаж с отдельными соискателями, оказывает некоторым консультирующую помощь и т. д.);

- не репрезентативность выборки, низкая степень однородности соискателей по уровню знаний и умений и опыту (например, опыту работы на разном оборудовании для выполнения одних и тех же трудовых функций);

- случайные источники снижения надежности, связанные не с измеряемыми параметрами, а с соискателями: колебания в физическом (самочувствие) и эмоциональном (интерес и мотивация, усталость, стресс) состоянии.

Практичность (технологичность) измерительного инструмента и его валидность всегда взаимосвязаны. Практичность - это функция возможностей, эффективности, простоты использования, то есть это:

- доступность инструкций теста и содержания заданий для понимания тестируемыми, четкость, компактность и однозначность формулировок, отсутствие "академического", "книжного" стиля изложения;

- рациональность (эффективность) распределения времени тестирования с учетом трудности заданий и в соответствии с общей длиной теста;

- использование возможностей электронных форм: наглядность подачи и удобство работы с графикой, анимацией, видео, вкладками, всплывающими окнами, встроенными приложениями, эргономичность и эстетичность;

- сравнительная простота организации тестирования и обработки результатов.

Другими словами, это такая компоновка заданий, которая позволяет весь процесс оценки (тестирования) или большую его часть вести с помощью технических и электронных средств, экономично, объективно, при равных условиях для всех соискателей.

Оценка практичности и технологического качества заданий производится на основании экспертного заключения специалистов и в процессе непосредственного использования заданий.

Для оценки надежности, валидности и практичности применяется способ установления средневзвешенных экспертных баллов.

Этим способом предлагаются бинарные наборы значений экспертных оценок, то есть такие, по отношению к которым возможны только два однозначных экспертных суждения: выполняется он или нет (имеет ли он место или нет). Для установления единого правила перевода экспертных суждений в экспертные баллы логическим значениям бинарных экспертных оценок ("да" или "нет") ставится в соответствие численное значение (соответственно 1 или 0). То есть осуществляется процедура непосредственного вынесения экспертного суждения для каждого задания на предмет соответствия установленному критерию (показателю) (Таблицы 3-6) по бинарной шкале: 1 - да, соответствует; 0 - нет, не соответствует, в которой независимо друг от друга участвуют не менее 3-х экспертов - носителей квалификации. Назначение нечетного количества экспертов делается в целях исключения альтернативных экспертных мнений - когда, в случае, например, 2-х экспертов, один эксперт ставит при оценке значение "1", а второй - "0", то есть вероятность "установить истину" равна 0,5 (50 % на 50 %).

Способ предполагает индивидуальную независимую работу каждого эксперта по заполнению бланка для выставления экспертных оценок, который содержит полный перечень показателей. При заполнении экспертных заключений эксперт не производит расчетов и никаких других преобразований данных. Не допускается принятие экспертных решений на основании сравнения результатов экспертных оценок разных объектов (тест, задания практического этапа) и разных экспертов между собой; не допускается при принятии решения по конкретному показателю принимать во внимание принятое решение по другому, непосредственно не связанному с данным, показателю.

У этого способа организации экспертной оценки есть и другие варианты: 1) оценка одним "суперэкспертом", чей авторитет в отрасли непререкаем; 2) оценка двумя экспертами и, в случае диаметрального расхождения их мнений по какому-то из объектов оценки, назначение 3-го дополнительного эксперта для оценки такого объекта (задания, группы заданий, теста в целом).

После этого проводится анализ средневзвешенных экспертных баллов и на его основе выдается заключение о качестве оценочного средства в целом.

В качестве единого способа оценки необходимо установить общее правило, например, такое, при котором измерительный инструмент (тест, задания практического этапа) следует считать, соответственно надежным, валидным или практичным, если, как минимум, 2 из 3-х экспертов одновременно считают его соответствующим критерию (показателю), то есть если выполняется условие:

а) в случае оценки каждого задания в отдельности для практического этапа профессионального экзамена или оценки теста в целом для теоретического этапа профессионального экзамена оценивается средневзвешенный экспертный балл А - среднеарифметическое экспертных баллов (для трех экспертов):

б) в случае оценки всего блока заданий для практического этапа профессионального экзамена или оценки теста для теоретического этапа профессионального экзамена на основе оценки (суперпозиции) показателей для каждого задания средневзвешенный экспертный балл Б будет принимать следующие значения (для трех экспертов):

где - бинарная экспертная оценка i-м экспертом j-го задания (0 или 1), N - число заданий

Таблица 3. Примерный перечень показателей оценки валидности, надежности и практичности методом субъективных оценок (теоретический этап профессионального экзамена)

№	Показатель	Объект	Назначение
1	Проверяются именно те предметы оценки (знания и когнитивные умения), которые заявлены в спецификации (0 - подмена предметов оценки, несоответствие, неполное соответствие (комплексные задания) или 1 - соответствие)	Каждое задание (Таблица 4)	Конгруэнтность тестовых заданий - Оценка валидности
2	Формулировка задания в целом корректна и доступна для однозначного понимания носителю квалификации с первого прочтения (0 - нет или 1- да)	Каждое задание (Таблица 4)	Оценка валидности и практичности
3	Терминология в формулировке задания соответствует профессиональной, используемой носителем квалификации (0 - нет или 1 - да)	Каждое задание (Таблица 4)	Оценка валидности
4	Назначенная к решению проблемная ситуация (при наличии) в формулировке задания типична для профессиональной деятельности носителя квалификации (0 - отсутствует или нетипична или 1 - типична)	Каждое задание (Таблица 4)	Оценка валидности
5	Описанные (при наличии) производственные условия, предметы и средства труда (кейс или задачные условия) современны и адекватны профессиональной деятельности по данной квалификации (0 - отсутствуют, устарели или не адекватны или 1 - адекватны)	Каждое задание (Таблица 4)	Оценка валидности
6	Инструкция к выполнению задания в наличии и понятна (0 - нет или 1 - да)	Каждое задание (Таблица 4)	Оценка практичности
7	Формулировки ключей и дистракторов, элементов списка (при наличии) в целом корректны и понятны с первого прочтения (0 - нет или 1 - да)	Каждое задание (Таблица 4)	Оценка валидности и практичности
8	Экспертом выбран(ы) вариант(ы) ответа (ов), совпадающий(ие) с ключом (0 - нет, ключ не соответствует правильному ответу или некорректен, один или несколько дистракторов являются ключами или 1 - да, ключ соответствует правильному(ым) ответу (ам))	Каждое задание (Таблица 4)	Оценка критериев. Оценка валидности
9	Время, затраченное экспертом на выполнение задания (мин.)	Каждое задание (Таблица 4)	Оценка практичности
10	Оценка уровня трудности задания (0 - легкое задание или 1 - трудное задание)	Каждое задание (Таблица 4)	Оценка надежности
11	Установленный весовой коэффициент (число баллов) для данного задания соответствует уровню трудности (0 - не соответствует, 1 - соответствует)	Каждое задание (Таблица 4)	Оценка надежности
12	Трудность задания соответствует уровню квалификации (0 - не соответствует, 1 - соответствует)	Каждое задание (Таблица 4)	Оценка валидности и надежности
13	Время, рекомендуемое на выполнение задания соискателем (мин.)	Каждое задание (Таблица 4)	Оценка практичности
14	Разнообразность (разнородность) заданий по типам и методам: 0 - однородный тест с низкой дифференцирующей способностью (в основном - вопросы воспроизводящего характера), 1 - имеется разнородность заданий (используются разные типы, встречаются задачи и кейсы)	Весь тест	Оценка надежности
15	Достаточность для выполнения задания допустимых (разрешенных к использованию) на экзамене нормативных и справочных источников информации, программных приложений (0 - недостаточно, необходимо предусмотреть, источники устарели (неактульны), недействительны и нуждаются в замене или 1 - достаточно, не требуется)	Весь тест	Оценка практичности
16	Удобство, комфортность работы с программой тестирования, наглядность подачи и удобство работы с графикой, анимацией, видео, вкладками, всплывающими окнами, встроенными приложениями, эргономичность и эстетичность (0 - нет или 1 - да)	Весь тест	Оценка практичности
17	Удовлетворенность, общее впечатление по работе с тестом (0 - тест нуждается в доработке или 1 - тест рекомендуется к использованию)	Весь тест	Оценка очевидной валидности

Таблица 4. Пример бланка для выставления экспертных оценок

Таблица 5. Примерный перечень показателей оценки валидности, надежности и практичности методом субъективных оценок (практический этап профессионального экзамена, роль эксперта - "экзаменуемый"):

№	Показатель	Объект	Назначение
1	Формулировка задания в целом корректна и доступна для однозначного понимания носителю квалификации с первого прочтения (0 - нет или 1 - да)	Каждое задание	Оценка валидности и практичности
2	Терминология в формулировке задания соответствует профессиональной, используемой носителем квалификации (0 или 1)	Каждое задание	Оценка валидности
3	Назначенная к решению проблемная ситуация (при наличии) в формулировке задания типична для профессиональной деятельности носителя квалификации (0 - отсутствует или нетипична или 1 - типична)	Каждое задание	Оценка валидности
4	Описанные (при наличии) производственные условия, предметы и средства труда современны и адекватны профессиональной деятельности по данной квалификации (0 - отсутствуют, устарели или не адекватны или 1 - адекватны)	Каждое задание	Оценка валидности
5	Расходных материалов (если предусмотрены) достаточно для выполнения задания (0 - нет или 1 - да)	Каждое задание	Оценка практичности
6	Учтены (если предусмотрены) все необходимые инструменты и оборудование (0 - нет или 1 - да)	Каждое задание	Оценка практичности
7	Предусмотрено время для проведения инструктажа на рабочем месте, учитывается время на ознакомление с рабочими инструкциями и инструкцией по технике безопасности (0 - нет или 1 - да)	Весь блок заданий	Оценка практичности
8	Инструкция к выполнению задания в наличии и понятна (0 - нет или 1 - да)	Каждое задание	Оценка практичности
9	Время, затраченное экспертом на выполнение задания (мин.)	Каждое задание	Оценка практичности
10	Оценка уровня трудности задания (0 - легкое задание или 1- трудное задание)	Каждое задание	Оценка надежности
11	Трудность задания соответствует уровню квалификации (0 - не соответствует, 1 - соответствует)	Каждое задание	Оценка валидности и надежности
12	Время, рекомендуемое на выполнение задания соискателем (мин.)	Каждое задание	Оценка практичности
13	Последовательность и формулировки типовых вопросов для собеседования по материалам портфолио (если предусмотрено) отражают реальные ситуации деятельности по данной квалификации, понятны для соискателя, предусматривают однозначные ответы и обеспечивают объективность и достоверность оценки (0 - нет или 1 - да)	Каждое задание	Оценка валидности
14	Достаточность для выполнения задания допустимых (разрешенных к использованию) на экзамене нормативных и справочных источников информации, программных приложений (0 - недостаточно, необходимо предусмотреть, источники устарели (неактуальны), недействительны и нуждаются в замене или 1 - достаточно, не требуется)	Весь блок заданий	Оценка практичности
15	Удобство работы с программно-техническими средствами (если предусмотрены) и их реалистичность, приближенность к реальным условиям деятельности (0 - нет или 1 - да)	Весь блок заданий	Оценка практичности
16	Удовлетворенность, общее впечатление по работе с практическими заданиями (0 - нуждается в замене или доработке или 1 - рекомендуется к использованию)	Каждое задание	Оценка очевидной валидности

Таблица 6. Примерный перечень показателей оценки валидности, надежности и практичности методом субъективных оценок (практический этап профессионального экзамена, роль эксперта - "экзаменатор"):

№	Показатель	Объект	Назначение
1	Проверяются именно те предметы оценки (трудовые функции, трудовые действия и умения), которые заявлены в спецификации (0 - подмена предметов оценки, несоответствие, неполное соответствие (комплексные задания) или 1 - соответствие)	Каждое задание	Конгруэнтность практических заданий - Оценка валидности
2	Назначенная к решению проблемная ситуация (при наличии) в формулировке задания типична для профессиональной деятельности носителя квалификации (0 - отсутствует или нетипична или 1 - типична)	Каждое задание	Оценка валидности
3	Описанные (при наличии) производственные условия, предметы и средства труда современны и адекватны профессиональной деятельности по данной квалификации (0 - отсутствуют, устарели или не адекватны или 1 - адекватны)	Каждое задание	Оценка валидности
4	Комплекты материалов экзаменатора удобны для работы экспертов. Работать с модельными ответами, экспертными заключениями, чек-листами, экзаменационными ведомостями удобно (0 - нет или 1 - да)	Каждое задание	Оценка практичности
5	Возможность автоматизации процедур оценивания (0 - автоматизация не предусмотрена или 1 - автоматизация предусмотрена)	Весь блок заданий	Оценка практичности
6	Предусмотрено время для проведения инструктажа на рабочем месте, учитывается время на ознакомление с рабочими инструкциями и инструкцией по технике безопасности (0 - нет или 1 - да)	Весь блок заданий	Оценка практичности
7	Оценка уровня трудности задания (0 - легкое задание или 1 - трудное задание)	Каждое задание	Оценка надежности
8	Трудность задания соответствует уровню квалификации (0 - не соответствует, 1 - соответствует)	Каждое задание	Оценка валидности и надежности
9	Время, рекомендуемое на выполнение задания соискателем (мин.)	Каждое задание	Оценка практичности
10	Модельные ответы на типовые вопросы для собеседования по материалам портфолио (если предусмотрено) исключают двойственное толкование и субъективную оценку (0 - нет или 1 - да)	Каждое задание	Оценка валидности и надежности
11	Критерии оценки объективны и диагностируемы, не требуют интерпретации и не зависят от частного мнения экзаменатора (0 - нет или 1 - да)	Каждое задание	Оценка валидности и надежности
12	Удобство работы с программно-техническими средствами (если предусмотрены) и их реалистичность, приближенность к реальным условиям деятельности (0 - нет или 1 - да)	Весь блок заданий	Оценка практичности
13	Удовлетворенность, общее впечатление по работе с практическими заданиями (0 - нуждается в замене или доработке или 1 - рекомендуется к использованию)	Каждое задание	Оценка очевидной валидности

4.3. Статистические методы определения надежности и валидности

В случае проведения апробации оценочных средств в форме теоретического этапа реального профессионального экзамена на группах соискателей (испытуемых) с последующей экспертной оценкой результатов могут применяться достаточно достоверные статистические (вероятностные) методы определения надежности и валидности измерительных инструментов - тестов.

В традиционной тестологии "надежность" теста - это критерий, который характеризует точность и воспроизводимость измерений, неподверженность случайным и систематическим ошибкам, относительное постоянство, устойчивость и согласованность результатов, то есть позволяющий судить о том, насколько внушают доверие полученные результаты.

На понятии "надежность" основывается вычисление "ошибки измерения", с помощью которой определяются вероятные пределы колебания измеряемой величины, возникающей под воздействием случайных факторов.

Основополагающими принципами здесь являются:

- "Хорошие" измерительные инструменты - это такие, на которые мало влияет случайная ошибка в том смысле, что эта ошибка будет изменяться случайным образом от одного измерения к другому (неточность самих измерений, субъективный фактор).

- "Хорошие" измерительные инструменты не подвержены влияниям источников систематической ошибки (несовершенство (неточность) метода измерений).

- Проведение многократных измерений при разных условиях и усреднение результатов уменьшают вклад случайных ошибок.

- Усреднение измерений, полученных с помощью разных инструментов, будет вести к уменьшению вклада систематической ошибки.

Можно сказать, что в широком смысле "надежность" показывает, в какой мере индивидуальные различия в результатах измерений являются "истинными", а в какой мере они могут быть отнесены к случайным ошибкам.

Надежность - это также и помехоустойчивость измерительного инструмента, независимость результатов измерений от действия всевозможных случайных факторов. К числу таких факторов следует отнести:

- разнообразие внешних материальных условий тестирования (время суток, освещенность, температура, наличие отвлекающих факторов, посторонних звуков и т.п.);

- динамичные внутренние факторы, по-разному действующие на разных испытуемых в ходе тестирования (настроение, утомление, другие особенности состояния испытуемого);

- информационно-социальные факторы (наличие других людей, ситуация психологического стресса).

Достаточная надежность (точность, согласованность) является предварительным условием валидности, но высокая надежность никоим образом не гарантирует, что измерительный инструмент, методика валидны.

Под валидностью (действительностью, пригодностью) в тестологии понимают комплексную характеристику теста, отражающую его способность получать результаты, соответствующие поставленной цели. Хотя классические тестологические теории придерживаются концепции разделения валидности на различные ее виды (такие как содержательная, критериальная и др. валидности), в настоящее время доминирует точка зрения, что валидность - это единая конструкция. Другими словами, различные выводы, сделанные на основе анализа результатов тестирования, могут требовать разных типов доказательств валидности, но не разной валидности. Как правило, для критериально-ориентированного тестирования при апробации теста используется доказательство его валидности через оценку степени того, насколько хорошо результаты теста коррелируют с теоретическим представлением теста - критерием или предсказывают его.

Следует, однако, заметить, что этот вариант апробации тестового инструментария, опирающийся на использование статистических методов, накладывает дополнительные организационные и финансовые издержки.

Так, проверка надежности потребует не менее 2-х групп испытуемых в роли соискателей (или реальных соискателей - носителей квалификации) с количеством человек не менее 30 в каждой или же, при онлайн-тестировании в электронной системе с генерацией системой случайных индивидуальных выборок заданий, не менее 1-й группы испытуемых, но тестируемых дважды. Проверка валидности потребует аналогично не менее 2-х групп испытуемых, но специально отобранных по критериям "носители квалификации" и "непрофессионалы".

Кроме того, для разработки инструментария апробации и ее проведения дополнительно потребуется привлечь экспертов-тестологов, владеющих статистическими методиками определения качества критериально-ориентированного оценочного инструментария.

Некоторые примеры оценок надежности и валидности для критериально-ориентированных тестов, используемых в НОК, приведены в Приложении 1.

5. Пример расчета затрат на организацию и проведение централизованной апробации 10 оценочных средств для проведения НОК путем внешней экспертной оценки

I. Предмет расчета.

Предметом настоящего расчета являются затраты на организацию и проведение апробации оценочных средств для проведения независимой оценки квалификации.

Цели проведения расчета:

- установление экономически обоснованных механизмов определения затрат на независимую оценку квалификации;

- достижение баланса экономических интересов государства и субъектов независимой оценки квалификаций;

- учет в структуре затрат налогов, начислений на заработную плату и иных обязательных платежей в соответствии с законодательством Российской Федерации.

Затраты на организацию и проведение апробации оценочных средств в форме профессионального экзамена может определяться как сумма прямых расходов (затрат), косвенных (накладных) расходов и плановых накоплений (формула для расчета):

Прямые расходы - это часть расходов, непосредственно связанных с организацией и проведением профессионального экзамена в порядке, установленном Постановлением Правительства РФ от 16 ноября 2016 г. № 1204 "Об утверждении Правил проведения центром оценки квалификаций независимой оценки квалификации в форме профессионального экзамена".

Косвенные (накладные) расходы - это часть расходов, необходимых для обеспечения оценочных (апробационных) процедур, которые невозможно отнести на отдельную услугу: расходы на оплату труда административного хозяйственного персонала организации-исполнителя, на содержание и эксплуатацию зданий, сооружений, помещений, занимаемых и используемых административным хозяйственным персоналом, почтовые, банковские, аудиторские расходы, на содержание и эксплуатацию компьютерной и офисной техники, на типографские работы, на услуги связи, расходы на оплату юридических и информационных услуг, на проведение всех видов ремонта, на служебные командировки, связанные с производственной деятельностью административного хозяйственного персонала, и иные расходы.

Плановые накопления (рентабельность) - часть прибавочной стоимости услуг по организации и проведению апробации оценочных средств, за счет которой образуются средства для развития организации-исполнителя.

Структура (калькуляция) затрат представлена ниже в табличном виде. В зависимости от конкретной квалификации, по которой апробируется оценочное средство, в формулу для расчета включаются только элементы, соответствующие составу фактически проводимых работ.

II. Исходные данные:

1) Заработная плата привлекаемых внешних экспертов

По данным Мосстата2 среднемесячная заработная плата работников организаций в Москве в январе-феврале 2023 года составила 109865,5 рублей. По организациям Москвы, не относящихся к субъектам малого предпринимательства, зарплата работников составила 137300,0 рубля.

Рабочее время за 2023 год (в часах) при 40-часовой неделе3 - 1 973,00

Уровень заработной платы эксперта: 137300,0 рубля ((137300х12)/1973=835 руб./час)

2) Количество оценочных средств, направляемых на апробацию.

- N оценочных средств по 150 заданий в каждом.

Стандартный вариант комплектов заданий оценочного средства для соискателя содержит от 30 до 40 теоретических заданий (на время тестирования 2 часа) и 2 практических задания (до 6 часов на выполнение).

150 заданий соответствует 4 вариантам, состоящих из более 35 теоретических заданий (на время тестирования 2 часа) и 2 практических заданий (до 6 часов на выполнение).

Для расчета общих трудозатрат: N оценочных средств по 150 заданий в каждом представляют собой 4 N единиц стандартных вариантов комплектов заданий оценочных средств для соискателя с временем выполнения каждый - 2 часа на теоретическую часть и до 6 часов на практическую часть.

III. Калькуляция затрат

№ п/п	Наименование процедуры, элемента затрат	Исполнитель	Трудозатраты, ч-час. (на 1 вариант комплекта заданий оценочного средства, для 1 соискателя)	Тариф. ставка, руб.	Сумма руб.
1	2	3	4	5	6
Переменные затраты
1	Проведение теоретического этапа профессионального экзамена	Эксперт в роли соискателя	2	835	1 670
2	Заполнение экспертных листов по результатам теоретического этапа профессионального экзамена	Эксперт	1	835	835
3	Проведение практического этапа профессионального экзамена	Эксперт: 1) в роли соискателя; 2)в роли экзаменатора	12	835	10 020
4	Заполнение экспертных листов по результатам практического этапа профессионального экзамена	Эксперт	2	835	1 670
5	Итого зарплата экспертов (на 1 оценочное средство)	п.1 п.4			14 195
6	Отчисления в ПФ, ФСС, ФОМС	30 % от п.5			4 259
7	Всего ФОТ в расчете на 1 оценочное средство	п.5 п.6			18 454
8	Всего ФОТ в расчете на N=10 оценочных средств	4хNxп.7			738 160
9	Материальные затраты См на подготовку и проведение профессионального экзамена в соответствии с оценочными средствами, в расчете на N=10 оценочных средств	В соответствии с калькуляцией на материальные затраты			420 000
10	Командировочные расходы экспертов Скр	(при наличии)			0
11	Краткосрочное обучение экспертов, в ходе апробации выступающих в роли экспертов-экзаменаторов	(при необходимости) (20 академических часов)			100000
12	Косвенные (накладные) расходы	80 % от п.8			590 528
13	Плановые накопления (рентабельность)	50 % от п.8			369 080
14	Итого, переменные затраты	п.8 п.13			2 217 768
	Постоянные затраты
15	Составление руководства и инструментария апробации оценочных средств				200 000
16	Отбор экспертов, имеющих образование и опыт работы по видам деятельности, соответствующим оцениваемым квалификациям, и отбор площадок для проведения апробации, оснащенных оборудованием в соответствии с требованиями оценочных средств, заключение договоров				50 000
17	Обработка и анализ результатов, составление сводного аналитического отчета о результатах апробации, содержащего предложения по доработке оценочных средств с учетом выявленных недостатков				300 000
18	Проведение экспертных семинаров с участием представителей СПК о результатах апробации оценочных средств				400 000
19	Итого постоянные затраты	п.15 п.18			950 000
20	Всего затраты на апробацию N оценочных средств	п.14 + п.19			3 167 768

IV. Калькуляция на материальные затраты

№	Вид затрат	Калькуляционные статьи затрат	Средняя стоимость в расчете на 1 соискателя (1 вариант комплекта заданий оценочного средства)4, руб.	Средняя стоимость в расчете на N оценочных средств (по 4 варианта в каждом), руб.	N
№	Вид затрат	Калькуляционные статьи затрат			10
1	Материальные затраты на проведение теоретического этапа профессионального экзамена	Подготовка и загрузка цифровых форматов оценочных средств в программный комплекс "Онлайн-экзамен" Техническое обслуживание программного комплекса "Онлайн-экзамен" Аренда помещений, оснащенных рабочими местами Аренда и обслуживание компьютеров Услуги связи, интернет Возмещение коммунальных и прочих расходов арендодателю	500	4Nx500= 2000N	20000
2	Материальные затраты на проведение практического этапа профессионального экзамена	Аренда помещений, оснащенных рабочими местами Аренда и обслуживание оборудования для проведения профессионального экзамена, включая амортизационные отчисления, расходы на электроэнергию, воду, топливо, сырье, материалы и иные расходуемые технологические ресурсы (при наличии), ФОТ специалистов, обслуживающих оборудование Услуги связи, интернет Канцелярские товары Нормативная и методическая литература Печать бланков, предусмотренных оценочным средством и процедурами экзамена Возмещение коммунальных и прочих расходов арендодателю Мероприятия по соблюдению производственной безопасности (охране труда) на рабочих местах, проведение и оформление необходимых инструктажей	10000	4Nx10000= 40000N	400000
3	Итого, материальные затраты (средняя стоимость)		10500	42000N	420000

Приложение 1. Примеры оценки надежности и валидности критериально-ориентированных тестов статистическими методами.

1. Оценка надежности.

Разнообразие и изменчивость случайных факторов при оценке так велики, что они обусловливают появление у каждого соискателя непрогнозируемого по размеру и направлению отклонения измеренного результата оценки (тестового балла), т.е. такого, который можно было бы получить в идеальных условиях.

Поэтому общий разброс (дисперсию) результатов произведенных измерений можно представить как результат суммы двух источников случайных событий: изменчивости самого измеряемого свойства у соискателя (предмета оценки) и нестабильности измерительной процедуры (инструмента), обусловливающей наличие ошибки измерения. Это нашло свое выражение в классической формуле, описывающей надежность измерительного инструмента в виде отношения истинной дисперсии к дисперсии эмпирически полученных результатов оценки (зарегистрированных баллов). Коэффициент надежности :

где - истинная (неизвестная) дисперсия ошибки:

, зависящая только от вариации - отклонений от среднего измеряемых свойств (предметов оценки); N - число измерений в "идеальных" условиях и "идеальным" инструментом (тестом), обеспечивающим стабильность измерительной процедуры, - полученное значение измеряемой величины, - среднее арифметическое значение всех :

;

- дисперсия эмпирически полученных баллов при использовании реального инструмента измерений (теста).

Таким образом надежность должна обосновывать ошибку измерения - она должна показывать, какая часть изменчивости показателей ошибочна.

Из этой формулы получаем, что стандартная ошибка измерения (среднеквадратичная погрешность), указывающая допустимый предел возможной ошибки индивидуального показателя в результате ненадежности измерительного инструмента (теста) равна:

Подход к вычислению коэффициента надежности при апробации на группах соискателей критериально-ориентированных оценочных средств, какие и применяются в НОК, может основываться на использовании матрицы сопряженности результатов оценки (тестирования). Пусть в зависимости от числа правильных ответов соискатель получает либо "зачет" (допуск к практическому этапу профессионального экзамена), либо "незачет" по критерию - пороговому значению суммы баллов, который устанавливают эксперты. Для этого составляется таблица, представляющая собой пример матрицы сопряженности 2x2 (Таблица 1), где a, b, c и d - доли соискателей, получивших соответствующую оценку по результатам двух параллельных форм - "Вариант 1" и "Вариант 2" одного и того же оценочного средства, отличающихся наборами заданий, но имеющих одни и те же предметы оценки.

При организации апробации в форме электронного тестирования в режиме онлайн параллельные формы "Вариант 1" и "Вариант 2" равнозначны повторному тестированию той же группы соискателей в электронной системе тестирования, при условии, что число заданий в базе оценочного средства так велико, что многократно (в 4 и более раза) превышает число заданий в случайно генерируемых системой индивидуальных выборок заданий (вариантах) для каждого соискателя, например 40 заданий в индивидуальном варианте из 300 заданий в базе оценочного средства. Такая равнозначность допустима, поскольку вероятность дублирования одних и тех же заданий в отношении конкретного соискателя крайне низка и нивелируется большей равномерностью их распределения по разным соискателям при максимальном охвате всех заданий в выборке.

Таблица 1. Матрица сопряженности

Результаты тестирования параллельных форм теста		Вариант 1
Результаты тестирования параллельных форм теста		зачет	незачет
Вариант 2	зачет	a=0,56	b=0,02
Вариант 2	незачет	c=0,01	d=0,41

При этом a+b+c+d=1 (100 %)

Варианты вычисления коэффициента надежности:

Первый способ вычисления коэффициента надежности - в качестве меры корреляции вычисляется известный в тестологии фи-коэффициент (коэффициент корреляции Гилфорда):

Удобство в использовании фи-коэффициента состоит в том, что он одновременно оценивает степень оптимальности теста по его трудности . Более трудный тест надежнее легкого при условии, что все задания теста имеют достаточную дифференцирующую способность. Важно при этом иметь в тесте равномерное распределение заданий по их трудности.

Второй способ вычисления коэффициента надежности - это каппа-коэффициент, представляющий собой оценку надежности критериально-ориентированного теста, учитывающую случайную согласованность. Он изменяется в диапазоне [-1; +1].

где - вероятность принятия согласованного решения по матрице сопряженности результатов критериально-ориентированного теста, представляющая собой сумму вероятностей принятия согласованных решений по отнесению испытуемых в каждую из групп; - вероятность случайного согласования.

Каппа-коэффициент надежности связан с длиной теста (n - число заданий): к=f(n). В достаточно длинных тестах не очень высокая однородность может сочетаться с высокой надежностью. Однако не всегда возможно использование тестов длиной более 100 заданий, но, тем не менее, необходимо помнить, что чем длиннее тест, тем выше надежность. Существует формула, по которой можно определить, во сколько раз m надо изменить (увеличить) длину теста, чтобы достичь желаемой надежности (линейная зависимость):

Говорить о надежности проведенных тестовых испытаний параллельных форм критериально-ориентированного теста можно по равенству фи- и каппа- коэффициентов надежности, а также при превышении ими значений 0,8.

Коэффициент надежности означает, что 94 % дисперсии показателей теста зависят от истинной изменчивости (дисперсии) измеряемых свойств, а 6 % - от дисперсии ошибок измерения данным инструментом.

Итак, индикатором надежного измерительного инструмента является выполнение условия:

Учитывая приемлемые границы для коэффициента надежности, делаем вывод, что данный тест надежен:

2. Оценка валидности

Оценка валидности измерительного инструмента (теста) является не менее сложной и затратной задачей, что и оценка надежности.

Для проведения валидизации оценочных методики и инструментария, т. е. для оценки их эффективности, действенности, практической значимости, обычно используется независимый внешний критерий. В этом смысле валидность - мера корреляции (статистической взаимосвязи) результатов тестирования задаваемому независимому критерию: например, насколько тест позволяет отличить носителей квалификации от непрофессионалов.

Если требуется предсказывать точное значение критериального показателя у конкретных соискателей, коэффициент валидности V можно интерпретировать исходя из стандартной ошибки оценки, которая аналогична стандартной ошибке измерения, рассматриваемой в связи с надежностью . Ошибка оценки указывает допустимый предел возможной ошибки прогнозируемой величины индивидуального критериального показателя в результате недостаточной валидности измерительного инструмента (теста):

Допустим, что в процессе тестирования условные "непрофессионалы" отвечают в основном неправильно, но могут иногда угадывать критериальные показатели - правильные ответы, а условные "носители квалификации" почти не угадывают, но могут ошибаться или не "попадать" в критериальные показатели, в том числе по причине несовершенства самого теста.

Тогда равенство V=1 интерпретируется как случай "абсолютной валидности" - измерительный инструмент (тест) четко измеряет то, для чего он предназначен: все задания конгруэнтны предметам оценки. Тогда говорить об ошибке оценки бессмысленно: . Однако, таким измерительным инструментом (тестом) невозможно отличить "неошибающегося" носителя квалификации, т.е. эксперта, от "ошибающегося" - все соискатели должны быть экспертами.

Другой предельный случай V=0 интерпретируется как "абсолютная невалидность", когда ошибка оценки столь же велика, как и при случайном угадывании критериального показателя (правильного ответа) у конкретного соискателя: . То есть таким измерительным инструментом (тестом) невозможно отличить "непрофессионала" от "носителя квалификации".

Если же коэффициент валидности V=0,8, то есть близок к минимальному значению коэффициента надежности для надежного теста, то значение говорит о том, что максимальная ошибка оценки составляет 60 % от величины той, которая была бы при случайном угадывании. Это означает, что измерительный инструмент (тест) позволяет делать прогнозы о критериальном выполнении соискателя с ошибкой на 40 % меньше, чем в случае угадывания.

Таким образом, валидность измерительного инструмента (теста) всегда ограничена его надежностью. При этом часть тестового балла, приходящаяся на случайную ошибку, не коррелирует с критерием.

На практике часто применяют следующие приемлемые границы коэффициента валидности, при котором измерительный инструмент (тест) считается годным к использованию по валидности:

Измерительным инструментом с "очень хорошей" валидностью принято считать такой, для которого:

Или (если значение неизвестно):

Один из простых методов статистического измерения и достаточно грубой оценки коэффициента валидности - метод известных групп. Для исследования отбираются испытуемые, про которых известно, к какой группе по критерию они относятся - носители квалификации (высокая группа по критерию) и непрофессионалы (низкая группа по критерию). Число человек в каждой группе должно быть одинаковым. При отборе к непрофессионалам предъявляются те же требования (уровень квалификации, образование, опыт, возраст и т.п.), что и к носителям квалификации. После проведения теста производится расчет простейшей корреляции между тестом и критерием (Таблица 2):

Таблица 2. Матрица сопряженности

	Носители квалификации	Непрофессионалы
Высокие баллы по тесту (выше порога)	a	b
Низкие баллы по тесту (ниже порога)	c	d

Элементы a, b, c, d в этой таблице - число испытуемых, попавших в соответствующие группы. Выбирают равные по количеству человек группы: a+c=b+d

Очевидно, что при абсолютной валидности V=1 элементы "b" и "с" таблицы должны быть равны нулю, т. е. тест не должен давать ошибок.

Меру корреляции между крайними группами по тесту и по критерию оценивают с помощью уже применявшегося при оценке надежности Фи-коэффициента Гилфорда:

Например, при достижения пороговых баллов из 10-ти испытуемых-носителей квалификации (нерепрезентативная выборка!) 6 преодолели этот барьер. Все непрофессионалы из 10 этот барьер не преодолели. Тогда матрица сопряженности выглядит следующим образом (Таблица 3).

Таблица 3. Матрица сопряженности (пример)

	Носители квалификации	Непрофессионалы
Высокие баллы по тесту (выше порога)	a=6	b=0
Низкие баллы по тесту (ниже порога)	c=4	d=10

Учитывая приемлемые границы для коэффициента валидности, делаем вывод, что данный тест валиден:

------------------------------

1 Испытуемые "непрофессионалы" (носители иных квалификаций, не являющихся родственными или связанными с оцениваемой) подбираются для целей оценки валидности критериально-ориентированного теста статистическими методами (см. Приложение 1). При отборе к непрофессионалам предъявляются те же требования (уровень квалификации, образование, опыт, возраст и т.п.), что и к носителям квалификации.

2 https://77.rosstat.gov.ru Управление Федеральной службы государственной статистики по г. Москве и Московской области: Среднемесячная начисленная заработная плата работников организаций Москвы в январе-феврале 2023 года

3 Производственный календарь на 2023 год. Нормы рабочего времени в 2023 году.

4 Устанавливается СПК для конкретных квалификаций

Обзор документа

Определен алгоритм апробации оценочных средств для независимой оценки квалификации. В числе задач апробации - проверка оценочных средств на валидность, надежность и практичность (технологичность), отработка (технологизация) в пилотном режиме различных аспектов и процедур оценивания. Апробация возможна в двух основных организационных схемах:

- внешняя экспертная оценка - экспертная оценка оценочных средств в ходе модельного выполнения и анализа заданий независимыми экспертами;

- тестовые профессиональные экзамены - анализ и экспертная оценка оценочных средств независимыми экспертами по результатам проведения реального или модельного профессионального экзамена на группах соискателей или испытуемых, не являющихся экспертами.

Для просмотра актуального текста документа и получения полной информации о вступлении в силу, изменениях и порядке применения документа, воспользуйтесь поиском в Интернет-версии системы ГАРАНТ:

Перепечатка