Статистика шкалы. Место теории измерений в методах анализа данных

Каждое измерение над объектом производится в определенной шкале. Различные координаты одного вектора наблюдений могут быть выражены в разных шкалах. Так, в § 5.1 приведен пример вектора наблюдений (табл. 5.1), у которого первые координаты носят характер условных меток (социальная принадлежность семьи, пол и профессия главы семьи, качество жилищных условий), в то время как остальные выражаются числами (число членов семьи, количество детей, среднегодовой доход и т. п.). Свойства этих шкал сильно различаются между собой. Так, про пол главы семьи можно сказать только, что он или мужской или женский и что пол мужской отличается от пола женского; про жилищные условия - что они совпадают или отличаются и что в отдельных случаях одни жилищные условия лучше других; про расходы можно сказать, что расходы на питание одной семьи меньше, равны, больше расходов другой, можно оценить разность в расходах между семьями и подсчитать, во сколько раз расходы одной семьи отличаются от расходов другой.

Ниже описываются основные типы шкал и математические приемы унификации данных, выраженных в разных шкалах, которые обычно предшествуют применению методов многомерного анализа.

10.2.1. Номинальная шкала.

Эта шкала используется только для того, чтобы отнести индивидуум, объект в определенный класс. Если описаны заранее возможные классы и правила отнесения объекта в них, то говорят о категоризованной шкале, если нет, то о некатегоризованной. Примером категоризованной шкалы является пол. В исследовании индивидууму приписывается одно из двух значений: буква М или Ж, специальный знак или число 1 или 2. В принципе можно было бы приписывать и другие буквы и цифры, важно только, чтобы сохранялось взаимно-однозначное соответствие между кодами. Для ввода категоризованных данных удобно использовать «меню», т. е. перечень возможных категорий с их кодами. Примерами некатегоризованных номинальных переменных являются имя, фамилия, место рождения.

Другой важный источник некатегоризованных номинальных данных указан в § 5.3. Это случай, когда наблюдение задается над парой объектов, и переменная указывает только, принадлежат ли объекты, к одному классу или нет, и не указывает, к каким классам они принадлежат.

Последнее обстоятельство не надо рассматривать в качестве курьеза. Конечно, если классы заранее определены и нетрудно каждый объект отнести в определенный класс, то это следует сделать и записать, к какому классу объект принадлежит. Но иногда классы заранее не описаны, создание их полной классификации как раз и является целью работы, а вместе с тем оценить принадлежность объектов одному классу можно. Например, можно говорить о «близком», «похожем» течении болезни у двух больных, хотя все варианты течения заболевания и не описаны. Более того, выделение эмпирически близких вариантов течения болезни может служить отправным пунктом для выделения и описания всех возможных вариантов развития патологического процесса. То же относится к выделению социально-экономических групп и т. п.

Одна и та же переменная может в зависимости от цели использования выступать в разных качествах. Так, например, некатегоризованная номинальная переменная - имя программы - служит только для индивидуализации программы и, если программ немного, может быть найдена прямым просмотром списка программ. Вместе с тем если имена программ в списке каким-либо образом упорядочить (например, в алфавитно-цифровом порядке), то имя программы как поисковый образ несет в себе элементы порядковой величины. Про каждые два имени можно сказать, что они или совпадают, или одно из них предшествует другому при принятом способе упорядочивания. При изменении способа упорядочивания меняется и отношение следования.

Арифметические операции над величинами, измеренными в номинальной шкале, лишены смысла. Следовательно, и медиана, и среднее арифметическое не могут быть использованы в качестве осмысленной меры центральной тенденции. Более подходящая статистика здесь мода.

10.2.2. Порядковая (ординальная) шкала.

В дополнение к функции отнесения объектов в определенный класс эта шкала также упорядочивает классы по степени выраженности заданного свойства. Каждому классу приписывается свой собственный символ таким образом, чтобы заранее установленный порядок символов соответствовал порядку классов. Так, если классам будут приписаны числовые значения, то классы будут упорядочены согласно числовой последовательности; если буквы, то классы будут упорядочены в алфавитном порядке, а если слова, то классы будут упорядочены согласно значениям слов.

Например, в § 5.3 приводится пример порядковой шкалы для описания качества жилищных условий с четырьмя градациями (классами): «плохое», «удовлетворительное», «хорошее», «очень хорошее». Естественно, что эти классы могли бы быть занумерованы числами 1,2,3,4, или 4,3,2,1, или буквами а,б,в,г и т. п.

Другими известными примерами порядковых шкал являются: в медицине - шкала стадий гипертонической болезни по Мясникову, шкала степеней сердечной недостаточности по Стражеско - Василенко - Лангу, шкала степени выраженности коронарной недостаточности по Фогельсону; в минералогии - шкала Мооса (тальк -1, гипс - 2, кальцит - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10), по которой минералы классифицируются согласно критерию твердости; в географии - бофортова шкала ветров («штиль», «слабый ветер», «умеренный ветер» и т. д.).

Структура порядковой шкалы не разрушается при любом взаимно-однозначном преобразовании кодов, которое сохраняет порядок. Так же, как и в случае номинальной шкалы, арифметические операции не сохраняют своего смысла при преобразовании порядковых шкал, поэтому желательно ими не пользоваться. Нетрудно показать, что если опираться только на свойства шкал и не привлекать дополнительных, внешних по отношению к шкалам соображений, то единственными разрешенными статистиками при использовании порядковых шкал являются члены вариационного ряда .

10.2.3. Количественные шкалы.

Шкала, в которой можно отразить, на сколько по степени выраженности заданного свойства один из объектов отличается от другого, называется интервальной. Для того чтобы задать интервальную шкалу, надо определить объекты, соответствующие начальной точке и единице измерения. И далее при измерении ставить в соответствие каждому объекту число, показывающее, на сколько единиц измерения этот объект отличается от объекта, принятого за начальную точку. Простейшим примером интервальной шкалы является температура в градусах Цельсия, где 0° - начальная точка и 1° - единица измерения.

Структура интервальной шкалы не меняется при линейных преобразованиях вида Эффект такого преобразования заключается в сдвиге начальной точки на b единиц и умножении единицы измерения на а.

Например, путем преобразования , где - температура в можно перейти к температуре в градусах Фаренгейта.

Если начало в интервальной шкале является абсолютной нулевой точкой, то возникает возможность отразить в шкале, во сколько раз одно измерение отличается от другого. Соответствующая шкала называется шкалой отношений. Шкала отношений допускает преобразования вида . Большинство шкал, используемых в физике, являются либо интервальными (для измерения температуры, потенциальной энергии), либо шкалами отношений (для измерения времени, массы тела, заряда, расстояния).

Поскольку количественные шкалы допускают арифметические преобразования, среднее арифметическое может использоваться для описания интегральной тенденции в группировке данных.

10.2.4. Унифицированное представление разнотипных данных.

Каждому типу шкалы соответствует своя статистическая техника. Так, для переменных, измеренных в номинальной шкале, можно использовать -критерий для полиномиальных распределений, -критерий для проверки отсутствия ассоциаций в таблицах сопряженности, критерии для проверки гипотез о вероятности в биномиальном распределении. Порядковой шкале отвечают методы, основанные на использовании рангов (ранговая корреляция, непараметрические критерии для проверки гипотез типа ) и т. п.). При интервальной шкале может быть использован весь арсенал статистических методов.

Более того, разработаны статистические процедуры для случаев, когда наблюдаются векторы, одни координаты которых измерены в одной шкале, а другие - в другой. Типичным примером является обычный дисперсионный анализ (см. § 3.5), в котором факторы измеряются в номинальной шкале, а соответствующие их комбинациям отклики - в интервальной.

Тем не менее в целом ряде статистических методов, особенно в современных методах многомерного анализа, предполагается, что данные измерены в однотипных шкалах. Чтобы иметь возможность применять эти методы в общем случае разнотипных данных, были предложены различные приемы унификации данных. Познакомимся с важнейшими из них.

Сведение к двоичным переменным. В основе этого метода лежит введение вместо каждой исходной случайной переменной серии случайных величин, принимающих только два значения: 0 и 1.

Для номинальной величины имеющей k градаций вводится k таких величин что когда когда

Этот же прием иногда используют и при сведении к двоичным переменным случайной величины, измеренной в порядковой шкале. Однако в ряде случаев оказывается удобным выделять не событие , а событие Для сравнения относительных достоинств этих двух способов рассмотрим следующую модельную задачу. Пусть - равномерно распределенная на отрезке случайная величина, - малое число;

Функция моделирует, очевидно, первый способ перехода к двоичным переменным, а функция - второй. После несложных подсчетов получаем:

Основной недостаток изложенной техники - это введение большого числа новых переменных и частичная потеря информации, содержащейся в данных, как из-за квантования, так и из-за искусственного снижения уровня используемой шкалы.

Оцифровка номинальных и порядковых переменных. Этот метод прямо противоположен только что изложенному, в нем все переменные поднимаются, подтягиваются до уровня количественных путем приписывания их градациям числовых значений. Иногда приписываемые значения называют метками.

Выбор меток существенно зависит от цели, с которой производится оцифровка. Так, если изучается величина связи между двумя номинальными признаками, то метки можно выбрать из условия максимизации коэффициента корреляции между ними , . Если речь идет об отнесении наблюдений к одному из заранее определенных классов (дискриминантный анализ), то выбор меток можно связать с условием максимизации нормированного расстояния в многомерном выборочном пространстве между центрами изучаемых популяций (расстояния Махаланобиса). Иногда эту задачу упрощают и метки приписываются покоординатно так, чтобы максимизировать только нормированное расстояние между средними значениями данной координаты. Статистическое сравнение на примере одной частной задачи эффективности глобального и покоординатного подхода к оцифровке в дискриминантном анализе может быть найдено в .

Изложенные приемы оцифровки, когда метки выбираются из условия максимизации соответствующим образом подобранного функционала, укладываются в рамки упомянутого в § 1.2 экстремального подхода к формулировке основных проблем математической статистики.

В целом оцифровка качественных переменных является задачей сложной как в вычислительном, так и в чисто статистическом плане. Отдельные аспекты этой проблемы обсуждаются в работах .



В эмпирическом исследовании могут встречаться, к примеру, следующие переменные (указано их наиболее вероятное кодирование):

Pol: 1 = мужской

2 = женский

Семейное положение: 1 = холост/не замужем

2 = женат/замужем

3 = вдовец/вдова

4 = разведен(а)

Курение 1 = некурящий

2 = изредка курящий

3 = интенсивно курящий

4 = очень интенсивно курящий.

Вес. И т.д.

Рассмотрим сначала графу Пол. Мы видим, что назначение соответствия цифр 1 и 2 обоим полам абсолютно произвольно, их можно было поменять местами или обозначить другими цифрами.

Мы, конечно, не имеем в виду, что женщины стоят на ступеньку ниже мужчин, или мужчины значат меньше, чем женщины. Следовательно, отдельным числам не соответствует никакою эмпирического значения. В этом случае говорят о переменных, относящихся к номинальной шкале . В нашем примере рассматривается переменная с номинальной шкалой, имеющая две категории. Такая переменная имеет еще одно название- дихотомическая.

Такая же ситуация и с переменной Семейное положение. Здесь также соответствие между числами и категориями семейного положения не имеет никакого эмпирического значения. Но в отличии от Пола, эта переменная не является дихотомической - у нее четыре категории вместо двух.

Возможности обработки переменных, относящихся к номинальной шкале очень ограничены. Собственно говоря, можно провести только частотный анализ таких переменных. К примеру, расчет среднего значения для переменной Семейное положение, совершенно бессмысленен. Переменные, относящиеся к номинальной шкале часто используются для группировки, с помощью которых совокупная выборка разбивается по категориям этих переменных. В частичных выборках проводятся одинаковые статистические тесты, результаты которых затем сравниваются друг с другом.

В качестве следующего примера рассмотрим переменную Курение. Здесь кодовым цифрам присваивается эмпирическое значение в том порядке, в котором они расположены в списке. Переменная Курение, в итоге, сортирована в порядке значимости снизу вверх: умеренный курильщик курит больше, нежели некурящий, а сильно курящий - больше, чем умеренный курильщик и т.д. Такие переменные, для которых используются численные значения, соответствующие постепенному изменению эмпирической значимости, относятся к порядковой шкале .

Однако эмпирическая значимость этих переменных не зависит от разницы между соседними численными значениями. Так, несмотря на то, что разница между значениями кодовых чисел для некурящего и изредка курящего и изредка курящего и интенсивно курящего в обоих случаях равна единице, нельзя утверждать, что фактическое различие между некурящим и изредка курящим и между изредка курящим и интенсивно курящим одинаково. Для этого данные понятия слишком расплывчаты.

Кроме частотного анализа, переменные с порядковой шкалой допускают также вычисление определенных статистических характеристик, таких как медианы. В некоторых случаях возможно вычисление среднего значения. Если должна быть установлена связь (корреляция) с другими переменными такого рода, для этой цели можно использовать коэффициент ранговой корреляции.

Для сравнения различных выборок переменных, относящихся к порядковой шкале, могут применяться непараметрические тесты, формулы которых оперируют рангами.

Рассмотрим теперь переменную Рост. Его абсолютные значения отображают порядковое отношение между респондентами, но и разница между двумя значениями также имеет эмпирическую значимость. Например, если у Ивана рост равен 180, а у Федора - 170, а у Петра - 160, можно сказать, что Иван в сравнении с Федором выше, и еще выше Петра. Такие переменные, у которых есть разность (интервал) между двумя значениями и она имеет эмпирическую значимость, относятся к интервальной шкале . Они могут обрабатываться любыми статистическим методами без ограничений. Так, к примеру, среднее значение является полноценным статистическим показателем для характеристики таких переменных. К таким переменным относятся Вес, Размер и т.д.

Очень часто переменныеинтервальной шкалы , к которой относятся данные, могут называться шкалой отношений . Поэтому в настройках Define Variable (определение переменных) обе эти шкалы определяютсяя как Scale (Метрическая).

Теперь необходимо обосновать и определить тип шкал для наших переменных:Vozrast (Возраст); Ves (Вес); Rost (Рост); Noga (Размер буви); Pol (Пол); Volos (Цвет волос); Glaz (Цвет глаз).

Vozrast (Возраст),Ves (Вес), Rost (Рост) - интервальная шкала .

Pol (Пол), Volos (Цвет волос); Glaz (Цвет глаз).- номинальная шкала.

После выяснения этого важнейшего вопроса необходимо ввести тип шкалы в таблицу для наших переменных. Делается все очень просто: двойной клик по наименованию переменной и появляется окно Define Variable (определение переменных). В этом окне выбираем рамку Measurement (измерение) и устанавливаем кнопку в одно из трех состояний для каждой переменной.

Переменные: Vozrast (Возраст),Ves (Вес), Rost (Рост) будут иметь значение Scale.

Переменные: Pol (Пол), Volos (Цвет волос); Glaz (Цвет глаз) будут иметь значение Nominal.

Переменных относящихся к шкале Ordinal (порядковая) у нас не будет.

Со шкалой переменных мы разобрались. Теперь продолжим дальше определение переменных.

Type (тип переменных), чтобы задать тип переменной, щелкните по кнопке Туре . Откроется диалоговое окно Define Variable Type (Определение типа переменной). Примите предлагаемую настройку Numeric (Численный) и установите длину "2" для переменной Vozrast и количество десятичных разрядов "0", так как в этой переменной будут храниться только значения возраста. Подтвердите настройку кнопкой ОК и перейдите к следующему полю переменной Ves. Учитывая цифровую кодировку значений переменных, наши переменные все будут Numeric.

Labels ..(Метка переменной) - это название, позволяющая описать переменную более подробно. После клика по кнопке Labels .. появляется диалоговое окно, и в него вы можете занести до 256 символов. В метках переменных различаются прописные и строчные буквы. Они отображаются в том виде, в каком были введены. Для переменной Vozrast введите в качестве метки «данные о возрасте студента (ки)».

В этой же опции введем Метки значений (Values). Метки значений - это название, позволяющее более подробно описать возможные значения переменной. Так, например, в случае переменной Pol можно задать метку "женский" для значения "1" и метку "мужской" для значения "2". Подтвердите настройку по умолчанию. Впрочем, ввод данных также можно подтвердить клавишей .

Missing values (Пропущенные значения). В SPSS допускаются два вида пропущенных значений:

Пропущенные значения, определяемые системой (System-defined missing values): Если в матрице данных есть незаполненные численные ячейки, система SPSS самостоятельно идентифицирует их как пропущенные значения. Этот факт отображается в матрице данных с помощью запятой (,).

Пропущенные значения, задаваемые пользователем (User-defined missing values): Если в определенных случаях у переменных отсутствуют значения, например, если на вопрос не был дан ответ, ответ неизвестен, или существуют другие причины, пользователь может с помощью кнопки Missing объявить эти значения как пропущенные. Пропущенные значения можно исключить из последующих вычислений. В нашем примере пропущенным значением, определяемым пользователем мы объявим вариант ответа "0" (нет данных) для переменной Pol.

Column Format (формат столбцов). Поле Columns определяет ширину, которую будет иметь в таблице данный столбец при отображении значений. Ширину столбца также можно изменить непосредственно в окне редактора данных. Для этого поместите указатель мыши на разделитель между двумя заголовками столбцов с именами переменных. Вид указателя изменится. Появившаяся двойная стрелка указывает, что соответствующий столбец можно расширить или сузить путем перетаскивания.

Таким образом, определив все параметры переменных вы можете приступать к вводу собранных данных по своей группе.

Применение тех или других статистических методов определяет тем, к какой статистической шкале относится полученный материал. Л.С. Стивенс предложил различать четыре статистические шкалы:

1) шкалу наименований (или номинальную);

2) шкалу порядка;

3) шкалу интервалов;

4) шкалу отношений.

Зная типические особенности каждой шкалы, нетрудно установить, к какой из них следует отнести подлежащий статистической обработке материал.

Шкала наименований. К этой шкале относятся материалы, в которых изучаемые объекты отличаются друг от друга по их качеству.

При обработке таких материалов нет никакой нужды в том, чтобы располагать эти объекты в каком-то порядке, исходя из их характеристик. В принципе, объекты можно располагать в любой последовательности.

Вот пример: изучается состав международной научной конференции. Среди участников есть французы, англичане, датчане, немцы и русские. Имеет ли значение порядок, в котором будут расположены участники при изучении состава конференции? Можно расположить их по алфавиту, это удобно, но ясно, что никакого принципиального значения в этом расположении нет. При переводе этих материалов на другой язык (а значит и на другой алфавит) этот порядок будет нарушен. Можно расположить национальные группы по числу участников. Но при сравнении этого материала с материалом другой конференции найдем, что вряд ли этот порядок окажется таким же. Отнесенные к шкале наименований объекты можно размещать в любой последовательности в зависимости от цели исследования.

При статистической обработке такого рода материалов нужно считаться с тем, каким числом единиц представлен каждый объект. Имеются весьма эффективные статистические методы, позволяющие по этим числовым данным прийти к научно значимым выводам (например, метод хи-квадрат).

Шкала порядка. Если в шкале наименований порядок следования изучаемых объектов практически не играет никакой роли, то в шкале порядка – это видно из ее названия – именно на эту последовательность переключается все внимание.

К этой шкале в статистике относят такие исследовательские материалы, в которых рассмотрению подлежат объекты, принадлежащие к одному или нескольким классам, но отличающиеся при их сравнении одного с другим «больше-меньше», «выше-ниже» и т.п.

Проще всего показать типические особенности шкалы порядка, если обратиться к публикуемым итогам любых спортивных соревнований. В этих итогах последовательно перечисляются участники, занявшие соответственно первое, второе, третье и следующие по порядку места. Но в этой информации об итогах соревнований нередко отсутствуют или отходят на второй план сведения о фактических достижениях спортсменов, а на первый план ставятся их порядковые места.


Допустим, шахматист Д. занял в соревнованиях первое место. Каковы же его достижения? Оказывается, он набрал 12 очков. Шахматист Е. занял второе место. Его достижение – 10 очков. Третье место занял Ж. с восемью очками, четвертое – З. с шестью очками и т.д. В сообщениях о соревновании разница в достижениях при размещении шахматистов отходит на второй план, а на первом остаются их порядковые места. В том, что именно порядковому месту отводится главное значение, есть свой смысл. В самом деле, в нашем примере З. набрал шесть, а Д., 12 очков. Это абсолютные их достижения – выигранные ими пари. Если попытаться истолковать эту разницу в достижениях чисто арифметически, то пришлось бы признать, что З. играет вдвое хуже, чем Д. этим нельзя согласиться. Обстоятельства соревнований не всегда просты, как не всегда просто и то, как провел их тот или другой участник. Поэтому, воздерживаясь от арифметической абсолютизации, ограничиваются тем, что устанавливают: шахматист З. отстает от занявшего первое место Д. на три порядковых места.

Шкала интервалов. К ней относятся такие материалы, в которых дана количественная оценка изучаемого объекта в фиксированных единицах.

Вернемся к опытам, которые провел психолог с Сашей. В опытах учитывалось, сколько точек могут поставить, работая с максимально доступной им скоростью, сам Саша и каждый из его сверстников. Оценочными единицами в опытах служило число точек. Подсчитав их, исследовал получил то абсолютное число точек, которое оказалось возможным поставить за отведенное время каждому участнику опытов. Главная трудность при отнесении материалов к шкале интервалов состоит в том, нужно располагать такой единицей, которая была бы при всех повторных измерениях тождественной самой себе, т.е. одинаковой и неизменной. В примере с шахматистами (шкала порядка) такой единицы не существует.

В самом деле, учитывается число партий, выигранных каждым участником соревнований. Но ясно, что партии далеко не одинаковы, можно, что участник соревнований, занявший четвертое – он выиграл шесть партий, – выиграл труднейшую партию у самого лидера! Но в окончательных итогах как бы принимается, что все выигрышные партии одинаковы. В действительности же этой нет. Поэтому при работе с подобными материалами уместно их оценивать в соответствии с требованиями шкалы порядка, а не шкалы интервалов. Материалы, соответствующие шкале интервалов, должны иметь единицу измерения.

Шкала отношений. К этой шкале относятся материалы, учитываются не только число фиксированных единиц, как в шкале интервалов, но и отношения полученных суммарных итогов между собой. Чтобы работать с такими отношениями, нужно иметь некую абсолютную точку, от которой и ведется отсчет. При изучении психологических субъектов эта шкала практически неприменима.

Переменные различаются между собой тем, «насколько хорошо» они могут быть измерены или, другими словами, как много измеряемой информации обеспечивает шкала их измерений. Известно, что в каждом измерении присутствует некоторая ошибка, определяющая границы «количества информации», которое можно получить в данном измерении. Тип шкалы, в которой проведено измерение, является еще одним фактором, определяющим количество информации, содержащейся в переменной. Различают следующие типы шкал: номинальная, порядковая (ординальная), интервальная относительная (шкала отношения). Соответственно мы имеем четыре типа переменных.

Шкала наименований (номинальная шкала) фактически не связана с понятием «величина» и используется только для качественной классификации с целью отличить один объект от другого: номер животного в группе или присвоенный ему уникальный шифр и т.п. Данные переменные могут быть измерены только как принадлежность к некоторым, существенно различным классам; при этом вы не сможете упорядочить эти классы. Например, индивидуумы принадлежат к разным национальностям. Типичные примеры номинальных переменных - пол, национальность, цвет, город и т.д. Часто номинальные переменные называют категориальными. Категориальные переменные часто представляют в виде частот наблюдений, попавших в определенные категории и классы. Если классов всего два, то переменная будет называться дихотомической. Например, при исследовании выборки было установлено, что к первой категории Пол женский отнесено 30 испытуемых с повышенным АД, а ко второй категории Пол мужской отнесено 25 испытуемых с повышенным АД. Возможности обработки переменных, относящихся к номинальной шкале, очень ограничены. Собственно говоря, можно провести только частотный анализ таких переменных. К примеру, расчет среднего значения для переменной Пол , совершенно бессмыслен.

Порядковая шкала (шкала рангов) – шкала, относительно значений которой нельзя говорить ни о том, во сколько раз измеряемая величина больше (меньше) другой, ни на сколько она больше (меньше). Такая шкала только упорядочивает объекты, приписывая им те или иные баллы (результатом измерений является нестрогое упорядочение объектов). При этом указывается, какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной. Однако они не позволяют сказать «на сколько больше» или «на сколько меньше». Порядковые переменные иногда также называют ординальными. Номера домов на улице измерены в порядковой шкале. Типичный пример порядковой переменной - социоэкономический статус семьи. Для размера одежды используют следующую порядковую шкалу: S, M, L, XL,XXL, XXXL, XXXXL. Шкала твердости минералов Мооса также является порядковой. Аналогично построены шкалы силы ветра Бофорта и землетрясений Рихтера. Шкалы порядка широко используются в педагогике, психологии, медицине и других науках, не столь точных, как, скажем, физика и химия. В частности, повсеместно распространенная шкала школьных отметок в баллах (пятибалльная, двенадцати балльная и т.д.) может быть отнесена к шкале порядка. В медико-биологических исследованиях шкалы порядка встречаются сплошь и рядом и подчас весьма искусно замаскированы. Например, для анализа свертывания крови используется тромботест: 0 – отсутствие свертывания в течение времени теста, 1 –«слабые нити», 2 – желеподобный сгусток, 3 – сгусток, легко деформируемый, 4 – плотный, упругий, 5 – плотный, занимающий весь объем и т.п. Понятно, что интервалы между этими плохо отличимыми и очень субъективными позициями произвольны. В этом случае сравнивать средние значения в двух выборках не имеет смысла!! Масса подобных шкал все еще встречается в экспериментальной токсикологии, экспериментальной хирургии, экспериментальной морфологии. Порядковыми шкалами в медицине являются шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско-Василенко-Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону), и т.д. Все эти шкалы построены по схеме: заболевание не обнаружено; первая стадия заболевания; вторая стадия; третья стадия. Каждая стадия имеет свойственную только ей медицинскую характеристику. При описании групп инвалидности числа используются в противоположном порядке: самая тяжелая - первая группа инвалидности, затем - вторая, самая легкая - третья. Кроме частотного анализа, переменные с порядковой шкалой допускают также вычисление определенных статистических характеристик, таких как медианы. В некоторых случаях возможно вычисление среднего значения. Для сравнения различных выборок переменных, относящихся к порядковой шкале, могут применяться непараметрические тесты, формулы которых оперируют рангами.

Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выразить и сравнить различия между ними. Например, температура, измеренная в градусах Фаренгейта или Цельсия, образует интервальную шкалу. Шкала Цельсия, как известно, была установлена следующим образом: за ноль была принята точка замерзания воды, за 100 градусов – точка ее кипения, и, соответственно, интервал температур между замерзанием и кипением воды поделен на 100 равных частей. Здесь утверждение, что температура 40°С в два раза больше, чем 20°С, будет неверным. В шкале интервалов сохраняется отношение длин интервалов. Вы можете не только сказать, что температура 40°С выше, чем температура 30°С, но и что увеличение температуры с 20°С до 40 градусов вдвое больше увеличения температуры от 30 до 40 градусов. Такие переменные могут обрабатываться любыми статистическими методами без ограничений. Так, к примеру, среднее значение является полноценным статистическим показателем для характеристики таких переменных.

Шкалами отношений измеряются почти все физические величины – время, линейные размеры, площади, объемы, сила тока, мощность и т.д. Это самая мощная шкала. К этой шкале относятся все интервальные переменные, которые имеют абсолютную нулевую точку. В медико-биологических исследованиях шкала отношений будет иметь место, например, когда измеряется время появления того или иного признака после начало воздействия (порог времени, в секундах, минутах), интенсивность воздействия до появления какого-либо признака (порог силы воздействия в вольтах, рентгенах и т.п.). Естественно, к шкале отношений относятся все данные в биохимических и электрофизиологических исследованиях (концентрации веществ, вольтажи, временные показатели электрокардиограммы и т.п.). Сюда же, например, относятся и количество правильно или неправильно выполненных «заданий» в различных тестах по изучению высшей нервной деятельности у животных. Например, температура по Кельвину образует шкалу отношения, и при этом можно утверждать, что температура 200 градусов не только выше, чем 100 градусов, но при этом она вдвое выше. Интервальные шкалы (например, шкала Цельсия) не обладают данным свойством шкалы отношения. Заметим, что в большинстве статистических процедур не делается различия между свойствами интервальных шкал и шкал отношения. Для двух последних шкал возможно вычисление таких числовых показателей, как среднее значение, стандартное отклонение.

Рассмотрим еще несколько конкретных примера переменных в эмпирическом исследовании. Пусть они кодируются следующим образом:

Таблица 1.1

Типы шкал

Мы видим, что кодирование переменной пол с помощью цифр 1 и 2 абсолютно произвольно, их можно было поменять местами или обозначить другими цифрами. Это не значит, что женщины стоят на ступеньку ниже мужчин. В этом случае говорят о переменных, относящихся к номинальной шкале. Такая же ситуация и с переменной семейное положение . Здесь также соответствие между числами и категориями семейного положения не имеет никакого эмпирического значения. Но в отличии от пола, эта переменная не является дихотомической - у нее четыре кодовых цифры вместо двух.

Переменная курение отсортирована в порядке значимости снизу вверх: умеренный курильщик курит больше, нежели некурящий, а сильно курящий - больше, чем умеренный курильщик и т.д. Эти переменные относятся к порядковой шкале. Однако эмпирическая значимость этих переменных не зависит от разницы между соседними численными значениями. Так, несмотря на то, что разница между значениями кодовых чисел для некурящего, редко курящего и интенсивно курящего в обоих случаях равна единице, нельзя утверждать, что фактическое различие между некурящим, изредка курящим и интенсивно курящим одинаково. Для этого данные понятия слишком расплывчаты. Классическими примерами переменных с порядковой шкалой являются также переменные, полученные в результате объединения величин в классы, такие, как месячный доход в нашем примере.

Рассмотрим теперь коэффициент интеллекта (IQ). И его абсолютные значения отображают порядковое отношение между респондентами, и разница между двумя значениями также имеет эмпирическую значимость. Например, если у Федора IQ равен 80, у Петра – 120 и у Ивана – 160, можно сказать, что Петр в сравнении с Федором настолько же интеллектуальнее насколько Иван в сравнении с Петром (а именно – на 40 единиц IQ). Однако, основываясь только на том, что значение IQ у Федора в два раза меньше, чем у Ивана, нельзя сделать вывод, что Иван вдвое умнее Федора. Такие переменные относятся к интервальной шкале.

Наивысшей статистической шкалой, на которой эмпирическую значимость приобретает и отношение двух значений, является шкала отношений. Примером переменной, относящейся к такой шкале, является возраст: если Андрею 30 лет, а Алексею 60, можно сказать, что Алексей вдвое старше Андрея. Шкалой отношений является температурная шкала Кельвина с абсолютным нулём температур.

На практике, в том числе при обработке данных в пакете Statistica, различие между переменными, относящимися к интервальной шкале и шкале отношений обычно несущественно.

От более богатой или мощной шкалы всегда можно перейти к более бедной. Так, непрерывные переменные можно категоризировать. Например, непрерывную случайную величину (СВ) Рост можно из шкалы отношений перевести в порядковую шкалу с градациями: низкий, средний, высокий.

Допустим, весь диапазон изменения интервальной переменной был разделен на область высоких, средних и низких значений и каждое наблюдение было отнесено к одной из трех категорий. Это означает, что явление, которое вначале описывалось в интервальной шкале, может быть описано также и в шкале наименований, а, следовательно, можно использовать для анализа этого явления все те статистические методы, которые требуют использования переменных в шкале наименований. Но надо учитывать, что при переходе к шкале наименований от шкал более высокого порядка, мы теряем часть информации о наблюдениях. Наблюдения, которые отличались друг от друга при описании их в интервальной шкале, могут восприниматься как одинаковые при описании их в шкале наименований. Поэтому рекомендуется применять шкалу наименований лишь тогда, когда нет возможности использовать шкалу более высокого порядка.

Применение тех или других статистических методов определяется тем, к какой статистической шкале относится полученный материал. С. Стивенс предложил различать четыре статистические шкалы:

1. шкалу наименований (или номинальную);

2. шкалу порядка;

3. шкалу интервалов;

4. шкалу отношений.

Зная типические особенности каждой шкалы, нетрудно установить, к какой из них следует отнести подлежащий статистической обработ-ке материал.

Шкала наименований. К этой шкале относятся материалы, в ко-торых изучаемые объекты отличаются друг от друга по их качеству.

При обработке таких материалов нет никакой нужды в том, чтобы располагать эти объекты в каком-то порядке, исходя из их характери-стик. В принципе, объекты можно располагать в любой последователь-ности.

Вот пример: изучается состав международной научной конференции. Среди участников есть французы, англичане, датчане, немцы и русские. Имеет ли значение порядок, в котором будут расположены участники при изучении состава конференции? Можно расположить их по алфавиту, это удобно, но ясно, что никакого принципиального значения в этом распо-ложении нет. При переводе этих материалов на другой язык (а значит и на другой алфавит) этот порядок будет нарушен. Можно расположить национальные группы по числу участников. Но при сравнении этого ма-териала с материалом другой конференции найдем, что вряд ли этот порядок окажется таким же. Отнесенные к шкале наименований объек-ты можно размещать в любой последовательности в зависимости от цели исследования.

При статистической обработке такого рода материалов нужно счи-таться с тем, каким числом единиц представлен каждый объект. Име-ются весьма эффективные статистические методы, позволяющие по этим числовым данным прийти к научно значимым выводам (напри-мер, метод хи-квадрат).

Шкала порядка. Если в шкале наименований порядок следования изучаемых объектов практически не играет никакой роли, то в шкале порядка -- это видно из ее названия -- именно на эту последователь-ность переключается все внимание.

К этой шкале в статистике относят такие исследовательские ма-териалы, в которых рассмотрению подлежат объекты, принадлежа-щие к одному или нескольким классам, но отличающиеся при их сравне-нии одного с другим -- «больше-меньше», «выше-ниже»- и т. п.

Проще всего показать типические особенности шкалы порядка, если об-ратиться к публикуемым итогам любых спортивных соревнований. В этих итогах последовательно перечисляются участники, занявшие соответ-ственно первое, второе, третье и следующие по порядку места. Но в этой информации об итогах соревнований нередко отсутствуют или отходят на второй план сведения о фактических достижениях спортсменов, а на первый план ставятся их порядковые места.

Допустим, шахматист Д. занял в соревнованиях первое место. Како-вы же его достижения? Оказывается, он набрал 12 очков. Шахматист Е. занял второе место. Его достижение -- 10 очков. Третье место занял Ж. с восемью очками, четвертое -- 3. с шестью очками и т. д. В сообщениях о соревновании разница в достижениях при размещении шахматистов отходит на второй план, а на первом остаются их порядковые места. В том, что именно порядковому месту отводится главное значение, есть свой смысл. В самом деле, в нашем примере З. набрал шесть, а Д. -- 12 очков. Это абсолютные их достижения -- выигранные ими партии. Если попытаться истолковать эту разницу в достижениях чисто арифме-тически, то пришлось бы признать, что 3. играет вдвое хуже, чем Д. Но с этим нельзя согласиться. Обстоятельства соревнований не всегда про-сты, как не всегда просто и то, как провел их тот или другой участник. Поэтому, воздерживаясь от арифметической абсолютизации, ограничи-ваются тем, что устанавливают: шахматист 3. отстает от занявшего пер-вое место Д. на три порядковых места.

Шкала интервалов. К ней относятся такие материалы, в которых дана количественная оценка изучаемого объекта в фиксированных еди-ницах.

Вернемся к опытам, которые провел психолог с Сашей. В опытах учиты-валось, сколько точек могут поставить, работая с максимально доступ-ной им скоростью, сам Саша и каждый из его сверстников. Оценочными единицами в опытах служило число точек. Подсчитав их, исследователь получил то абсолютное число точек, которое оказалось возможным по-ставить за отведенное время каждому участнику опытов. Главная труд-ность при отнесении материалов к шкале интервалов состоит в том, что нужно располагать такой единицей, которая была бы при всех повтор-ных измерениях тождественной самой себе, т. е. одинаковой и неизмен-ной. В примере с шахматистами (шкала порядка) такой единицы вообще не существует.

В самом деле, учитывается число партий, выигранных каждым участ-ником соревнований. Но ясно, что партии далеко не одинаковы. Воз-можно, что участник соревнований, занявший четвертое место -- он выиграл шесть партий, -- выиграл труднейшую партию у самого лидера! Но в окончательных итогах как бы принимается, что все выигранные партии одинаковы. В действительности же этого нет. Поэтому при рабо-те с подобными материалами уместно их оценивать в соответствии с требованиями шкалы порядка, а не шкалы интервалов. Материалы, соответствующие шкале интервалов, должны иметь единицу измерения.

Шкала отношений. К этой шкале относятся материалы, в которых учитываются не только число фиксированных единиц, как в шкале ин-тервалов, но и отношения полученных суммарных итогов между собой. Чтобы работать с такими отношениями, нужно иметь некую абсолют-ную точку, от которой и ведется отсчет. При изучении психологиче-ских объектов эта шкала практически неприменима.

Загрузка...
Top