Задачи статистики в пакете SPSS
История SPSS
1.1 История SPSSДва студента Норман Най (Norman Nie) и Дейл Вент (Dale Bent), специализировавшиеся в области политологии в 1965 году пытались отыскать в Стенфордском университете Сан-Франциско компьютерную программу, подходящую для анализа статистической информации. Вскоре они разочаровались в своих попытках, так как имеющиеся программы оказывались более или менее непригодными, неудачно построенными или не обеспечивали наглядность представления обработанной информации. К тому же принципы пользования менялись от программы к программе.
Так, не долго думая, они решили разработать собственную программу, со своей концепцией и единым синтаксисом. В их распоряжении тогда был язык программирования FORTRAN и вычислительная машина типа IBM 7090. Уже через год была разработана первая версия программы, которая, еще через год, в 1967, могла работать на IBM 360. К этому времени к группе разработчиков присоединился Хэдлай Халл (Hadlai Hull).
Как известно из истории развития информатики, программы тогда представляли собой пакеты перфокарт. Как раз на это указывает и исходное название программы, которое авторы дали своему продукту: SPSS — это аббревиатура от Statistical Package for the Social Science.
В 1970 году работа над программой была продолжена в Чикагском университете, а Норман Най основал соответствующую фирму — к тому моменту уже было произведено шестьдесят инсталляций. Первое руководство для пользователей описывало одиннадцать различных процедур.
Спустя пять лет SPSS была уже инсталлирована шестьсот раз, причём под разными операционными системами. С самого начала версиям программы присваивали соответствующие порядковые номера. В 1975 была разработана уже шестая версия (SPSS6). До 1981 последовали версии 7, 8 и 9.
Командный язык (синтаксис) SPSS в то время был ещё не так хорошо развит, как сейчас, и естественно ориентирован на перфокарты. Поэтому так называемые управляющие карты SPSS состояли из идентификационного поля (столбцы 1-15) и из поля параметров (столбцы 16-80).
В 1983 году командный язык SPSS был полностью переработан, синтаксис стал значительно удобней. Что бы отметить этот факт, программа была переименована в SPSSX, где буква X должна была служить как номером версии в римскими числами, так и сокращением для extended (расширенный).
Так как применение перфокарт к этому моменту уже стало историей, то программа SPSS и информация, подлежащая обработке, сохранялись в отдельных файлах на винчестерах больших ЭВМ, которые тогда использовались повсеместно. Год от года постоянно увеличивалось и количество процедур.
С появлением персональных компьютеров была разработана также и PC-версия SPSS, с 1983 года появилась PC-версия SPSS\PC+. рассчитанная на MS-DOS. Позже, с момента основания в 1984 году европейского торгового представительства в Горинхеме в Нидерландах, SPSS стал широко применяться и в Европе. В настоящее время это самое распространённое программное обеспечение для статистического анализа во всём мире.
Для того, чтобы отразить возможность использования программы во всех областях, имеющих отношение к статистическому анализу, буква X вновь была удалена из названия марки, а исходной аббревиатуре присвоено новое значение: Superior Performance Software System (система программного обеспечения высшей производительности).
Если PC версия SPSS/PC+ была чуть усовершенствованной версией для больших ЭВМ, то SPSS для операционной системой Windows (SPSS for Windows) стала большим шагом вперёд. Во первых эта версия SPSS обладает всеми возможностями версии для больших ЭВМ, во вторых, за некоторыми немногочисленными исключениями, программой можно пользоваться без особых знаний в области прикладного программирования. Вызов необходимых процедур статистического анализа происходит при помощи стандартной техники, применяемой в Windows, то есть с помощью мыши и соответствующих диалоговых окон.
Первая версия SPSS для Windows имела порядковый номер 5. Затем последовали версии 6.0 и 6.1 с некоторыми нововведениями в статистической и графической областях; версия 6.1 была первой статистической программой для Windows, которая использовала 32 битную архитектуру Windows 3.1. Это можно было заметить по более высокой скорости выполнения вычислений. Усовершенствования коснулись также и интерфейса пользователя. В конце концов, была выпущена версия 6.1.3, которая уже могла работать и под Windows 95 и под NT.
В начале 1996 года появилась 7-я версия SPSS, сначала как версия 7.0, а затем 7.5. Наряду с расширением возможностей в сфере статистики, разница между этими двумя версиями заключалась в том, что в версии 7.5 как меню, так и интерфейс программы были выполнены уже не только на английском, но и на других наиболее распространенных языках.
Самым весомым отличием версии 7 по отношению к предыдущим версиям, был абсолютно новый подход к выводу информации на экран. Так, во первых, получил новые очертания так называемый Viewer (Окно просмотра), и, во вторых, более приятный внешний вид приобрели таблицы результатов расчётов (мобильные таблицы). Появившаяся технология мобильных таблиц позволяет перестраивать полученные таблицы различным способами.
Если предшественница данной версии — версия 6.1.3 могла работать как под старой Windows 3.1 так и под новой Windows 95 (NT), то SPSS версии 7 могла работать только при наличии Windows 95 (NT).
За версией 7.5 последовала версия 8.0, прогресс которой заключался в усовершенствовании графической оболочки. Возможность составления интерактивных графиков предоставляет рад преимуществ по сравнению с традиционными графиками, которые являются стандартом для многих других пакетов.
Версия 9.0 включала в себя несколько новых статистических методов, в т.ч. многозначную логистическую регрессию, и несколько новых графических возможностей, расширяющих область интерактивных графиков.
Версия, описываемая в этой книге имеет порядковый номер 10.0. Ниже изложены важнейшие нововведения, относящиеся к этой версии.
SPSS имеет два самых
1.2 Новое в версии 10.0Версия 10. 0 SPSS имеет два самых существенных отличия по сравнению с предыдущей версией 9.0. Они будут рассмотрены в этой книге:
Было изменено строение Редактора данных. Благодаря закладкам Данные и Переменные облегчён переход между областями ввода данных и описания переменных. Таким образом, форма описания переменных была упрощена и соответствует теперь общепринятым стандартам, применяемым в сфере табличных расчётов.
В области статистики был добавлен регрессионный анализ с категориальной целевой переменной.
Модули SPSS
1.3 Модули SPSSОснову программы SPSS составляет SPSS Base (базовый модуль), предоставляющий разнообразные возможности доступа к данным и управления данными. Он содержит методы анализа, которые применяются чаще всего.
Традиционно вместе с SPSS Base (базовым модулем) поставляются ещё два модуля: Advanced Models (продвинутые модели) и Regression Models (регрессионные модели). Эти три модуля охватывают тот спектр методов анализа, который входил в раннюю версию программы для больших ЭВМ.
В приложении А Вы сможете найти информацию о том, какие методы анализа относятся к тому или иному модулю. Пользователь, который приобрёл все эти три модуля, может не обращать внимания на данное приложение.
Наряду с тремя упомянутыми, существует еще ряд специальных дополнительных модулей и самостоятельных программ, число которых постоянно растёт, так что пользователям следует постоянно знакомиться с информацией о нововведениях в SPSS.
В этой книге описываются базисный модуль, а также модули Regression Models, Advanced Models и Tables. Назначением последнего модуля является составление презентационных таблиц. В книге не рассматриваются логлинейные модели, анализ выживания и многомерное шкалирование, а также процедура составления презентаций.
SPSS Base (Базовый модуль)
SPSS Base входит в базовую поставку. Он включает все процедуры ввода, отбора и корректировки данных, а также большинство предлагаемых в SPSS статистических методов. Наряду с простыми методиками статистического анализа, такими как частотный анализ, расчет статистических характеристик, таблиц сопряженности, корреляций, построения графиков, этот модуль включает t-тесты и большое количество других непараметрических тестов, а также усложненные методы, такие как многомерный линейный регрессионный анализ, дискриминантный анализ, факторный анализ, кластерный анализ, дисперсионный анализ, анализ пригодности (анализ надежности) и многомерное шкалирование.
Regression Models
Данный модуль включает в себя различные методы регрессионного анализа, такие как: бинарная и мультиномиальная логистическая регрессия, нелинейная регрессия и пробит-анализ.
Advanced Models
В этот модуль входят различные методы дисперсионного анализа (многомерный, с учетом повторных измерений), общая линейная модель, анализ выживания, включая метод Каплана-Майера и регрессию Кокса, логлинейные, а также логитлоглинсйные модели.
Tables
Модуль Tables служит для создания презентационных таблиц. Здесь предоставляются более широкие возможности по сравнению со упрощенными частотными таблицами и таблицами сопряженности, которые строятся в SPSS Base (базовом модуле).
Ниже в алфавитном порядке приведен список остальных модулей и программ предлагаемых для расширения SPSS.
Amos
Amos (Analysis of moment structures — анализ моментных структур) включает методы анализа с помощью линейных структурных уравнений. Целью программы является проверка сложных теоретических связей между различными признаками случайного процесса и их описание при помощи подходящих коэффициентов. Проверка проводится в форме причинного анализа и анализа траектории. При этом пользователь в графическом виде должен задать теоретическую модель, в которую вместе с данными непосредственных наблюдений могут быть включены и так называемые скрытые элементы. Программа Amos включена в состав модулей расширения SPSS, как преемник L1SREL (Linear Structural RELationships — линейные структурные взаимоотношения).
AnswerTree
AnswerTree (дерево решений) включает четыре различных метода автоматизированного деления данных на отдельные группы (сегменты). Деление проводится таким образом, что частотные распределения целевой (зависимой) переменной в различных сегментах значимо различаются. Типичным примером применения данною метода является создание характерных профилей покупателей при исследовании потребительского рынка. AnswerTree является преемницей программы СНАШ (Chi squared interaction Detector — детектор взаимодействий на основе хи-квадрата).
Categories
Модуль содержит различные методы для анализа категориальных данных, а именно: анализ соответствий и три различных метода оптимального шкалирования (анализ однородности, нелинейный анализ главных компонент, нелинейный канонический корреляционный анализ).
Clementine
Clementine — это программа для data mining (добычи знаний), в которой пользователю предлагаются многочисленные подходы к построению моделей, к примеру, нейронные сети, деревья решений, различные виды регрессионного анализа. Clementine представляет собой "верстак" аналитика, при помощи которого можно визуализировать процесс моделирования, перепроверять модели, сравнивать их между собой. Для удобства пользования программой имеется вспомогательная среда внедрения результатов.
Conjoint (совместный анализ)
Совместный анализ применяется при исследовании рынка для изучения потребительских свойств продуктов на предмет их привлекательности. При этом опрашиваемые респонденты по своему усмотрению должны расположить предлагаемые наборы потребительских свойств продуктов в порядке предпочтения, на основании которого можно затем вывести так называемые детализированные показатели полезности отдельных категорий каждого потребительских свойства.
Data Entry (ввод данных)
Программа Data Entry предназначена для быстрого составления вопросников, а также ввода и чистки данных. Заданные на этапе создания вопросника вопросы и категории ответов потом используются в качестве меток переменных и значений.
Exact Tests (Точные тесты)
Данный модуль служит для вычисления точного значения вероятности ошибки (величины р) в условиях ограниченности данных при проверке по критерию х2 (Chi-Quadrat-Test) и при непараметрических тестах. В случае необходимости для этого также может быть применён метод Монте-Карло (Monte-Carlo).
GOLDMineR
Программа содержит специальную регрессионную модель для регрессионного анализа упорядоченных зависимых и независимых переменных.
SamplePower
При помощи SamplePower может быть определён оптимальный размер выборки для большинства методов статистического анализа, реализованных в SPSS.
SPSS Missing Value Analysis
Данный модуль служит для анализа и восстановления закономерностей, которым подчиняются пропущенные значения. Он предоставляет различные варианты замены недостающих значений.
Trends
Модуль Trends содержит различные методы для анализа временных рядов, такие как: модели ARIMA, экспоненциальное сглаживание, сезонная декомпозиция и спектральный анализ.
Модули Amos, AnswerTree, Categories, Conjoint, LISREL и Trends описаны в книге этих же авторов: "SPSS. Методы исследования рынка и мнений".
Программа SPSS
Программа SPSSSPSS является самой распространённой программой для обработки статистической информации. В настоящем разделе описан путь этой программы к такому выдающемуся успеху. Затем приведен обзор отдельных модулей программы.
Задачи статистики в пакете SPSS
Обнаружение ошибок ввода
10.1 Обнаружение ошибок вводаСамый точный метод проверки данных (то есть значений всех переменных) на ошибки при вводе состоит в том, чтобы командами меню Analyze (Анализ) Reports (Отчеты) Case summaries... (Сводка наблюдений) вывести их список (см. раздел 4.6) и сравнить каждое значение с оригиналом (например, анкетой). Однако этот способ требует очень много времени, особенно при большом объеме данных. Поэтому решиться на проведение такой скучной и утомительной работы можно только в редких случаях — как правило, когда объем данных ограничен. В общем случае рекомендуется проводить частотный анализ значений переменных; для этого служат команды меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты) (см. главу 6). Результаты этого анализа при внимательном рассмотрении позволяют выявить недопустимые значения. Например, если переменная содержит данные роста в сантиметрах, то значение 384, обнаруживаемое при частотном анализе, явно свидетельствует о том, что в данных имеется ошибка. После проведения частотного анализа это значение можно отыскать в файле данных и исправить. Следовательно, при изучении частотных таблиц особое внимание надо обращать на максимальное и минимальное значения. Однако если вместо возраста 65 лет было введено, например, значение 56, то при помощи частотной таблицы эту ошибку обнаружить невозможно. Часто имеется также возможность провести смысловой анализ данных путем создания таблиц сопряженности (см. главу 11). Например, если данные взяты из анкеты, в которой имелся вопрос о семейном положении (холост/не замужем, женат/замужем, вдовец/вдова, разведен(а)), то, построив таблицу сопряженности для этого вопроса и вопроса типа: «Если у вас есть семья, то приемлемо ли для вас проводить отпуск раздельно?», легко можно обнаружить, ответили ли на него только женатые/замужние опрашиваемые.
Обладая некоторыми практическими навыками и фантазией, с помощью описанных и им подобных способов можно выявить большое количество ошибок ввода. Все такие ошибки обязательно должны быть исправлены. Даже если наблюдений несколько тысяч, то даже одно-единственное противоречивое значение наносит вред вашему исследованию: создается впечатление, что работа по сбору о подготовке информации выполнена поверхностно.
Проверка закона распределения
10.2 Проверка закона распределенияВ первую очередь представляет интерес закон распределения, особенно для переменных, относящихся к интервальной шкале и шкале отношений. Чаще всего при этом ставится вопрос, подчиняются ли значения переменных нормальному распределению. Именно от этого практически всегда зависит выбор соответствующих аналитических тестов.
В этом отношении самым распространенным и рекомендуемым является графическое изображение распределения данных в форме гистограммы (см. главы 6 и 22). Объективная проверка на нормальное распределение проводится с помощью подходящего статистического критерия (теста Колмогорова-Смирнова). Эта операция представлена в разделе 14.5.
Вычисление характеристик
10.3 Вычисление характеристикSPSS предоставляет различные возможности для вычисления статистических характеристик, помогающих оценить положение вершины и разброс распределения. К таким характерам относятся, например, среднее значение, медиана, стандартное отклонение и т.д. Эти возможности перечислены в обзоре в начале главы 9.
В рамках исследования данных можно определить другие характеристики, называемые робастными оценками. Этот метод исследования данных также предоставляет возможности для обнаружения ошибок ввода (например, путем выявления выбросов) и проверки формы распределения.
Анализ без группирующей переменной
10.4.1 Анализ без группирующей переменнойПроведем анализ возраста пациентов.
|
|
Cases (Случаи) | ||||
|
Valid (Допустимые) |
Missing (Отсутствующие) |
Total (Всего) | |||
|
N |
Percent |
N Percent |
N |
Percent | |
|
Возраст |
174 |
100,0% |
0 ,0% |
174 |
100,0% |
|
|
Statistic |
Std. Error | ||
|
Возраст |
Mean (Среднее) |
|
62,11 |
,88 |
|
95% Confidence Interval for Mean (95% доверительный интервал среднего) |
Lower Bound (Нижняя граница) Upper Bound (Верхняя граница) |
|
60,38 63,84 | |
|
5% Trimmed Mean (5% усеченное среднее) |
|
62,25 |
| |
|
Median (Медиана) |
|
63,00 |
| |
|
Variance (Дисперсия) |
|
133,358 |
| |
|
Std. Deviation (Стандартное отклонение) |
|
11,55 |
| |
|
Minimum (Минимум) |
|
36 |
| |
|
Maximum (Максимум) |
|
87 |
| |
|
Range (Размах) |
|
51 |
| |
|
Interquartile Range (Межквартильная широта) |
|
17,25 |
| |
|
Skewness (Асимметрия) |
|
-,143 |
,184 | |
|
Kurtosis (Коэффициент вариации) |
|
-,635 |
,366 | |
|
Frequency |
Stem & |
Leaf |
|
6,00 |
3 . |
677999 |
|
7,00 |
4 . |
0223333 |
|
14,00 |
4 . |
66677788888999 |
|
23,00 |
5 . |
01111111122223333333444 |
|
20,00 |
5 . |
55667777778888888899 |
|
27,00 |
6 . |
000011111222333333333444444 |
|
27,00 |
6 . |
555555666666677888888999999 |
|
24,00 |
7 . |
000000011111122233333444 |
|
13,00 |
7 . |
5566666788899 |
|
11,00 |
8 . |
00001111224 |
|
2,00 |
8 . |
67 |
|
Stem width : |
10 |
|
|
Each leaf: |
|
1 case(s) |
Коробчатая диаграмма состоит из прямоугольника, занимающего пространство от первого до третьего квартиля (то есть, от 25 до 75 процентиля). Линия внутри этого прямоугольника соответствует медиане. Кроме того, на коробчатой диаграмме отмечаются максимальное и минимальное значения, если только они не являются выбросами (см. ниже).
Значения, удаленные от границ более чем на три длины построенного прямоугольника (экстремальные значения), помечаются на диаграмме звездочками. Значения, удаленные более чем на полторы длины прямоугольника, помечаются кружками.
Теперь посмотрим, какие еще статистические характеристики можно вычислить в дополнение к стандартным.
Анализ для групп наблюдений
10.4.2 Анализ для групп наблюденийПроанализируем исходное содержание холестерина (переменная cho10), которое содержится в файле hyper.sav, для четырех возрастных классов (переменная ak).
Остальные статистические параметры также можно вычислить раздельно по разным значениям группирующей переменной (в данном случае по возрастным классам). Это относится и к выводу гистограмм и диаграмм нормального распределения в окне просмотра.
Далее можно проверить, значимо ли различаются группы наблюдений, образованные в соответствии со списком факторов, по дисперсиям зависимых переменных. В нашем примере можно выяснить, существуют ли значимые различия между пациентами четырех возрастных классов по разбросу содержания холестерина. Такая проверка гомогенности дисперсий необходима, например, если требуется провести для четырех возрастных группах простой дисперсионный анализ на сравнение средних (см. главу 13). Дисперсионный анализ как раз предусматривает гомогенность распределения дисперсий по отдельным ячейкам.
Исследование данных
10.4 Исследование данныхЧтобы понять, что может предложить нам SPSS для решения этой задачи, возьмем для примера переменную а (Возраст) из исследования эффективности лекарств (см. главу 9).
Диаграмма нормального распределения
Диаграмма нормального распределения
На диаграмме с исключенным трендом отклонения наблюдаемых значений от ожидаемых при нормальном распределении представлены в зависимости от наблюдаемых значений. В случае нормального распределения все точки лежат на горизонтальной прямой, проходящей через нуль. Явное отклонение от прямой указывает на отличие распределения от нормального. На этой диаграмме все значения, также подвергаются стандартизации (z-преобразованию) (см. рис. 10.7).
Диаграмма с исключенным трендом
Диаграмма с исключенным трендом
Заканчивая рассмотрение диалога Explore... (Исследовать), следует упомянуть еще кнопку Options... (Параметры), которая позволяет задать способ обработки пропущенных значений, и содержит группу опций Display (Показывать). Последняя позволяет запретить вывод диаграмм или статистических таблиц.
Диалоговое окно Explore: Plots
Диалоговое окно Explore: Plots
Диалоговое окно Explore: Statistics
Диалоговое окно Explore: Statistics
M-Estimators
|
|
Huber's M-Estimator ia) (М-оценка Губера) |
Tukey's Biweight (b) (Оценка Тьюки) |
Hampel M-Estimator (с) (М-оценка Хампеля) |
Andrews' Wave (d) (Волна Эндрюса) |
|
Возраст |
62,38 |
62,51 |
62,31 |
62,51 |
b. The weighting constant is 4,685 (Весовая константа равна 4,685).
с. The weighting constants are 1,700, 3,400 and 8,500 (Весовые константы равны 1,700, 3,400 и 8,500).
d. The weighting constant is 1,340*pi (Весовая константа равна 1,340*pi).
Percentiles
|
|
Percentiles | ||||||
|
|
5 |
10 |
25 |
50 |
75 |
90 | 95 |
|
Weighted Возраст Average(Definition 1 ) (Взвешенное среднее, определение 1 ) |
42,00 |
47,00 |
53,00 |
63,00 |
70,25 |
78,00 |
81,00 |
|
Tukey's Hinges Возраст (угловые точки Тьюки) |
|
|
53,00 |
63,00 |
70,00 |
|
|
|
|
Case Number (Номер случая) |
Value (Значение) | ||
|
Возраст |
Highest (Наибольшие значения) |
1 |
96 |
87 |
|
2 |
53 |
86 | ||
|
3 |
99 |
84 | ||
|
4 |
86 |
82 | ||
|
5 |
62 |
82 | ||
|
Lowest (Наименьшие значения) |
1 |
68 |
36 | |
|
2 |
23 |
37 | ||
|
3 |
64 |
37 | ||
|
4 |
122 |
39 | ||
|
5 |
45 |
.а | ||
В этих таблицах выводятся М-оценки Губера, Тьюки, Хампеля и волна Эндрюса. Основная идея М-оценок состоит в том, чтобы перед вычислением среднего значения присвоить отдельным наблюдениям разные веса. В распространенных М-оценках применяются веса, уменьшающиеся с удалением от центра распределения. Следовательно, обычное среднее значение можно рассматривать как М-оценку с единичными весами для всех наблюдений.
Из возможных процентилей выводятся семь значений: для 5, 10, 25, 50, 75, 90 и 95 процентов. Дополнительно вычисляются угловые точки Тьюки: 25%, 50% и 75%-про-центили.
В таблице «Экстремальные значения» выводятся пять наибольших и пять наименьших значений (выбросы).
Теперь обратимся к диаграммам, которые можно построить при исследовании данных в SPSS.
Гистограмма возрастной структуры
Гистограмма возрастной структуры
Далее мы посмотрим, какие результаты можно получить, если установить в диалоговом окне Explore: Plots флажок Normality plots with tests (Диаграмма нормального распределения с тестами).
Если в результате получена вероятность ошибки р менее 0,05, то данное распределение значимо отличается от нормального. В данном примере при р = 0,200 распределение можно считать нормальным. При объеме выборки менее 50 наблюдений проводится также тест Шапиро-Уилкса.
Tests of Normality (Тесты на нормальное распределение)
|
|
Kolmoqorov-Smirnov (а) (Колмогоров-Смирнов) | ||
|
Statistic |
df |
Sig. | |
|
Возраст |
,059 |
174 |
,200* |
В окне просмотра будут показаны две диаграммы:
Исследование данных
Исследование данныхКогда данные введены в компьютер, не следует сразу же приступать к анализу. На первом этапе сами данные следует подвергнуть подробному и всестороннему исследованию. Подобное исследование преследует три основных цели:
Коробчатая диаграмма
Коробчатая диаграмма
Коробчатая диаграмма по группам
Коробчатая диаграмма по группам
В результате во всех четырех вариантах будет проведен тест Левена на гомогенность дисперсий. Этот тест определяет уровень значимости (допустимую вероятность ошибки р. При р > 0,05 различие дисперсии между данными группами не значимо. Следовательно, их можно рассматривать как гомогенные. В данном примере тест Левена не дает значимого результата.
Test of Homogenity of Variances (Тест на гомогенность дисперсий)
|
|
Levene Statistic (Статистика Левена) |
df1 |
df2 |
Sig. (Значи-мость) | |
|
холестерин, исходный |
Based on Mean (На основе среднего) |
,190 |
3 |
170 |
,903 |
|
Based on Median (На основе медианы) |
,157 |
3 |
170 |
,925 | |
|
Based on Median and with adjusted df (Ha основе медианы и с уточненным df) |
,157 |
3 |
169,024 |
,925 | |
|
Based on trimmed mean (На основе усеченного среднего) |
,178 |
3 |
170 |
,912 | |
|
Степень |
Преобразование |
|
3 |
кубическое |
|
2 |
квадратное |
|
| |
квадратный корень |
|
В |
натуральный логарифм. |
|
-1/2 |
величина, обратная квадратному корню |
|
-1 |
обратная величина |
Диалоговое окно Explore
Рис. 10.1: Диалоговое окно Explore
Поначалу вас может смутить то, что в этом диалоговом окне проводится различие между зависимыми переменными и факторами. Это означает, что можно выполнять анализ раздельно по группам наблюдений. В этом случае анализируемой переменной будет зависимая переменная, а группирующей переменной — фактор. Если же такой раздельный анализ проводить не требуется, список факторов не используется.
В следующем разделе мы рассмотрим для начала такой анализ данных, который не должен производиться по группам раздельно.
Задачи статистики в пакете SPSS
Создание таблиц сопряженности
11.1 Создание таблиц сопряженностиГрафическое представление таблиц сопряженности
11.2 Графическое представление таблиц сопряженностиЧтобы сделать более наглядными данные, содержащиеся в таблицах сопряженности, их можно представить визуально. Для этого поступите следующим образом:
Тест хи-квадрат (X2)
11.3.1 Тест хи-квадрат (X2)При проведении теста хи-квадрат проверяется взаимная независимость двух переменных таблицы сопряженности и благодаря этому косвенно выясняется зависимость обоих переменных. Две переменные считаются взаимно независимыми, если наблюдаемые частоты (f0) в ячейках совпадают с ожидаемыми частотами (fe).
Для того, чтобы провести тест хи-квадрат с помощью SPSS, выполните следующие действия:
Пол * Психическое состояние Таблица сопряженности
| Психическое состояние | Total | ||||||
| Крайне неустой-чивое | Неустой-чивое | Устой-чивое | Очень устойчивое | ||||
| Пол | женский | Count | 16 | 18 | 9 | 1 | 44 |
| Expected Count | 7,9 | 16,6 | 17,0 | 2,5 | 44,0 | ||
| Std. Residual | 2,9 | ,3 | -1,9 | -.9 | |||
| Мужской | Count | 3 | 22 | 32 | 5 | 62 | |
| Expected Count | 11,1 | 23,4 | 24,0 | 3,5 | 62,0 | ||
| Std. Residual | -2,4 | -,3 | 1,6 | ,8 | |||
| Total | Count | 19 | 40 | 41 | 6 | 106 | |
| Expected Count | 19,0 | 40,0 | 41,0 | 6,0 | 106,0 | ||
Chi-Square Tests (Тесты хи-квадрат)
|
|
Value (Значение) |
df |
Asymp. Sig. (2-sided) (Асимптотическая значимость (двусторонняя)) |
|
Pearson Chi-Square (Хи-квадрат по Пирсону) |
22,455 (а) |
3 |
,000 |
|
Likelihood Ratio (Отношение правдоподобия) |
23,688 |
3 |
,000 |
|
Linear-by-Linear Association (Зависимость линейный-линейный) |
20,391 |
1 |
,000 |
|
N of Valid Cases (Кол-во допустимых случаев) |
106 |
|
|
Для вычисления критерия хи-квадрат применяются три различных подхода: формула Пирсона, поправка на правдоподобие и тест Мантеля-Хэнзеля. Если таблица сопряженности имеет четыре поля и ожидаемая вероятность менее 5, дополнительно выполняется точный тест Фишера.
Критерий хи-квадрат по Пирсону
Обычно для вычисления критерия хи-квадрат используется формула Пирсона:
Здесь вычисляется сумма квадратов стандартизованных остатков по всем полям таблицы сопряженности. Поэтому поля с более высоким стандартизованным остатком вносят более весомый вклад в численное значение критерия хи-квадрат и, следовательно, — в значимый результат. Согласно правилу, приведенному в разделе 8.7.2, стандартизованный остаток 2 или более указывает на значимое расхождение между наблюдаемой и ожидаемой частотами. В рассматриваемом нами примере формула Пирсона дает максимально значимую величину критерия хи-квадрат (р<0,001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная psyche имеет значение "крайне неустойчивое". У женщин это значение сильно повышено, а у мужчин — понижено.
Корректность проведения теста хи-квадрат определяется двумя условиями: во-первых, ожидаемые частоты < 5 должны встречаться не более чем в 20 % полей таблицы; во-вторых, суммы по строкам и столбцам всегда должны быть больше нуля.
Однако в рассматриваемом примере это условие выполняется не полностью. Как указывает примечание после таблицы теста хи-квадрат, 25 % полей имеют ожидаемую частоту менее 5. Однако, так как допустимый предел4в 20 % превышен лишь ненамного и эти поля, вследствие своего очень малого стандартизованного остатка, вносят весьма незначительную долю в величину критерия хи-квадрат, это нарушение можно считать несущественным.
Критерий хи-квадрат с поправкой на правдоподобие
Альтернативой формуле Пирсона для вычисления критерия хи-квадрат является поправка на правдоподобие:
При большом объеме выборки формула Пирсона и подправленная формула дают очень близкие результаты. В нашем примере критерий хи-квадрат с поправкой на правдоподобие составляет 23,688. Тест Мантеля-Хэнзеля
Дополнительно в таблице сопряженности под обозначением linear-by-linear ("линейный-по-линейному") выводится значение теста Мантеля-Хэнзеля (20,391). Эта форма критерия хи-квадрат с поправкой Мантеля-Хэнзеля — еще одна мера линейной зависимости между строками и столбцами таблицы сопряженности. Она определяется как произведение коэффициента корреляции Пирсона на количество наблюдений, уменьшенное на единицу:
Полученный таким образом критерий имеет одну степень свободы. Метод Мантеля-Хэнзеля используется всегда, когда в диалоговом окне Crosstabs: Statistics установлен флажок Chi-square. Однако для данных, относящихся к с номинальной шкале, этот критерий неприменим. Коэффициенты корреляции
11.3.2 Коэффициенты корреляцииДо сих пор мы выясняли лишь сам факт существования статистической зависимости между двумя признаками. Далее мы попробуем выяснить, какие заключения можно сделать о силе или слабости этой зависимости, а также о ее виде и направленности. Критерии количественной оценки зависимости между переменными называются коэффициентами корреляции или мерами связанности. Две переменные коррелируют между собой положительно, если между ними существует прямое, однонаправленное соотношение. При однонаправленном соотношении малые значения одной переменной соответствуют малым значениям другой переменной, большие значения — большим. Две переменные коррелируют между собой отрицательно, если между ними существует обратное, разнонаправленное соотношение. При разнонаправленном соотношении малые значения одной переменной соответствуют большим значениям другой переменной и наоборот. Значения коэффициентов корреляции всегда лежат в диапазоне от -1 до +1.
В качестве коэффициента корреляции между переменными, принадлежащими порядковой шкале применяется коэффициент Спирмена, а для переменных, принадлежащих к интервальной шкале — коэффициент корреляции Пирсона (момент произведений). При этом следует учесть, что каждую дихотомическую переменную, то есть переменную, принадлежащую к номинальной шкале и имеющую две категории, можно рассматривать как порядковую.
Для начала мы проверим существует ли корреляция между переменными sex и psyche из файла studium.sav. При этом мы учтем, что дихотомическую переменную sex можно считать порядковой. Выполните следующие действия:
Symmetric Measures (Симметричные меры)
| Value (Значение) | Asympt. Std. Error (а) Асимпто-тическая стандарт-ная ошибка) | Approx. Т (b) (Приблиз. Т) | Approx. Sig. (Приблизи- тельная значи-мость) | ||
| Interval by Interval (Интерваль- ный-интерваль- ныи) | Pearson's R (R Пирсона) | ,441 | ,081 | 5,006 | ,000 (с) |
| Ordinal by Ordinal (Порядковый-порядковый) | Spearman Correlation (Корреляци я по Спирмену) | .439 | ,083 | 4,987 | ,000 (с) |
| N of Valid Cases (Кол-во допустимых случаев) | 106 | ||||
b. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).
с. Based on normal approximation (На основе нормальной аппроксимации).
Так как здесь нет переменных с интервальной шкалой, мы рассмотрим коэффициент корреляции Спирмена. Он составляет 0,439 и является максимально значимым (р<0,001).
Для словесного описания величин коэффициента корреляции применяется следующая таблица:
|
Значение коэффициента корреляции r |
Интерпретация |
|
0 < г <= 0,2 0,2 < г <= 0,5 0,5 < г <= 0,7 0,7 < г <= 0,9 0,9 < г <= 1 |
Очень слабая корреляция Слабая корреляция Средняя корреляция Сильная корреляция Очень сильная корреляция |
В переменной psyche меньшие значения соответствуют отрицательному психическому состоянию, а большие — положительному. В переменной sex, в свою очередь, значение "1" соответствует женскому полу, а "2" — мужскому.
Следовательно, однонаправленность соотношения можно интерпретировать следующим образом: студентки оценивают свое психическое состояние более негативно, чем '.х коллеги-мужчины или, что вероятнее всего, в большей степени склонны согласиться на такую оценку при проведении анкетирования. Строя подобные интерпретации, нужно учитывать, что корреляция между двумя признаками не обязательно равнозначна их Функциональной или причинной зависимости. Подробнее об этом см. в разделе 15.3.
Теперь проверим корреляцию между переменными alter и semester. Применим методику, описанную выше. Мы получим следующие коэффициенты:
Symmetric Measures
|
Value |
Asympt. Std. Error (a) |
Approx. Т (b) |
Approx. Sig. | ||
|
Interval by Interval |
Pearson's R |
,807 |
,041 |
13,930 |
,000 (c) |
|
Ordinal by Ordinal |
Spearman Correlation |
,743 |
,060 |
11,310 |
,000 (c) |
|
N of Valid Cases |
106 |
|
|
| |
э. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).
с. Based on normal approximation (На основе нормальной аппроксимации).
Так как переменные alter и semester являются метрическими, мы рассмотрим коэффициент Пирсона (момент произведений). Он составляет 0,807. Между переменными alter и semester существует сильная корреляция. Переменные коррелируют положительно. Следовательно, старшие по возрасту студенты учатся на старших курсах, что, собственно, не является неожиданным выводом.
Проверим на корреляцию переменные sozial (оценку социального положения) и psyche. Мы получим следующие коэффициенты:
Symmetric Measures
|
Value |
Asympt. Std. Error (a) |
Approx. Т (b) |
Approx. Sig. | ||
|
Interval by Interval |
Pearson's R |
-,688 |
,057 |
-9,703 |
,000 (c) |
|
Ordinal by Ordinal |
Spearman Correlation |
-,703 |
,059 |
-10,123 |
,000 (c) |
|
N of Valid Cases |
107 |
|
|
| |
b. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).
с. Based on normal approximation (На основе нормальной аппроксимации).
В этом случае мы рассмотрим коэффициент корреляции Спирмена; он составляет -0,703. Между переменными sozial и psyche существует средняя или сильная корреляция (граничное значение 0,7). Переменные коррелируют отрицательно, то есть чем больше значения первой переменной, тем меньше значения второй и наоборот. Так как малые значения переменной sozial характеризуют позитивное состояние (1 = очень хорошее, 2 = хорошее), а большие значения psyche — отрицательное состояние (1 = крайне неустойчивое, 2 = неустойчивое), следовательно, психологические затруднения во многом обусловлены социальными проблемами.
Меры связанности для переменных с номинальной шкалой
11.3.3 Меры связанности для переменных с номинальной шкалойКоэффициент корреляции нельзя применять в качестве характеристики зависимости между переменными, если эти переменные принадлежат к номинальной шкале и имеют более двух категорий, потому что между их кодировками невозможно установить порядкового отношения и, следовательно, они не могут быть расположены в определенном, рационально объяснимом порядке.
Наилучшим средством для анализа таких зависимостей считается представленный в разделе 11.3.1 тест хи-квадрат, после которого при необходимости можно провести анализ наблюдаемых и ожидаемых частот, а также нормированных остатков. Этот анализ был описан в разделе 8.7.2.
Тем не менее и в этом случае также производились попытки разработать критерии количественной оценки степени связанности двух переменных, поставленных во взаимное соответствие. Эти критерии показывают степень взаимной зависимости или независимости двух переменных, принадлежащих к с номинальной шкале, причем значение 0 соответствует полной независимости переменных, а 1 — их максимальной зависимости. Меры связанности не могут иметь отрицательных значений, так как при отсутствии порядкового отношения нельзя дать ответа на вопрос о направлении зависимости.
В опросе членов городской организации одной из политических партий среди прочего выяснялось их занятие и определялось, выполняет ли респондент какую-либо партийную функцию. Выдержка из ответов респондентов-мужчин содержится в файле partei.sav.
| Занятие | Total | ||||||
| Наемный работник | Государст- венный служащий | Предпри-ниматель | |||||
| Партийная работа | да | Count | 13 | 16 | 7 | 36 | |
| Expected Count | 12,4 | 10,1 | 13,5 | 36,0 | |||
| % от Занятие | 59,1% | 88,9% | 29,2% | 56,3% | |||
| Std. Residual | ,2 | 1,8 | -1,8 | ||||
| нет | Count | 9 | 2 | 17 | 28 | ||
| Expected Count | 9,6 | 7,9 | 10,5 | 28,0 | |||
| % от Занятие | 40,9% | 11,1% | 70.8% | 43,8% | |||
| Std. Residual | -,2 | -2,1 | 2,0 | ||||
| Total | Count | 22 | 18 | 24 | 64 | ||
| Expected Count | 22,0 | 18,0 | 24,0 | 64,0 | |||
| % от Занятие | 100,0% | 100,0% | 100,0% | 100,0% | |||
|
|
Value |
df |
Asymp. Sig. (2-sided) |
|
Pearson Chi-Square (Критерий хи-квадрат по Пирсону) |
15,01 7 (a) |
2 |
,001 |
|
Likelihood Ratio (Отношение правдоподобия) |
16,421 |
2 |
,000 |
|
Li near-by-Li near Association (Зависимость линейный-линейный) |
4,420 |
1 |
,036 |
|
N of Valid Cases |
64 |
|
|
Результат получился максимально значимым: участие в партийной работе весьма характерно для государственных служащих, а для предпринимателей — совсем не характерно, тогда как наемные работники находятся посредине. Теперь зададим (кнопкой Statistics...) вывод всех мер связанности для переменных, принадлежащих к номинальной шкале (флажки в группе Nominal).
Directional Measures (Направленные меры)
| Value | Asympt. Std. Error (a) | Approx. Т (b) |
Approx. sig. | |||
| Nominal by Nominal (Номиналь- ный-номина- льный) | Lambda (Лямбда) | Symmetric (Симметри- ческая) | ,279 | ,104 | 2,554 | ,011 |
| Партийная работа Dependent (B зависимости от Партийная работа) | ,357 | ,140 | ,211 | ,035 | ||
| Занятие Dependent (В зависимости от Занятие) | ,225 | ,106 | 1,930 | ,054 | ||
| Goodman and Kruskal tau (Tay Гудмена-Крускала) | Партийная работа Dependent | ,235 | ,093 | ,001 (c) | ||
| Занятие Dependent | ,116 | ,051 | ,001 (c) | |||
| Uncertainty Coefficient (Коэффициент неопреде- ленности) | Симметричный | ,144 | ,063 | 2,269 | ,000 (d) | |
| Партийная работа Dependent | ,187 | ,082 | 2,269 | ,000 (d) | ||
| Занятие Dependent | ,118 | ,052 | 2,269 | ,000 (d) | ||
b. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).
с. Based on chi-square approximation (На основе аппроксимации по распределению хи-квадрат).
d. Likelihood ratio chi-square probability (Степень правдоподобия при распределении вероятности по закону хи-квадрат).
Symmetric Measures (Симметричные меры)
|
|
Value |
Approx. Sig. | |
|
Nominal by Nominal (Номинальный-номинальный) |
Phi (Фи) |
,484 |
,001 |
|
Cramer's V (V Крамера) |
,484 |
,001 | |
|
Contingency Coefficient (Коэффициент сопряженности признаков) |
,436 |
,001 | |
|
N of Valid Cases |
64 |
| |
b. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).
Коэффициент сопряженности признаков (Пирсона)
Его величина всегда находится в пределах от 0 до 1 и вычисляется (как и значения критериев Фишера (<р) и Крамера (V)) с использованием значения критерия хи-квадрат:
Здесь N — общая сумма частот в таблице сопряженности. Так как N всегда больше нуля, коэффициент сопряженности признаков никогда не достигает единицы. Максимальное значение зависит от количества строк и столбцов таблицы сопряженности и в таблице размером 3*2 составляет (как в данном примере) 0,762. По этой причине коэффициенты сопряженности признаков для двух таблиц с разным количеством полей несопоставимы.Критерий Фишера (<р)
Этот коэффициент можно использовать только для таблиц 2*2, так как в других случаях он может превысить значение 1:
Критерий Крамера (V) Этот критерий представляет собой модификацию критерия Фишера и для любых таблиц сопряженности он дает значение в пределах от 0 до 1, включая 1:
Здесь k — наименьшее из количеств строк и столбцов. Три названных критерия основаны на использовании критерия хи-квадрат. Они различными способами нормируют его значение по отношению к размеру выборки. Так, если формуле для V Крамера положить k = 2, то значения (р и V Крамера совпадут. Определение значимости основано на значении критерия хи-квадрат.
При оценке полученных значений мер связанности, находящихся в нашем примере в промежутке между 0,4 и 0,5, следует учесть, что значение 1 достигается очень редко или вообще никогда. Другие меры связанности (Я, т Гудмена-Крускала и коэффициент неопределенности) определяются на основе так называемой концепции пропорционального сокращения ошибки. При определении этих критериев одна переменная рассматривается как зависимая; по этой причине данные критерии называются "направленными мерами".
Лямбда
В данном примере вопрос о партийной работе можно рассматривать как зависимую переменную, определяемую родом занятий. Если для какого-то отдельно взятого человека надо сделать предположение о том, выполняет ли он партийную работу или нет, то, естественно, делается наиболее вероятное предположение, соответствующее наиболее часто даваемому ответу — в данном случае, предположение о том, что опрашиваемый занимается партийной работой. Такой ответ дают 56,3% респондентов; однако в 43,7% наблюдений наше предположение будет неверным.
Вероятность предположения можно повысить, если учитывать другую переменную — род занятий. Для наемных работников, как и для государственных служащих, можно достаточно уверенно прогнозировать участие в партийной работе, причем этот прогноз окажется неверным для 9 наемных работников и для 2 государственных служащих. В то же время для предпринимателей можно с большими основаниями предположить, что они не занимаются партийной работой, и ошибиться в 7 наблюдениях. Таким образом, для общего числа 64 опрашиваемых мы получаем 9 + 2 + 7=18 наблюдений, или 28,1 %, в которых прогноз будет неверен. Легко видеть, что первоначальная вероятность ошибки 43,7% значительно сократилась.
На основе этих двух вероятностей можно вычислить относительное сокращение ошибки, которое и называется лямбда:
Лямбда=(Ошибка при первом прогнозе — Ошибка при втором прогнозе)/Ошибка при первом
В нашем примере:
Лямбда =( 43,7% - 28.1%)/43,7% = ,357
Если ошибка при втором прогнозе сокращается до 0, лямбда будет равна 1. Если ошибки при первом и при втором прогнозе одинаковы, лямбда = 0. В этом случае вторая переменная никак не помогает в уточнении предсказания значения первой (зависимой переменной); то есть выбранные две переменные совершенно не зависят друг от друга.
Так как ваш быстрый, но совершенно не умеющий соображать компьютер не знает, какую переменную следует считать зависимой, SPSS вычисляет оба значения Я, поочередно рассматривая каждую из переменных как зависимую. В случае, если выясняется, что ни одну из выбранных переменных нельзя объявить зависимой, выводится среднее двух этих значений с обозначением "лямбда -симметричная".
Тау (т) Гудмена-Крускала
Это вариант меры связанности , который SPSS всегда вычисляет совместно с ней. При определении этой меры количество правильных предсказаний определяется по-иному: наблюдаемые частоты взвешиваются с учетом своих процентов и складываются. Для первого прогноза это дает:
36 * 56,3% + 28 * 43,8% =32,53
Согласно этому выражению, из 64 респондентов неверное предположение сделано для 31,47, что составляет 49,17%.
С учетом второй переменной количество верных предположений (второй прогноз) составляет:
13 * 59,1 % + 16 * 88,9 % + 7 * 29,2 % + 9 * 40,9 % + 2 * 11,1 % + 17 * 70,8 % = 39,89
Итак, при втором прогнозе сделано 24,11 неверных прогнозов из 64, что составляет 37,67%. Тогда сокращение ошибки равно
(49.17 %-37.67%)/49,17 %=0,235
Это значение выводится под названием "тау Гудмена-Крускала". И в этом случае SPSS выдает второе значение т, рассматривая вторую переменную, как зависимую.
Коэффициент неопределенности
Это еще один вариант критерия лямбда, при определении которого имеется в виду не ошибочное предсказание, а "неопределенность", то есть степень неточности предсказаний. Эта неопределенность вычисляется по достаточно сложным формулам, которые мы опускаем. Коэффициент неопределенности также принимает значения в диапазоне от 0 до 1. Значение 1 говорит о том, что одну переменную можно точно предсказать по значениям другой.
Меры связанности для переменных с порядковой шкалой
11.3.4 Меры связанности для переменных с порядковой шкалойВсе эти критерии основаны на количестве нарушений порядка (так называемых инверсий, обозначаемых через 1). Количество инверсий можно определить, если расположить в порядке возрастания значения одной из двух переменной между которыми необходимо установить степень взаимосвязи, а рядом с ними записать соответствующие значения другой переменной. Число нарушений порядка расположения второй переменной и есть количество инверсий. Это количество вместе с количеством соблюдений порядка (проверсий, обозначаемых через Р) используется в различных формулах для определения меры связанности, которые дают значения этого параметра в диапазоне от -1 до +1.
Гамма (ÿ)
Гамма вычисляется по простой формуле:
Если инверсий не наблюдается (I = 0), то мы имеем у =1 (полную зависимость). Если же не встречается проверсий, а только инверсии (Р = 0), то говорят о максимально разнонаправленной зависимости (у = -1). Если Р= I, зависимости вообще не существует (y=0). d Сомера
Существуют две асимметричных и симметричная меры связанности d Сомера. Для их вычисления используется формула для ус корректирующим членом Т, который учитывает количество связей зависимых переменных (одинаковых значений, встречающихся в измерениях):
Для сопряженной асимметричной меры связанности d Сомера используется корректирующий член Г, соответствующий количеству связей независимой переменной. В знаменателе симметричной rf-статистики Сомера стоит среднее значение двух асимметричных коэффициентов. Тау-б (Tb Кендалла)
Этот коэффициент одновременно учитывает связи как зависимых, так и независимых переменных:
tb может приобретать значения -1 и +1 только для квадратных таблиц сопряженности. Тау-ц (tc) Кендалла
Этот критерий может достигать значений -1 и +1 в любых таблицах:
Здесь N — общая сумма частот; m — наименьшее из количеств строк и столбцов.Другие меры связанности
11.3.5 Другие меры связанностиSPSS позволяет вычислить другие специальные меры связанности, обзор которых приводится ниже.
Эта
Этот коэффициент применяется, если зависимая переменная принадлежит к интервальной шкале, а независимая — к порядковой или шкале наименований, эта2 представляет собой долю общей дисперсии, которую можно объяснить влиянием независимой переменной.
Коэффициент каппа (к)
Коэффициент каппа Козна (к) можно вычислить только для квадратных таблиц сопряженности, в которых применяются одинаковые числовые кодировки для переменных строк и столбцов. Типичный случай применения этого критерия — оценка людей или объектов двумя экспертами. В таком случае к указывает на степень согласия между экспертами.
Мера риска
С помощью этой опции в SPSS реализован расчет трех различных коэффициентов, которые могут быть определены для таблицы сопряженности, состоящей из 2 строк и 2 столбцов, созданной на основании строго определенных правил, которые будут сформулированы в конце данного параграфа. При расчете меры риска анализируется так называемая переменная риска, которая имеет две категории и указывает, произошло ли определенное событие или нет. Анализ переменной риска проводится в зависимости от причинной (независимой) переменной, которая должна также быть дихотомической.
Это положение можно пояснить на типичном примере. Исследование депрессии на базе 294 респондентов дало следующую частотную таблицу:
| Депрессия | Да | Нет |
| Женщины | а = 40 | Ь = 143 |
| Мужчины | с = 10 | d = 101 |
Исследование, проводимое в такой форме, называется групповым или когортным. При когортном исследовании определенная группа наблюдений, в которых анализируемое событие еще не произошло, изучается на протяжении известного промежутка времени. Определяется, в каких наблюдениях данное событие произошло, а в каких — нет, и различается ли риск наступления события между разными категориями независимой переменной. При групповых исследованиях группа наблюдений, в которых событие уже произошло, сравнивается с контрольной группой.
Два из трех коэффициентов риска, определяемых в SPSS, обычно относятся к когортным исследованиям, а третий — к групповым. При когортном исследовании для обеих категорий независимой переменной (в данном случае пола) определяется инцидентность. У респондентов-женщин инцидентность наступления депрессии равна:
40/(40 + 143)=0,219
У респондентов-мужчин инцидентность равна
10/(10 + 101)=0,09
Отношение инцидентностей составляет
0,219/0,090 = 2,426
и называется относительным риском или мерой относительного риска. Риск попасть в депрессию у женщин в 2,426 раза выше, чем у мужчин. Так как компьютер не знает, какое из двух кодовых значений переменной риска соответствует наличию депрессии, относительный риск вычисляется для обоих значений.
При групповом исследовании применяется несколько отличный вариант коэффициента, называемый также "отношением шансов" (отношением перекрестных произведений). "Шансы" попасть в депрессию у женщин составляют 40/143, а у мужчин — 10/101. Следовательно, отношение шансов равно
(40 * 101)/(143 * 10)= 2,825
Если обозначить четыре частоты в таблице буквами а, Ь, с и d (см. выше), то формулы, которые SPSS использует для вычисления мер риска, можно записать так:
Проведем анализ приведенного примера в SPSS. Пол * Депрессия Таблица сопряженности
| Депрессия | Total | |||
| | да | нет | ||
| Пол | Женщины | 40 | 143 | 183 |
| Мужчины | 10 50 | 101 | 111 | |
| Total | 244 | 294 |
| Value | | 95% Confidence Interval (95% доверительный интервал) | |
| | Lower (Нижняя граница) | Upper (Верхняя граница) | |
| Odds Ratio for (Отношение шансов для) Пол (Женщины / Мужчины) | 2,825 | 1,350 | 5,911 |
| For cohort (Для когорты) Депрессия = да | 2,426 | 1,265 | 4,655 |
| For cohort (Для когорты) Депрессия = нет | ,859 | ,780 | ,946 |
| N of Valid Cases | 294 | | |
Чтобы правильно вычислить отношение шансов и относительный риск, надо учитывать следующие правила построения таблиц сопряженности:
Тест хи-квадрат по Мак-Немару применяется при наличии двух независимых дихотомических переменных; он рассматривается в разделе 14.2.
Статистика Кохрана и Мантеля-Хзнзеля
Эта статистика включает метод вычисления отношения шансов в таблицах сопряженности 2x2. Расчет этой статистики задается флажком Risk. При вычислениях используется переменная слоев (ковариация) и определяется, значительно ли отличаются категории этой переменной по своему отношению шансов от 1 (или другой величины). Это можно пояснить на примере.
Пол * Тревожная депрессия Crosstabulation (a)
| Тревожная депрессия | Total | ||||
| | | | Да | нет | |
| Пол | женский | Count | 154 | 592 | 746 |
| % от Пол | 20,6% | 79,4% | 100,0% | ||
| мужской | Count | 79 | 715 | 794 | |
| % от Пол | 9,9% | 90,1% | 100,0% | ||
| Total | Count | 233 | 1307 | 1540 | |
| % от Пол | 15,1% | 84,9% | 100,0% | ||
| Избыточный вес = нет |
| 95% Confidence Interval
| |||
| | Value | Lower | Upper |
| Odds Ratio for Пол (женский / мужской) | 2,354 | 1,758 | 3,154 |
| For cohort Тревожная депрессия = да | 2,075 | 1,612 | 2,670 |
| For cohort Тревожная депрессия = нет | ,881 | ,844 | ,920 |
| N of Valid Cases | 1540 | ||
| а. Избыточный вес = нет |
| Тревожная депрессия | Total | ||||
| Да | нет | ||||
| Пол | женский | Count | 22 | 62 | 84 |
| % от Пол | 26,2% | 73,8% | 100,0% | ||
| мужской | Count | 9 | 104 | 113 | |
| % от Пол | 8,0% | 92,0% | 100,0% | ||
| Total | Count | 31 | 166 | 197 | |
| % от Пол | 15,7% | 84,3% | 100,0% | ||
| Избыточный вес; = да | |
| | Value | 95% Confidence Interval | |
| | Lower | Upper | |
| Odds Ratio for Пол (женский / мужской) | 4,100 | 1,776 | 9,468 |
| For cohort Тревожная депрессия = да | 3,288 | 1,597 | 6,771 |
| For cohort Тревожная депрессия = нет | ,802 | ,698 | ,921 |
| N of Valid Cases | 197 | | |
В обоих случаях тревожная депрессия у женщин наступает значительно чаще. Отношение шансов для людей с недостатком веса составляет 2,354, а для людей с избыточным весом — 4,100.
Теперь вычислим статистику Кохрана и Мантеля-Хэнзеля.
Test of Homogenity of the Odds Ratio (Тест на гомогенность отношения шансов) Statistics
| Statistics | Chi-Squared (Хи-квадрат) | df | Asymp. Sig. (2-sided) | |
| Conditional (Условная независимость) | Cochran (Кохран) | 44,665 | 1 | ,000 |
| Mantel-Haenszel (Мантель-Гензель) | 43,724 | 1 | ,000 | |
| Homogeneity (Гомогенность) | Breslow-Day (Бреслоу-Дэй) | 1,522 | 1 | ,217 |
| Tarone (Тарой) | 1,522 | 1 | ,217 |
Mantel-Haenszel Common Odds Ratio Estimate (Оценка общего отношения шансов Мантеля-Гензеля)
| Estimate (Оценка) | 2,503 | ||
| ln(Estimate) | ,918 | ||
| Std. Error of (Стандартная ошибка) In(Estimate) | ,141 | ||
| Asymp. Sig. (2-sided) (Асимптотическая значимость (двусторонняя) | ,000 | ||
| Asymp. 95% Confidence Interval (Асимптотический 95 % доверительный интервал) | Common Odds Ratio (Общее отношение шансов) | Lower Bound (Нижняя граница) | 1,901 |
| Upper Bound (Верхняя граница) | 3,297 | ||
| ln(Common Odds Ratio) | Lower Bound (Нижняя граница) | ,642 | |
| Upper Bound (Верхняя граница) | 1,193 |
Результаты тестов Кохрана и Мантеля-Хэнзеля очень близки; в обоих случаях для весовых групп наблюдается максимально значимое отличие отношения шансов от 1 (р<0,001). Тесты как Бреслоу-Дэя, так и Тарона позволяют сохранить допущение о гомогенности отношения шансов для весовых групп (р = 0,217).
Оценка объединенного отношения шансов дает те значения, которые будут получены при вычислении риска, если не разделять данные по переменной слоев.
Статистические критерии для таблиц сопряженности
11.3 Статистические критерии для таблиц сопряженностиЧтобы получить статистические критерии для таблиц сопряженности, щелкните на кнопке Statistics... (Статистика) в диалоговом окне Crosstabs. Откроется диалоговое окно Crosstabs: Statistics (Таблицы сопряженности: Статистика) (см. рис. 11.9).
Флажки в этом диалоговом окне позволяют выбрать один или несколько критериев.
Диалоговое окно Crosstabs: Cell Display
Диалоговое окно Crosstabs: Cell Display
|
Психическое состояние | |||||||
|
Крайне неустой-чивое |
Неусто- йчивое |
Устой-чивое |
Очень устой-чивое |
Total | |||
|
Пол |
женский |
Count |
16 |
18 |
9 |
1 |
44 |
|
|
Expected Count (Ожида- емое число) |
|
|
|
|
| |
|
|
7,9 |
16,6 |
17,0 |
2,5 |
44,0 | ||
|
|
|
|
|
|
| ||
|
|
мужской |
Count |
3 |
22 |
32 |
5 |
62 |
|
|
Expected Count |
11,1 |
23,4 |
24,0 |
3,5 |
62,0 | |
|
"Total |
Count |
19 |
40 |
41 |
6 |
106 | |
|
Expected Count |
19,0 |
40,0 |
41,0 |
6,0 |
106,0 | ||
|
|
|
|
|
| |||
Для значений переменной "психическое состояние" "крайне неустойчивое" и "неустойчивое" абсолютная частота у опрашиваемых женщин выше, чем ожидаемая (16 и 7,9; j и 16,6), тогда как при значениях "устойчивое" и "очень устойчивое" она ниже (9 и ".0; 1 и 2,5).
У опрашиваемых мужчин мы находим противоположную тенденцию. Для значений ' крайне неустойчивое" и "неустойчивое" абсолютная частота ниже, чем ожидаемая (3 и ' 1.1; 22 и 23,4), тогда как для значений "устойчивое" и "очень устойчивое" она выше :2 и 24,0; 5и 3,5). Эти результаты мы можем объединить в следующую таблицу:
|
|
крайне неустойчивое; неустойчивое |
очень устойчивое; устойчивое |
| Женщины | абс. частота > ожидаемой частоты | абс. частота < ожидаемой частоты |
|
Мужщины |
абс. частота < ожидаемой частоты |
абс. частота > ожидаемой частоты |
Диалоговое окно Crosstabs: Statistics
Диалоговое окно Crosstabs: Statistics
Диалоговое окно Crosstabs: Table Format
Диалоговое окно Crosstabs: Table Format
Применение переменных групп и слоев
Созданные выше таблицы сопряженности можно разделить по специальностям. Вполне может быть, что переменная fach (Специальность) оказывает влияние на зависимость между sex и psyche. Чтобы выявить возможные различия, следует создать отдельные таблицы, в нашем случае — по одной таблице для каждой специальности. Такие таблицы могут выявить интересные различия между отдельными специальностями. В рассматриваемом примере переменная fach играет роль переменной слоев. Анализ производится по группам, то есть для каждой группы — в нашем случае для каждой специальности — составляется отдельная таблица сопряженности.
Чтобы задать переменную слоев, поступите так:
Диалоговое окно Crosstabs (Таблицы cопряженности)
Диалоговое окно Crosstabs (Таблицы cопряженности)
|
|
|
Cases (Случаи) | ||||
|
Valid (Допусти-мые) |
|
Missing (Отсутству-ющие) |
Total (Всего) | |||
|
N |
Percent |
N |
Percent |
N |
Percent | |
|
Пол* Психическое состояние |
106 |
98,1% |
2 |
1,9% |
108 |
100,0% |
Count (Число)
|
|
Психическое состояние |
Total | ||||
|
|
|
Крайне неустой- чивое |
Неустой-чивое | Устой-чивое | Очень устойчивое | |
|
Пол |
Женский |
16 |
18 | 9 |
1 |
44 |
|
Мужской |
3 |
22 | 32 |
5 |
62 | |
|
Total |
|
19 |
40 | 41 |
6 |
106 |
19 опрошенных (16 + 3) оценивают свое психическое состояние как "крайне неустойчивое", 40 как неустойчивое, 41 как устойчивое и 6 как очень устойчивое. При анализе принимались в расчет 106 допустимых наблюдений. Полученные результаты мы можем интерпретировать следующим образом:
Диалоговое окно Define Clustered Bar: Summaries for groups of cases
Диалоговое окно Define Clustered Bar: Summaries for groups of cases
Диалоговое окно Options
Диалоговое окно Options
Можно не вызывать меню Graph, а просто установить в диалоге Crosstabs флажок Display clustered bar charts (Показывать столбчатые кластеризованные диаграммы). Тогда на диаграмме будут показаны две группы столбцов для двух переменных строк. Чтобы придать диаграмме такой вид, как на рис. 11.8, надо поменять переменные строк и столбцов местами.
Диалоговое окно Titles
Диалоговое окно Titles
Графическое представление: столбчатая диаграмма
Графическое представление: столбчатая диаграмма
Таблицы сопряженности
Таблицы сопряженностиДо сих пор мы рассматривали только отдельные переменные. Мы проводили частотный анализ, а также описывали отдельные переменные статистическими характеристиками, такими как минимум, максимум и среднее значение. Методы анализа такого рода называются одномерными. В текущей главе мы перейдем к двумерному анализу и займемся выяснением вопроса, существует ли взаимосвязь между двумя или более переменными.
В SPSS имеется большое количество разнообразных процедур, при помощи которых можно произвести анализ связи между двумя переменными. Связь между неметрическими переменными, то есть переменными, относящимися к номинальной шкалу или к порядковой шкале с не очень большим количеством категорий, лучше всего представить в форме таблиц сопряженности. Для этой цели в SPSS реализован тест %2, при котором проверяется, есть ли значимое различие между наблюдаемыми и ожидаемыми частотами. Кроме того, существует возможность расчета различных мер связанности. Восстановление зависимостей между метрическими переменными, то есть имеющими интервальную шкалу или шкалу отношений, рассматривается в главе 15.
Заполненное диалоговое окно Crosstabs
Заполненное диалоговое окно Crosstabs
Можно выбрать другие уровни переменных слоев. Для каждой категории каждой из переменной слоев будет создана отдельная таблица сопряженности. Чтобы добавить новый слой, щелкните на кнопке Next (Следующий). Каждый последующий уровень делит таблицу сопряженности на меньшие подгруппы. Переходить от одного слоя к другому можно при помощи кнопок Next и Previous (Предыдущий).
Задачи статистики в пакете SPSS
Определение наборов
12.1.1 Определение наборовОтветы на наш вопрос закодированы вышеописанным способом в переменных att1+attS. В первую очередь мы должны сообщить компьютеру, что эти восемь переменных принадлежат к одному "набору переменных".
Частотные таблицы для дихотомических наборов
12.1.2 Частотные таблицы для дихотомических наборовТаблицы сопряженности с дихотомическими наборами
12.1.3 Таблицы сопряженности с дихотомическими наборамиТаблицы сопряженности можно создавать между двумя наборами переменных, а также между набором и "обычной" переменной. Так, к примеру, нам необходимо в одной таблице сопряженности отобразить соотношение между набором Sattrak и переменной geschl, которая с помощью кодировок 1 = женский и 2 = мужской характеризует пол респондентов.
Дихотомный метод
12.1 Дихотомный методВ упомянутой анкете был задан вопрос: "Как можно сделать партию более привлекательной?" Предлагались следующие варианты ответов:
Ответы на этот и другие вопросы анкетирования членов партии содержаться в файле meinug.sav. Сначала мы посмотрим частотную таблицу ответов на вопрос "Как можно сделать партию более привлекательной?", а затем перекрестную таблицу этого вопроса и пола.
Определение наборов
12.2.1 Определение наборовСначала следует определить набор. Выполите следующие действия:
Частотные таблицы для категориальных наборов
12.2.2 Частотные таблицы для категориальных наборов|
Group $MITWIRK Препятствия в сотрудничестве Pet of Pet of | ||||||
|
Category label Code |
CountResponses |
Cases | ||||
|
Неизвестны возможности участия |
1 |
24 |
12 |
,8 |
27 |
,6 |
|
Функции уже распределены |
2 |
26 |
13 |
,9 |
29 |
, 9 |
|
Поведение функционеров |
3 |
36 |
19 |
,3 |
41 |
,4 |
|
Групповщина |
4 |
20 |
10 |
,7 |
23 |
,0 |
|
Недостаток политического опыта |
5 |
29 |
15 |
,5 |
33 |
, 3 |
|
Негативное влияние, в работе |
6 |
8 |
4 |
,3 |
9 |
,2 |
|
Негативное влияние в личной жизни |
7 |
6 |
3 |
,2 |
6 |
, 9 |
|
Нежелание |
8 |
14 |
7 |
,5 |
16 |
, 1 |
|
Здоровье |
9 |
24 |
12 |
,8 |
27 |
, 6 |
|
Total responses |
187 |
100 |
,0 |
214 |
,9 | |
|
23 missing cases; 87 valid cases | ||||||
Можно получить еще один вариант таблицы, если в диалоговом окне Multiple Response Frequencies установить флажок Exclude cases listwise with categories (Для категориальных переменных исключать наблюдения по списку). Тогда допустимыми будут считаться только наблюдения, в которых все переменные набора имеют кодовые значения.
Обе процентные характеристики уже рассматривались в разделе 12.1.2. Первую строку частотной таблицы можно интерпретировать следующим образом: 24 члена партии считают, что их участию в партийной работе мешает то, что им неизвестны возможности такого участия. Это 12,8 % данных ответов и 27,6 % респондентов, которые дали хотя бы один вариант ответа.
Таблицы сопряженности с категориальными наборами
12.2.3 Таблицы сопряженности с категориальными наборамиНа основе наборов со множественными категориями также можно строить таблицы сопряженности с другими переменными. Для примера рассмотрим таблицу сопряженности между набором Smitwirk и переменной geschl. Выполните следующие действия:
|
*** CROSSTABULATION * ** | |||||||||
|
$MITWIRK (group) Scheiterungby GESCHL Geschlecht der Mitwirkung | |||||||||
|
GESCHL | |||||||||
|
Count Iweiblich maennlic | |||||||||
|
Col pet |
I |
|
h |
|
|
ROW | |||
|
|
I |
|
|
|
|
Total | |||
|
|
I |
1 |
I |
2 |
I + I |
24 | |||
|
1 |
+ - I |
7 |
+ - - I |
17 | |||||
|
Moglichkeiten nicht |
I |
30,4 |
I 26 |
,6 |
I |
27,6 | |||
|
|
+ - |
_ _ _ |
+ — — |
— — |
+ |
| |||
|
2 |
I |
3 |
I |
23 |
I |
26 | |||
|
Mandate bereits bese |
I |
13,0 |
I 35 |
,9 |
I |
29,9 | |||
|
|
+ - |
|
+ — — |
|
+ |
| |||
|
3 |
I |
10 |
I |
26 |
I |
36 | |||
|
Fuhrungs verbal ten de |
I |
43,5 |
I 40 |
,6 |
I |
41,4 | |||
|
|
+ - |
_ _ _ |
•f - — |
— — |
+ |
| |||
|
4 |
I |
4 |
I |
16 |
I |
20 | |||
|
keine Forderung wage |
I |
17 ,4 |
I 25 |
,0 |
I |
23,0 | |||
|
|
+ - |
— — — |
+ — — |
— — |
+ |
| |||
|
5 |
I |
11 |
I |
18 |
I |
29 | |||
|
zu wenig politische 6 |
I + — I |
47 ,8 |
I 28 |
,1 |
I + I |
33,3 8 | |||
|
0 |
+ - - I |
8 | |||||||
|
Befurchtung beruflic 7 |
I + -I |
, 0 |
I 12 |
,5 |
I + I |
9,2 6 | |||
|
0 |
+ - — I |
6 | |||||||
|
Befurchtung persqnli |
I |
, 0 |
I 9 |
,4 |
I |
6,9 | |||
|
|
+ — |
_ _ _ |
+ - - |
— — |
+ |
| |||
|
8 |
I |
4 |
I |
10 |
I |
14 | |||
|
nichts bewegen konne |
I |
17,4 |
I 15 |
,6 |
I |
16,1 | |||
|
|
+ - |
_ _ _ |
+ - - - |
- - + |
|
| |||
|
|
|
|
|
9 |
I |
7 |
I |
17 I |
24 |
|
gesundheitliche |
Grun |
I |
30,4 |
I |
26,6 I |
27,6 | |||
|
|
|
|
|
|
+ — |
_ _ _ |
+ - - |
- — - + |
|
|
|
|
|
|
Column |
23 |
|
|
64 |
87 |
|
|
|
|
|
Total |
26,4 |
|
|
73,6 |
100,0 |
|
Percents |
and |
totals based |
on |
respondents | |||||
|
S7 |
valid |
cases ; |
23 |
missing cases | |||||
Категориальный метод
12.2 Категориальный методАльтернативный способ кодирования множественных ответов предоставляет метод множественных категорий, или категориальный. Для применения этого метода должно быть известно максимальное количество возможных ответов. Это количество можно, например, задать в анкете (указанием типа "Отмечайте не более пяти вариантов") или установить после проверки анкет.
Чтобы узнать, почему члены партии, не имеющие партийного поручения, не хотят его получить или не участвуют в партийной работе иным образом, в анкете задавался вопрос "Что мешает Вашему участию в партийной работе?". После вопроса было помещено указание, что можно отметить не более пяти из приводимых вариантов ответа:
|
Мне неизвестны возможности для участия в работе |
1 |
|
Функции уже распределены |
2 |
|
Поведение функционеров |
3 |
|
Групповщина не дает стимула для участия |
4 |
|
У меня слишком мало политического опыта |
5 |
|
Я опасаюсь негативного влияния на свою работу/карьеру |
6 |
|
Я опасаюсь негативного влияния на свою личную жизнь |
7 |
|
Не желаю |
8 |
|
Здоровье не позволяет |
9 |
Каждая из пяти переменных кодируется одинаковыми категориями, причем вне зависимости от количества данных ответов область этих пяти переменных заполняется слева направо.
Так, в первом наблюдении при ответе на вопрос отмечены категории 3, 4 и 6 (Поведение функционеров, Групповщина, Негативное влияние в работе). Следующие три респондента не отметили ни одного ответа, в наблюдении 8 дан только один ответ (Категория 1, "Неизвестны возможности участия") и т.д. Для этого вопроса мы также построим частотную таблицу и таблицу сопряженности с полом. Но сначала определим набор переменных.
Упражнение
12.3 УпражнениеВ заключение проведем анализ множественных ответов на следующем примере. При анкетировании 530 туристов в Кении задавался вопрос о влиянии туризма. Рассмотрим интересующий нас отрывок из этой анкеты:
Варианты ответов на вопрос "Какое влияние, по Вашему мнению, оказывает туризм в Кении?" закодированы по методу множественных категорий. При этом установлено, что было зачеркнуто не более шести возможных ответов. Для шести вариантов определены переменные vnl+vn6. Эти переменные могут иметь следующие значения:1 = "Приток валюты"
2 = "Подорожание"
3 = "Нагрузка на окр. среду"
4 = "Рабочие места"
5 = "Развитие инфраструктуры"
6 = "Переселение в города"
7 = "Взаимопонимание"
8 = "Разрушение культуры"
9 = "Сохранение культуры"
Загрузите файл kenia.sav.
|
Group $TOUR Влияние туризма | ||||
|
|
|
|
Pet of |
Pet of |
|
Category label Code |
Count |
Responses |
Cases | |
|
Приток валюты |
1 |
457 |
22,7 |
88,2 |
|
Подорожание |
2 |
105 |
5,2 |
20,3 |
|
Нагрузка на окр. среду |
3 |
209 |
10,4 |
40,3 |
|
Рабочие места |
4 |
441 |
21,9 |
85,1 |
|
Развитие инфраструктуры |
5 |
170 |
8,4 |
32,8 |
|
Переселение в города |
6 |
125 |
6,2 |
24,1 |
|
Взаимопонимание |
7 |
206 |
10,2 |
39,8 |
|
Разрушение культуры |
8 |
262 |
13,0 |
50,6 |
|
Сохранение культуры |
9 |
41 |
2,0 |
7,9 |
|
Total responses |
2016 |
100,0 |
389 ,2 | |
|
12 missing cases; 518 valic |
i cases |
|
|
|
Сравнение дихотомного и категориального методов
12.4 Сравнение дихотомного и категориального методов|
Дихотомный метод |
Категориальный метод |
|
Особенности: |
Особенности: |
|
• Определяется по одной переменной для каждого варианта ответа. |
• Оценка максимального количества возможных ответов. |
|
• Отображение множественных ответов с помощью нескольких дихотомических переменных. |
в Определение такого же числа переменных, соответствующего максимальному количеству возможных ответов. |
|
• Переменные объединяются в наборы из нескольких дихотомий. |
• В наборы, соответствующие множественным ответам, объединяются переменные из нескольких категорий. |
|
Преимущества: |
Преимущества: |
|
• Предварительная оценка максимального количества выбранных вариантов ответов не требуется. |
• Меньшее число переменных, если количество вариантов ответов, выбранных в каждом отдельном случае, меньше совокупного количества возможных вариантов ответов. |
|
Недостатки: |
Недостатки: |
|
• Если количество всех возможных ответов велико, а максимальное количество ответов, выбранных в каждом отдельном случае мало, то затрачивается слишком много переменных по сравнению с категориальным методом. |
• Вследствие распределения по разным переменным при проведении последующего анализа затруднено получение совокупного результата. |
Но если мы рассмотрим ответ "У меня слишком мало политического опыта" на вопрос "Что мешает Вашему участию в партийной работе", то этот вариант ответа нельзя идентифицировать с помощью однозначно определенной переменной. Этому варианту ответа будет соответствовать одна из переменных mitl-mit5, причем привязка к одной их этих переменных будет меняется от наблюдения к наблюдению.
Чтобы решить эту проблему, следует с помощью команды DO REPEAT (см. раздел 26.3) создать новую переменную:
COMPUTE wenigerf=0. DO REPEAT mit=mitl to mit5. IF mit=5 wenigerf=1 END REPEAT. EXECUTE. Переменная wenigerf своими кодовыми значениями 1 = да и 0 = нет будет указывать, ответил ли член партии, что у него мало политического опыта, или нет. Эту переменную можно использовать при последующем анализе.
Данный недостаток категориального метода мы считаем настолько значительным, что рекомендуем применять дихотомный метод.
Анализ множественных ответов
Анализ множественных ответовВ этой главе мы рассмотрим особенности кодирования и анализа множественных ответов. Вопросы, на которые можно дать несколько ответов одновременно ( это и есть множественные ответы), имеются во многих анкетных исследованиях. Для кодировкии анализа таких множественных ответов SPSS представляет два различных метода: метод множественной дихотомии и категориальный метод. Оба этих метода рассматриваются в последующих разделах на одном и том же примере. Пример взят из анкетирования членов городской организации политической партии, в котором исследовались их мнения и пожелания.
Диалоговое окно Define Multiple Response Sets
Диалоговое окно Define Multiple Response Sets
Диалоговое окно Multiple Response Crosstabs
Диалоговое окно Multiple Response Crosstabs
В списке исходных переменных показаны переменные файла meinung.sav. В списке наборов множественных ответов показан ранее определенный набор.
Диалоговое окно Multiple Response Crosstabs: Define Variable Range
Диалоговое окно Multiple Response Crosstabs: Define Variable Range
Абсолютные частоты в ячейках выводятся всегда. Дополнительно в группе Cell Percentages (Проценты в ячейках) можно выбрать одну или несколько характеристик:
Диалоговое окно Multiple Response Crosstabs: Options
Диалоговое окно Multiple Response Crosstabs: Options
Флажок Match variables across response sets (Учитывать переменные из наборов попарно) имеет смысл, только если таблица сопряженности строится на основе двух наборов переменных. В этом случае первая переменная из первого набора сочетается с первой переменной из второго набора, и т.д.
|
* * * СR0SSТABULATION * * * | |||||
|
$ATTRAK (tabulating 1) |
Erhohung |
der Attraktivitat | |||
|
by GESCHL Geschlecht |
|
|
|
|
|
|
GESCHL | |||||
|
Count Iweiblich |
maennlic | ||||
|
Col pet Ih |
|
|
Row |
|
Total |
|
I |
|
|
|
|
|
|
I |
1 |
I |
2 |
I |
|
|
$ATTRAK X |
|
|
|
|
|
|
ATT1 I |
21 |
+ -I |
60 |
+ I |
81 |
|
mehr Prasenz zwische I |
72,4 |
I |
78,9 |
I |
77,1 |
|
+ — |
_ _ _ |
+ — |
_ _ _ |
+ |
|
|
ATT2 I |
6 |
I |
18 |
I |
24 |
|
Verbesserung der Hit I |
20,7 |
I |
23,7 |
I |
22,9 |
|
+ — |
_ _ _ |
+ — |
_ _ _ |
+ |
|
|
ATT3 I |
5 |
I |
19 |
I |
24 |
|
mehr gesellige Zusam I + - |
17 ,2 |
I |
25, 0 |
I |
22, 9 |
|
ATT4 I |
2 |
+ - I |
23 |
+ I |
25 |
|
offentlich zuganglic I |
6,9 |
I |
30,3 |
I |
23,8 |
|
+ - |
_ _ _ |
+ - |
_ _ _ |
+ |
|
|
ATT5 I |
23 |
I |
57 |
I |
80 |
|
mehr Burgernahe mit I |
79,3 |
I |
75,0 |
I |
76,2 |
|
+ - |
_ _ _ |
+ — |
_ _ _ |
+ |
|
|
ATT6 I |
14 |
I |
37 |
I |
51 |
|
bessere Information I |
48,3 |
I |
48,7 |
I |
48,6 |
|
+ - |
_ _ _ |
+ - |
_ _ _ |
+ |
|
|
ATT7 I |
12 |
I |
34 |
I |
46 |
|
Beteiligung von Nich I |
41,4 |
I |
44,7 |
I |
43,8 |
|
+ - |
_ _ _ |
+ — |
_ _ _ |
+ |
|
|
ATT 8 I |
18 |
I |
49 |
I |
67 |
|
mehr Veranstaltungen I |
62,1 |
I |
64,5 |
I |
63,8 |
|
|
_ _ _ |
+ — |
_ _ _ |
+ |
|
|
Column |
29 |
|
76 |
|
105 |
|
Total |
27, 6 |
|
72,4 |
|
100,0 |
Полученные проценты соответствуют отношению частот к числу допустимых наблюдений; ср. заключения сделанные в разделе 12.1.2. К сожалению, длина меток переменных ограничивается лишь двадцатью символами.
Если сравнить оба пола, то значительное различие заметно только при анализе переменной att4: 30,3 % мужчин считают, что открытые собрания повышают привлекательность партии, но лишь 6,9 % женщин придерживаются этого мнения.
К сожалению, для множественных ответов SPSS не проводит проверку значимости с помощью критерия хи-квадрат. Если выполнение такой проверки необходимо, то следует поступить, как указано в разделе 8.7.2.
Диалоговое окно Multiple Response Frequencies
Диалоговое окно Multiple Response Frequencies
Откроется диалоговое окно Multiple Response Frequencies (Частоты множественных ответов).
В списке Mult Response Sets этого диалога отображаются уже определенные наборы переменных; в нашем примере это набор Sattrak.
|
Group $ATTRAK Повышение привлекательности (Value tabulated = 1) |
Pet of Pet of | |||||
|
dichotomy label |
Name Count Responses |
Cases | ||||
|
больше активности в период между выборами |
ATT1 |
81 |
20 |
,4 |
77 |
,1 |
|
повышение эффективности общих собраний |
ATT2 |
24 |
6 |
,0 |
22 |
,9 |
|
больше неформальных встреч |
ATT3 |
24 |
6 |
,0 |
22 |
,9 |
|
открытые общие собрания |
ATT4 |
25 |
6 |
,3 |
23 |
,8 |
|
большая близость к населению на местах |
ATT5 |
80 |
20 |
,1 |
76 |
,2 |
|
лучше информировать членов партии |
ATT6 |
51 |
12 |
,8 |
48 |
, 6 |
|
привлечение не членов партии |
ATT7 |
46 |
11 |
,6 |
43 |
,8 |
|
больше мероприятий по актуальным темам |
ATT8 |
67 |
16 |
,8 |
63 |
,8 |
|
Total responses |
398 |
100 |
,0 |
379 |
,0 | |
|
5 missing cases; 105 valid cases |
|
|
|
|
|
|
Можно получить еще один вариант таблицы, если в диалоговом окне Multiple Response Frequencies установить флажок Exclude cases listwise with dichotomies (Для дихотомических переменных исключать наблюдения по списку). Тогда к пропущенным будут причисляться и те наблюдения, в которых хотя бы одна переменная набора имеет отсутствующее значение — в данном примере не закодирована ни единицей, ни нулем. Это вариант представления может быть полезен, если данный ответ в анкете не определен однозначно.
Для наблюдаемых частот выводятся два разных процентных значения. При определении первого из них наблюдаемая частота отнесена к общему числу ответов "да" (398), а при определении второго — к общему числу допустимых наблюдений (105). Однако самая удобная процентная характеристика, а именно процент от количества всех наблюдений (110), отсутствует. Первую строку частотной таблицы можно интерпретировать, например, так: 81 член партии считает, что большая активность в период между выборами может повысить привлекательность партии. Это 20,4 % от общего количества положительных ответов или 77,1 % членов партии, которые дали хотя бы один вариант ответа.
Как мы уже говорили, в этой таблице, к сожалению, отсутствует процент от общего количества опрошенных членов партии (НО наблюдений). Если вам нужна эта наиболее информативная характеристика, ее можно вычислить вручную или применить следующий прием.
|
Group $ATTRAK Повышение привлекательности (Value tabulated = 1) |
Pct of |
Pct of | ||||
|
Dichotomy label |
Name |
Count Responses |
Cases | |||
|
больше активности в период между выборам |
ATT1 |
81 |
15 |
, 9 |
73 |
,6 |
|
повышение эффективности общих собраний |
ATT2 |
24 |
4 |
,7 |
21 |
/ & |
|
больше неформальных встреч |
ATT3 |
24 |
4 |
, 7 |
21 |
,8 |
|
открытые общие собрания |
ATT4 |
25 |
4 |
, 9 |
22 |
, 7 |
|
большая близость к населению на местах |
ATT5 |
80 |
15 |
,7 |
72 |
, 7 |
|
лучше информировать членов партии |
ATT6 |
51 |
10 |
,0 |
46 |
,4 |
|
привлечение не членов партии |
ATT7 |
46 |
9 |
,1 |
41 |
,8 |
|
больше мероприятий по актуальным темам |
ATT8 |
67 |
13 |
,2 |
60 |
,9 |
|
|
ATT9 |
110 |
21 |
,7 |
100 |
,0 |
|
Total responses |
508 |
100 |
,0 |
461 |
,8 | |
|
0 missing cases; 110 valid cases |
|
|
|
|
|
|
Множественные отпеты при категориальном методе
Множественные отпеты при категориальном методе
Сравнение двух независимых выборок
13.1 Сравнение двух независимых выборокМы хотим проверить, значительно ли различается действие двух групп медикаментов на людей в зависимости от их возраста. Такое различие было бы, конечно, нежелательным, так как в этом случае разницу в действии лекарств можно было бы объяснить разным возрастным составом пациентов.
Сравнение двух зависимых выборок
13.2. Сравнение двух зависимых выборокСейчас мы выясним, значимо ли изменяется содержание холестерина через месяц : осле начала приема лекарств. Для этого мы сравним переменные cho10 и cho11 при помощи t-теста для зависимых выборок. В этом тесте будут участвовать данные всех пациентов, независимо от группы принимаемых лекарств.
Разложение на составляющие тренда
13.3.1 Разложение на составляющие трендаСумму квадратов между группами можно разложить на линейные или полиномиальные (до 5 степени включительно) составляющие тренда.
Априорные контрасты
13.3.2 Априорные контрастыРазличия средних значений зависимых переменных, получаемые на базе априорных контрастов, можно подвергнуть t-тесту. Эта процедура называется априорным множественным сравнением. Контрасты определяются как последовательность (линейная комбинация) коэффициентов, каждый из которых соответствует отдельной категории независимой переменной.
Для коэффициентов, используемых при определении контрастов, можно задавать положительные, отрицательные, целые и дробные значения. Категории независимой переменной, соответствующие отрицательным коэффициентам, комбинируются, эти комбинации сопоставляются с комбинациями категорий, которые соответствуют положительным коэффициентам. Категории, которым соответствуют нулевые коэффициенты, не учитываются. Сумма всех коэффициентов должна равняться нулю.
В нашем примере сравнивались четыре возрастных класса (категории 1 -4) по переменной роста. Допустим, нам требуется сопоставить первую возрастную группу и комбинацию из трех остальных групп; для этого мы выберем нижеследующие априорные коэффициенты:
-3 1 1 1
Если же требуется сравнить комбинацию первых двух групп с последней группой, следует выбрать такие коэффициенты:
-1-1 0 2
Для определения описанных контрастов по вышеописанной процедуре множественного сравнения откроем в диалоге AN OVA вспомогательное диалоговое окно Contrasts. В поле Coefficients этого диалогового окна введем первый коэффициент и щелкнем на кнопке Add. Таким же образом вводятся остальные коэффициенты.
Когда все коэффициенты задачи введены, можно кнопкой Next (Следующий) перейти ко вводу следующей комбинации коэффициентов. После задания коэффициентов для всех требуемых контрастов кнопкой Continue закройте это диалоговое окно. Можно задать до десяти контрастов, каждый из которых содержит до пятидесяти коэффициентов.
Апостериорные тесты
13.3.3 Апостериорные тестыЧтобы провести апостериорные тесты множественного сравнения средних, щелкните в диалоговом окне ANOVA на кнопке Post Hoc... В появившемся окне можно выбрать 'Мин или несколько из восемнадцати тестов, которые производят такие сравнения для всех групп:
Другие параметры
13.3.4 Другие параметрыВ диалоговом окне ANOVA: Options, кроме способа обработки пропущенных значений, можно дополнительно задать вывод описательной статистики по группам (средних значений, стандартных отклонений, стандартных ошибок, минимумов, максимумов, 95 % доверительных интервалов и количеств наблюдений), а также проверку на гомогенность дисперсий посредством теста Левена. Можно также задать вывод линейчатых графиков средних значений.
Сравнение более двух независимых выборок
13.3 Сравнение более двух независимых выборокДалее мы исследуем, существует ли значимое различие веса (переменная gr) между четырьмя разными возрастными группами (переменная ak).
Сравнение более чем двух зависимых выборок
13.4. Сравнение более чем двух зависимых выборокНа основе данных по гипертонии исследуем, значимо ли изменяется содержание холестерина в течение четырёх промежутков времени (такое сравнение для первых двух промежутков времени мы уже провели в параграфе 13.2).
Для достижения этой цели подходит однофакторный дисперсионный анализ с повторными измерениями. Пользователи SPSS, работавшие с этим пакетом на больших компьютерах, знают, что выполнить эту весьма распространенную операцию можно было только с помощью процедуры MANOVA (многомерный дисперсионный анализ). Ясно, что эта процедура предназначена для разнообразных методов многомерного анализа, но может быть использована при одномерном дисперсионном анализе с повторными измерениями.
Начиная с версии 7 SPSS процедура MANOVA была заменена процедурой GLM (General Linear Model). Однако и в текущей версии процедура MANOVA по прежнему остается доступной при использовании программного синтаксиса.
Разнообразные возможности анализа, предоставляемые этими процедурами (GLM и MANOVA), обеспечиваются ценой уже практически необозримого количества команд, спецификаций, параметров и ключевых слов. Даже при решении такой простой задачи, как рассматриваемая, надо уметь ориентироваться в этом многообразии. Несколько подробнее процедура GLM рассматривается в главе 17; однако в рамках этой книги невозможно охватить всю широту диапазона возможностей, предоставляемых этой процедурой. Теперь перейдем к решению нашей задачи при помощи однофакторного дисперсионного анализа с повторными измерениями.
В данном примере мы подвергнем анализу четыре переменных: cho10, cho11, cho16 и chol12; следовательно, фактор повторных измерений будет задаваться четырьмя уровнями (слоями).
Мест одной выборки
13.5 Мест одной выборкиЭтот тест позволяет выяснить, отличается ли среднее значение, полученное на основе данной выборки, от предварительно заданного контрольного значения.
Мы проверим, отличается ли средний показатель холестерина, полученный при исследовании гипертонии, от значения 229, которое могло быть определено в каком-либо другом исследовании.
Диалоговое окно Independent-Samples T Test
Диалоговое окно Independent-Samples T Test
|
|
Лекарство |
N |
Mean (Среднее) |
Std. Deviation (Стандартное отклонение) |
Std. Error Mean (Стандартная ошибка среднего) |
|
Возраст |
Альфасан |
87 |
62,24 |
11,19 |
1,20 |
|
Бетасан |
87 |
61,98 |
11,96 |
1,28 |
| Levene's Test for Equality of Variancies (Тест Левена на равенство дисперсий) | t-test for Equality of Means (Тест Стьюдента на равенство средних) | |||||||||
| F | Sig. (Значи-мость) | Т | df | Sig. (2-tailed) (Значимость (двусто- ронняя)) | Mean Diffe-rence (Разность средних) | Std. Error Differe-псе (Станда- ртная ошибка разницы) |
95 % Confidence Interval of the Difference (Довери-тельный интервал разницы) | |||
| Lower (Нижняя граница) | Upper (Верхняя граница) | |||||||||
| Возраст | Equal variances assumed (Дис-персии равны) | ,54 | ,462 | ,151 | 172 | ,880 | ,26 | 1,76 | -3,20 | 3,73 |
| Equal variances not assumed (Ди- сперсии не равны) | ,15' | 171,249 | ,880 | ,26 | 1,76 | -3,20 | 3,73 | |||
В следующем t-тесте мы проверим, различается ли действие двух групп лекарств по так называемому индексу Брока. Этот индекс, разработанный одним парижским хирургом, предусматривает, что нормальный вес человека можно определить из следующего уравнения:
Нормальный вес (кг) = Рост (см) — 100
Если взять отношение фактического веса человека к нормальному весу по этой рормуле, то мы получим процентный показатель, который у людей с нормальным весом равен 100, у людей с избытком веса > 100 и т.д.
Индекс Брака =((Вес в кг)/(Рост в см - 100)) • 100
Диалоговое окно One-Sample T Test
Диалоговое окно One-Sample T Test
One-Sample Statistics (Статистика одной выборки)
|
|
N |
Mean |
Std. Deviation |
Std. Error Mean |
|
Холестерин, исходный |
174 |
237,27 |
49,42 |
3,75 |
|
|
Test Value = 229 | |||||
|
T |
df |
Sig. (2-tailed) |
Mean Difference |
95 % Confidence Interval of the Difference | ||
|
|
Upper | Lower | ||||
|
Холестерин, исходный |
2,207 |
173 |
,029 |
8,27 |
,88 |
15,66 |
Диалоговое окно One-Way ANOVA
Диалоговое окно One-Way ANOVA
Диалоговое окно One-Way AN OVA: Contrasts
Диалоговое окно One-Way AN OVA: Contrasts
Диалоговое окно One-Way AN OVA: Post Hoc Multiple Comparisons
Диалоговое окно One-Way AN OVA: Post Hoc Multiple Comparisons
В окне просмотра появятся следующие результаты:
Descriptives (Описательная статистика)
|
Рост | ||||||||
|
|
N |
Mean |
Std. Devi-ation |
Std. Error |
95 % Confidence Interval for Mean (95 % доверительный интервал среднего). |
Mini-mum |
Maxi-mum | |
|
Lower Bound |
Upper Bound | |||||||
|
до 55 лет |
52 |
169,10 |
8,21 |
1,14 |
166,81 |
171,38 |
150 |
185 |
|
56ч 65 лет |
51 |
164,82 |
7,62 |
1,07 |
162,68 |
166,97 |
146 |
185 |
|
66ч75 лет |
47 |
162,47 |
7,22 |
1,05 |
160,35 |
164,59 |
145 |
175 |
|
>75 лет |
24 |
162,67 |
7,38 |
1,51 |
159,55 |
165,78 |
150 |
178 |
|
Total |
174 |
165,17 |
8,08 |
61 |
16396 |
166,38 |
145 |
185 |
|
Рост | |||
|
Levene Statistic (Статистика Левена) |
dfl |
df2 |
Sig. |
|
,639 |
3 |
170 |
591 |
|
Рост | |||||
|
|
Sum of Squares (Сумма квадратов) |
Df |
Mean Square (Средний квадрат) |
F |
Sig. (Значимость) |
|
Between Groups (Между группами) |
1301,200 |
3 |
433,733 |
7,380 |
,000 |
|
Within Groups (В группах) |
9990,966 |
170 |
58,770 |
|
|
|
Total |
111292,167 |
173 |
|
|
|
Рост
|
Dunean" | |||
|
Возрастной класс |
N |
Subset for alpha = ,05 (Подгруппа для альфа = ,05). | |
|
1 |
2 | ||
|
66-75 лет |
47 |
162.47 |
|
|
>75 лет |
24 |
162,67 |
|
|
56-65 лет |
51 |
164,82 |
|
|
до 55 лет |
52 |
|
169,10 |
|
Sig. (Значимость) |
|
,201 |
1,000 |
a. Uses Harmonic Mean Sample Size = 39,300 (Используется гармоническое среднее для размера выборки = 39,300).
b. The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error levels are not guaranteed. (Размеры групп неодинаковы. Используется гармоническое среднее размеров групп. Уровни ошибок типа I не гарантируются).
Выведенные результаты содержат:
Уменьшение роста с увеличением возраста может быть связано с тем, что в старших возрастных классах преобладают женщины, рост которых мал по сравнению с мужчинами, что и вызывает данный эффект. Повторим этот анализ для категорий пола. Окажется, что у мужчин факт уменьшения роста с увеличением возраста подтверждается, а для женщин — нет.
Далее мы подробно рассмотрим имеющиеся в диалоговом окне AN OVA кнопки Contrasts (Контрасты), Post Hoc... и Options..., а также возможности, которые они предоставляют.
Диалоговое окно Paired-Samples T Test
Диалоговое окно Paired-Samples T Test
|
Mean |
N |
Std. Deviation |
Std. Error Mean | ||
|
Pair (Пары) |
Холестерин, исходный |
237,27 |
174 |
49,42 |
3,75 |
|
Холестерин, через 1 мес. |
239,20 |
174 |
49,51 |
3,75 | |
|
N |
Correlation (Корреляция) |
Sig. (Значимость) | ||
|
Pair (Пары) |
Холестерин, исходный & Холестерин, через 1 мес. |
174 |
,861 |
,000 |
| Paired Differences (Парные разницы) | Т | df | Sig. (2-tailed) |
||||||
| Mean | Std. Devi-ation | Std. Error Mean | 95% Confi-dence Interval of the Diffe-rence | ||||||
| Lower | Upper | ||||||||
| Pair (Пары) | Холе- стерин, исходный -Холе- стерин, через 1 мес. | -1,93 | 26,09 | 1,98 | -5,83 | 1,98 | -,974 | 173 | ,332 |
Повторим вычисления, но теперь только для пациентов, принимавших альфасан (переменная med имеет значение 1; условие med = 1).
Диалоговое окно Repeated Measures
Диалоговое окно Repeated Measures
Tests of Within-Subjects Effects (Тест эффектов внутри субъекта)
| Measure: MEASURE_1 | ||||||
| Source (Источник) | Type III Sum of Squares (Сумма квадратов типа III) | df | Mean Square (Среднее квадратов) | F | Sig. (Значи-мость) | |
| FACTOR1 | Sphericity Assumed (Прини- мается гипотеза о сферич- ности) | 3381,822 | 3 | 1127,274 | 2,653 | ,048 |
| Greenhouse- Geisser | 3381,822 | 2,509 | 1347,779 | 2,653 | ,058 | |
| Huynh-Feldt | 3381 ,822 | 2,549 | 1326,675 | 2,653 | ,058 | |
| Lower Bound | 3381,822 | 1,000 | 3381,822 | 2,653 | ,105 | |
| Error (FACTOR1) | Sphericity Assumed (Прини- мается гипотеза о сферич- ности) | 220504,678 | 519 | 424,865 | ||
| Greenhouse- Geisser | 220504,678 | 434,088 | 507,972 | |||
| Huynh-Feldt | 220504,678 | 440,994 | 500,018 | |||
| Lower Bound | 220504,678 | 173,000 | 1274,594 | |||
Диалоговое окно Repeated Measures Define Factor(s)
Диалоговое окно Repeated Measures Define Factor(s)
Сравнение средних
Сравнение среднихСравнение средних значений различных выборок относится к наиболее часто применяемым методам статистического анализа. При этом всегда должен быть выяснен вопрос, можно ли объяснить имеющееся различие средних значений статистическими колебаниями или нет. В последнем случае говорят о значимом различии.
При сравнении средних значений выборок предполагается, что обе выборки подчиняются нормальному распределению. Если это не так, то вычисляются медианы и для сравнения выборок используется непараметрический тест.
При сравнении средних значений выборок выделяют четыре различные тестовые ситуации:
Чтобы провести однофакторный дисперсионный анализ с повторными измерениями (очень часто встречающаяся тестовая ситуация) надо вызвать команду меню Analyze (Анализ) General Linear Model (Общая линейная модель) Repeated Measures... (Повторные измерения)
Сначала мы рассмотрим тесты, вызов которых происходит посредством пункта меню Compare Means. Для примера мы возьмем данные исследования гипертонии в файле hyper.sav (см. главу 9).
Еще один тест, включенный в данное подменю, это t-тест случайной выборки, используемый для сравнения с заданным значением (One-Sample T Test), рассматривается в разделе 13.5. В подпункте меню Means... (Средние) вычисляются средние значения раздельно по категориям группирующей переменной; здесь также можно проверить существование значимого различия при помощи однофакторного дисперсионного анализа. В этом отношении данный подпункт предоставляет меньше возможностей, чем подпункт One-Way ANOVA..., и поэтому здесь не рассматривается.
Задачи статистики в пакете SPSS
U-тест по методу Манна и Уитни
14.1.1 U-тест по методу Манна и УитниЭто самый известный и самый распространенный тест непараметрического сравнения двух независимых выборок. Он основан на использовании одной общей последовательности значений обоих выборок.
Мы хотим проверить, отличаются ли показатели сахара в крови для мужчин и женщин в примере об исследовании гипертонии (файл hyper.sav).
Если Вы построите гистограмму показателя сахара в крови (переменная bz0), то заметите явную деформацию распределения в левую сторону. Тест Колмогорова-Смирнова (см. гл. 14.5) также показывает очень значительное отклонение от нормального распределения. Стало быть, для сравнения обоих выборок следует вместо t-теста Стьюдента применить U-тест по методу Манна и Уитни.
U-тест по методу Манна и Уитни является предварительной установкой.
Тест Мозеса (Moses)
14.1.2 Тест Мозеса (Moses)Данный тест проверяет различие размаха двух независимых выборок, которые состоят из переменных, относящихся к порядковой шкале, причем одна выборка рассматривается как контрольная группа, а другая как экспериментальная. Так как размах экстремальных значений может давать искаженные представления, то при помощи установки по умолчанию по обеим сторонам распределения контрольной группы отсекаются в обшей сложности 5 процентов значений.
Однако, это может привести к тому, что реальные различия в наблюдаемых значениях переменных, будут искусственно стёрты. Это можно увидеть на следующем примере, который уже рассматривался при изучении U-теста по Манну и Уитни.
|
Медикамент |
N | |
|
syst. Blutdruck, Ausgangswert (Систолическое давление, через 1 месяц) |
Alphasan (контрольный) |
87 |
|
Betasan (экспериментальный) |
87 | |
|
Total (Сумма) |
174 |
|
Систолическое давление, через 1 месяц | ||
|
Observed Control Group Span (Наблюдаемый размах контрольной группы) |
NSig. (1 -tailed) N Значимость (1 -сторонняя) |
167 ,032 |
|
Trimmed Control Group Span (Размах усеченной контрольной группы) |
N Sig. (1-tailed) N Значимость (1-сторонняя) |
156 ,500 |
|
Outliers Trimmed from each End (Выбросы удалены с обеих сторон) |
|
4 |
b. Групповая переменная: медикамент
При проведении теста Мозеса первая из двух групп рассматривается как контрольная. Значения обеих групп располагаются на порядковой шкале и им присваиваются соответствующие ранговые места. В контрольной группе подсчитывается размах между этими ранговыми местами, то есть разность между большим и меньшим рангом. Этот размах равен 167 с соответствующим значением вероятности ошибки р = 0,032. Полученное значение вероятности ошибки указывает на значимое отклонение от размаха, ожидаемого при равномерном распределении. Эта значимость полностью исчезает (р = 0,500), если при подсчёте размаха контрольной группы удалить по четыре самых больших и самых малых ранга.
Тест Колмогорова-Смирнова
14.1.3 Тест Колмогорова-СмирноваУсловия применения данного теста такие же, как и при использовании U-теста по методу Манна и Уитни. Тест Колмогорова-Смирнова является предпочтительным тогда, когда количество категорий для тестируемых переменных ограничено. Если для такого j случая применять U-тест Манна и Уитни, то появляется большое количество ранговых мест, к которым относится сразу несколько переменных, то есть возникают неоднозначные ранговые последовательности. Основой теста является расчет максимальной разности между кумулятивными частотами обеих выборок. Эта разность обозначается величиной z, на основании которой, выводится вероятность ошибки р. В главе 11 рассматривался файл studium.sav, в котором при помощи переменной psyche отражалось психологическое состояние студентов (закодированное цифрами от 1 до 4 для значений: очень неустойчивое до очень устойчивое), а при помощи переменной sex — пол (1 = женский, 2 = мужской). Раньше различия между полами проверялись при помощи теста хи-квадрат. В данном случае для определения различия I можно также применить тест Колмогорова-Смирнова.
Статистика теста а
|
|
Psychische Lage | |
|
|
,370 ,000 -,370 | |
|
Most Extreme Differences (Самые экстремальные разности) |
Абсолютно Положительно Отрицательно | |
|
Z-Колмогорова-Смирнова |
| 1,875 |
| Asymp.Sig.(2-tailed) (Статистическая значимость (2-сторонняя) |
,002 | |
Получается очень значимая разница между полами в отношении психологического состояния (р = 0,002).
Тест Уалда-Вольфовица (Wald-Wolfowitz)
14.1.4 Тест Уалда-Вольфовица (Wald-Wolfowitz)Условия применения данного теста те же, что и при U-тесте по методу Манна и Уитни или при тесте Колмогорова-Смирнова. Значения обоих групп выстраиваются в единую последовательность по рангу. Затем производится подсчёт количества смен группового признака, с помощью которого можно найти количество непрерывных
последовательностей (количество смен плюс 1). Если появляются одинаковые значения (ранговые связки), то выводятся значения минимального и максимального числа возможных непрерывных последовательностей. Исходя из количества непрерывных последовательностей, можно найти вероятность ошибки р. Данный тест не пригоден для переменных с малым числом категорий, так как в этом случае очень сильно возрастает количество ранговых связок.
В качестве примера рассмотрим уже многократно использовавшийся пример со сравнением показателя кровяного давления.
| Number of Runs (Число непрерывных последователь- ностей) | Z | Asymp. Sig. (1-tailed) (Статисти- ческая значимость , (1 -сторонняя)) | ||
| Syst. Blutdruck, nach 1 Monat (Систолическое давление, через 1 месяц) | Minimum Possible (Минимально возможное) | 13" | -11,404 | ,000 |
| Maximum Possible (Максимально возможное) | 146 а | 8,819 | 1,000 | |
b. Wald-Wolfowitz Test (Тест по методу Уалда-Вольфовица)
с. Grouping Variable: Medikament (Групповая переменная: медикамент)
В результате мы получаем различие между минимальной и максимальной возможной непрерывной последовательностью (значение Z) и связанную с ним вероятность ошибки. Так как рассчитываемые значения Z располагаются по обоим краям стандартного нормального распределения, то выборка может содержать исходные данные, не пригодные для проведения этого теста. Поэтому тест Уальда-Вольфовица является не очень убедительным, в особенности при наличии ранговых связок.
Сравнение двух независимых выборок
14.1 Сравнение двух независимых выборокВ этом разделе описано четыре теста. Наиболее часто применяемым является U-тест Манна и Уитни, который поэтому и будет представлен в первую очередь.
Тест Уилкоксона (Wilcoxon)
14.2.1 Тест Уилкоксона (Wilcoxon)Этот тест является традиционным непараметрическим тестом для сравнения двух зависимых выборок. Он основан на построении ранговой последовательности абсолютных разностей пар значений.
Мы уже установили (см. раздел 14.1), что для обоих медикаментов после 1 месяца приема наблюдается значительное понижение систолического кровяного давления. Теперь мы хотим проверить, является ли это изменение закономерным. Для простоты мы сначала должны быть рассмотрены все наблюдения подряд, то есть без разделения на группы по принимаемым медикаментам.
Переменные rrs0 и rrs1 (начальный уровень систолического давления и уровень через месяц после начала приема медикамента) представляют собой типичный пример связанных (зависимых) выборок.
|
N |
Mean Rank (Средний ранг) |
Sum of Ranks (Ранговая сумма) | ||
|
syst. Blutdruck, nach 1 Monat - syst. Blutdruck, Ausgangswert (Систолическое кровяное давление, через 1 месяц -систолическое кровяное давление, исходная величина) |
Negative Ranks (Отрицательные ранги) |
144а |
77,81 |
11204,00 |
|
Positive Ranks (Положительные ранги) |
8Ь |
53,00 |
424,00 | |
|
Ties (Связи) |
22е |
|
| |
|
Total (Сумма) |
174 |
|
| |
b. syst. Blutdruck, nach 1 Monat > syst. Blutdruck, Ausgangswert (Систолическое кровяное давление, через 1 месяц > систолическое кровяное давление, исходная величина)
с. syst. Blutdruck, nach 1 Monat = syst. Blutdruck, Ausgangswert (Систолическое кровяное давление, через 1 месяц = систолическое кровяное давление, исходная величина)
Статистика теста b
|
syst. Blutdruck, nach 1 Monat - syst. Blutdruck, Ausgangswert (Систолическое кровяное давление, через 1 месяц -систолическое кровяное давление, исходная величина) | |
|
Z |
-9,970а |
|
Asymp. Sig. (2-tailed) (Статистическая значимость (2-сторонняя)) |
,000 |
b. Wilcoxon test (Тест Вилоксона)
Результаты расчёта включают следующие данные:
Знаковый тест
14.2.2 Знаковый тестУсловия применения данного теста те же, что и для теста Уилкоксона, но в отличие от него здесь ведётся подсчёт только положительных и отрицательных разностей, что может оказаться полезным тогда, когда различия между выборками будут не слишком заметны.
До и после проведения курса лечения 67 пациентов были опрошены на предмет их самочувствия со следующими вариантами ответов: "хорошее", "относительно нормальное" или "плохое". Из 5 пациентов, самочувствие которых до прохождения курса лечения было хорошим, 3 после лечения отметили ответ "хорошее", а 2 "относительно нормальное". 18 пациентов до курса лечения оценили своё самочувствие как "относительно нормальное". 9 из них после лечения дали ответ "хорошее", 7 — "относительно нормальное" и 2 — "плохое". 44 пациента до лечения отозвались о своём самочувствии как о плохом. Из них 8 после лечения дали ответ "хорошее", 22 — "относительно нормальное", а 14 как и прежде — "плохое". Требуется проверить, является ли значимым успех лечения.
Данные находятся в файле kur.sav, который содержит переменные befl и bef2 (самочувствие до и после лечения с кодировками 1 = хорошо, 2 = относительно нормально, 3 = плохо) и n (частоты соответствующих комбинаций состояния пациентов).
|
|
N | |
|
Befinden nach der Kur - Befinden vor der Kur (Самочувствие после лечения - самочувствие до лечения) |
Negative Differences (Отрицательные разности) г |
39 |
|
Positive Differences (Положительные разности) " |
4 | |
|
Ties (Связки) с |
27 | |
|
Total (Сумма) |
67 | |
b. Befinden nach der Kur > Befinden vor der Kur (Самочувствие после лечения > самочувствие до лечения)
с. Befinden nach der Kur = Befinden vor der Kur (Самочувствие после лечения = самочувствие до лечения)
Test Statistics3 (Статистика теста)
|
Befinden nach der Kur - Befinden vor der Kur (Самочувствие после лечения - самочувствие до лечения) | |
|
Z |
-5,185 |
|
Asymp. Sig. (2-tailed) (Статистическая значимость (2-сторонняя)) |
,000 |
Результаты расчёта дают 39 отрицательных разностей (bef2 < befl), которые свидетельствуют о наступлении улучшений и 4 положительных разности, а в 24 наблюдениях изменений самочувствия не наблюдается. Вследствие того, что количества положительных и отрицательных разностей отличаются, значение z получается равным -5,185; этому показателю соответствует вероятность ошибки р < 0,001. Стало быть, наблюдается очень значимый успех лечения.
Тест хи-квадрат по методу МакНемара (McNemar)
14.2.3 Тест хи-квадрат по методу МакНемара (McNemar)Данный тест применяется исключительно при наличии дихотомических переменных. При этом для двух зависимых переменных выясняется, происходят ли какие-либо изменения в структуре распределения их значений. В большинстве наблюдений сравнение проводится с учётом временного фактора по схеме "до — после".
В качестве примера рассмотрим исследование, проведенное в области стоматологии, где изучается факт кровоточивости дёсен до и после лечения.
|
Zahnfleischbluten vor Behandlung (Кровоточивость дёсен до лечения) |
Zahnfleischbluten nach Behandlung (Кровоточивость дёсен после лечения) | |
|
|
2 | 1 |
|
1 |
362 |
808 |
|
2 |
240 |
1565 |
|
Zahnfleischbluten vor Behandlung & Zahnfleischbluten nach Behandlung (Кровоточивость дёсен до лечения & Кровоточивость дёсен после лечения) | |
|
N |
2975 |
|
Chi-Square (Хи-квадрат) а |
306,764 |
|
Asymp. Sig. (Статистическая значимость) |
,000 |
Принимая во внимание кодировки выясняется, что в 808 наблюдениях после лечения кровоточивость дёсен исчезла, однако, с другой стороны, в 240 наблюдениях после прохождения курса лечения вновь появилась. В 362 наблюдениях кровоточивость оставалась постоянной. В 1565 наблюдениях кровоточивости не наблюдалось ни перед, ни после лечения. В соответствии с вероятностью ошибки, соответствующей величине критерия хи-квадрат (р < 0,001), можно констатировать, что разница между количеством улучшений (808) и количеством ухудшений (240) является очень значимой.
Сравнение двух зависимых выборок
14.2 Сравнение двух зависимых выборокПонятие о зависимости выборок было рассмотрено в главе 5.1.3. Для проведения сравнения для таких выборок SPSS предлагает три различных теста, среди которых установленным по умолчанию является тест Уилкоксона. Заслуживает внимания так же и знаковый тест. При наличии дихотомических переменных применяется тест хи-квадрат по методу МакНемара.
Н-тест по методу Крускала и Уоллиса
14.3.1 Н-тест по методу Крускала и УоллисаЭтот тест является модификацией U-теста Манна и Уитни на случай для более двух 1езависимых выборок. Он также базируется на общей ранговой последовательности значений всех выборок.
В данном случае нам необходимо протестировать четыре возрастные категории из рассмотренного выше исследования гипертонии на предмет значимости различия исходного показателя систолического кровяного давления.
jyst. Blutdruck, Ausgangswert (Систолическое кровяное давление, исходное значение)
|
Altersklassen (Возрастные категории) |
Mean (Среднее значение) |
N |
Std. Deviation (Стандартное отклонение) |
|
до 55 лет |
170,38 |
52 |
15,37 |
|
56-65 лет |
172,16 |
51 |
13,12 |
|
66-75 лет |
175,64 |
47 |
13,62 |
|
> 75 лет |
168,75 |
24 |
11,44 |
|
Сумма |
172,10 |
174 |
13,86 |
Н-тест по методу Крускала и Уоллиса является установкой по умолчанию.
Медианный тест
14.3.2 Медианный тестДля всех независимых выборок вычисляется общая медиана; затем подсчитывается, какое количество измеряемых величин находится ниже и выше медианы. Это приводит к построению полевой таблицы, содержащей 2*k полей, которая затем подвергается тесту хи-квадрат. Как уже указывалось, эффективность данного теста не очень высока.
Используем пример, использованный для изучения Н-теста по Крускалу и Уоллису.
Frequencies (Частоты)
|
Altersklassen (Возрастные категории) | |||||
|
|
|
до 55 лет |
56-65 лет | 66-75лет | >75лет |
|
syst. Blutdruck, Ausgangswert (Систолическое кровяное давление, исходная величина) |
> медианы <= медианы |
18 |
19 | 24 |
7 |
|
34 |
32 | 23 |
17 | ||
|
syst. Blutdruck, Ausgangswert (Систолическое кровяное давление, исходная величина) | |
|
N |
174 |
|
Медиана |
170,00 |
|
Хи-квадрат |
4,333а |
|
Df |
3 |
|
Asymp. Sig. (Статистическая значимость) |
,228 |
b Grouping Variable: Altersklassen (Групповая переменная: возрастные категории)
Так как в Н-тесте получилась р = 0,079, то он оказывается более подходящим для выявления закономерностей.
Сравнение более чем двух независимых выборок
14.3 Сравнение более чем двух независимых выборокНаряду Н-тестом по Крускалу и Уоллису, который установлен по умолчанию, предлагается тест медиан, не очень рекомендуемый для применения.
Тест Фридмана
14.4.1 Тест ФридманаЭтот тест представляет собой расширение теста Уилкоксона для случая наличия более чем двух зависимых выборок. Он основывается на ранговых последовательностях, которые строятся для значений всех переменных участвующих в тесте.
Case Processing Summary (Сводная таблица наблюдений)
|
Median (Медианы) | |||
|
diast. Blutdruck, Ausgangswert (Диастоли- ческое кровяное давление, исходная величина) |
diast. Blutdruck, nach 1 Monat (Диастолическое кровяное давление, через 1 месяц ) |
diast. Blutdruck, nach 6 Monaten (Диастоли- ческое кровяное давление, через 6 месяцев) |
diast. Blutdruck, nach 12 Monaten (Диастоли- ческое кровяное давление, через 12 месяцев) |
|
100,00 |
95,00 |
90,00 |
85,00 |
W Кендала
14.4.2 W КендалаКоэффициент согласованности Кендала (W) измеряет степень согласованности между несколькими связанными выборками. Он был специально разработан для проведения тестов в ситуации, когда большое количество рецензентов высказывают своё мнение о большом количестве рецензируемых персон (объектов).
При этом рецензируемые образуют отдельные переменные, а рецензенты — отдельные наблюдения. На этом несколько неожиданном разделении следует остановиться подробнее. Каждый рецензент при помощи заданных наперед оценок выстраивает рецензируемых по рангу. Затем для каждого рецензируемого определяется сумма ранговых номеров. Исходя из этих сумм, определяется масштаб различных отзывов. Коэффициент согласованности W, вычисленный на основании этого масштаба, указывает на меру согласия между рецензентами. Коэффициент согласованности может принимать значения между 0 и 1. Значение 1 соответствует наличию полного согласия.
Три крупные спортивные газеты оценивали футболистов высшей лиги, игравших в прошлом туре чемпионата, при помощи оценок от 1 до 6 (к примеру 1 за "мировой уровень" и 6 за "не отработал свои деньги"). Оценки для 22 футболистов, участвовавших в одной игре, находятся в файле fussball.sav, который содержит три наблюдения, соответствующие трем рецензентам и 22 переменные (sl-s22), соответствующие 12 рецензируемым игрокам.
|
Mean Rank (Усреднённый ранг) | |
|
S1 |
12,33 |
|
S2 |
6,17 |
|
S3 |
10,33 |
|
S4 |
3,50 |
|
S5 |
8,50 |
|
S6 |
19,33 |
|
S7 |
18,50 |
|
S8 |
10,50 |
|
S9 |
6,17 |
|
S10 |
14,67 |
|
S11 |
16,67 |
|
S12 |
12,67 |
|
S13 |
6,67 |
|
S14 |
15,33 |
|
S15 |
19,67 |
|
S16 |
3,33 |
|
S17 |
12,33 |
|
S18 |
17,00 |
|
S19 |
2,17 |
|
S20 |
12,33 |
|
S21 |
16,33 |
|
S22 |
8,50 |
|
N |
3 |
|
W Кендала а |
,741 |
|
Хи-квадрат |
46,695 |
|
Df |
21 |
|
Asymp. Sig. (Статистическая значимость) |
,001 |
Очень значимый (р = 0,001) коэффициент согласованности W (0,741) указывает на высокую согласованность всех трёх спортивных газет при оценке 22 игроков.
Q Кохрана
14.4.3 Q КохранаЭтот тест представляет собой расширенный хи-квадрат-тест по МакНемару для случая с несколькими зависимыми выборками; стало быть, он может применяться при наличии более чем двух дихотомических переменных.
В главе 21 будет описан файл neugier.sav, который содержит 18 вопросов, с помощью которых исследовалась степень любопытства респондентов. Следующие три вопроса взяты из этого файла:
|
Вопрос 10: |
Хотели бы Вы полететь на Луну? |
|
Вопрос 12: |
Спрашивали ли Вы себя когда-нибудь, как будет выглядеть мир через сто лет? |
|
Вопрос 14: |
Предоставили бы Вы себя в руки учёных для проведения научных экспериментов? |
|
Value (Значение) | ||
|
2 | ||
|
item 10 |
9 |
21 |
|
item 12 |
15 |
15 |
|
item14 |
12 |
18 |
|
N |
30 |
|
Q тест Кохрана |
3,375" |
|
df |
2 |
|
Asymp. Sig. (Статистическая значимость) |
,185 |
К результатам данного теста относятся частоты для обеих категорий переменных и тестовое значение Q, полученное на основании распределения хи-квадрат. Между частотными распределениями ответов на эти вопросы не существует значимого различия (р = 0,185).
Сравнение более чем двух зависимых выборок
14.4 Сравнение более чем двух зависимых выборокНаиболее часто применяемым является тест Фридмана, в то время как W-тест Кендала и Q-тест Кохрана предназначены для отдельных специальных случаев.
Тест Колмогорова-Смирнова для проверки формы распределения
14.5 Тест Колмогорова-Смирнова для проверки формы распределенияПри помощи этого теста по выбору можно проверить, соответствует ли реальное распределение переменной нормальному, равномерному, экспоненциальному распределению или распределению Пуассона. Разумеется, самым распространённым видом проверки является проверка наличия нормального распределения.
Чтобы продемонстрировать работу данного теста, проверим на предмет наличия нормального распределения исходные значения холестерина, то есть переменную cho10 из файла hyper.sav.
Отдельный тест по критерию хи-квадрат
14.6 Отдельный тест по критерию хи-квадратС помощью этого теста проверяют, насколько значительно отличаются друг от друга наблюдаемые и ожидаемые частоты переменных, относящихся к номинальной шкале. Как правило, при этом ожидаемая частота подчиняется равномерному распределения; однако в SPSS существует возможность задать соответствующие пропорции.
Одним из примеров ожидаемого равномерного распределения частот являются кости. Предположим, Вы бросили один игральную кость 3000 раз и получили следующее частоты для выпавших очков.
|
Число очков |
Частота |
Число очков |
Частота |
|
1 |
511 |
4 |
498 |
|
2 |
472 |
5 |
513 |
|
3 |
572 |
6 |
434 |
После нажатия кнопки Опции... у Вас появится возможность организовать вывод характеристик дескриптивной статистики и квартилей (что в данном случае является абсолютно бессмысленным).
Augenzahl (Число очков)
|
Observed N (Наблюдаемое N) |
Expected N (Ожидаемое N) |
Residuals (остатки) | |
|
1 |
511 |
500,0 |
11,0 |
|
2 |
472 |
500,0 |
-28,0 |
|
3 |
572 |
500,0 |
72,0 |
|
4 |
498 |
500,0 |
-2,0 |
|
5 |
513 |
500,0 |
13,0 |
|
6 |
434 |
500,0 |
-66,0 |
|
Total (Сумма) |
3000 |
|
|
|
Augenzahl (Число) | |
|
Chi-Square (Хи-квадрат) а |
21,236 |
|
Df |
5 |
|
Asymp. Sig. (Статистическая значимость) |
,001 |
Получилось очень значимое значение критерия хи-квадрат (р = 0,001). В рассматриваемом случае желателен вывод не абсолютных, а стандартизированных остатков, определяемых по формуле:
Биномиальный тест
14.7 Биномиальный тестЭтот тест проверяет дихотомические переменные на наличие различия между частотами обоих проявлений признака. Недихотомические переменные могут быть диэтомизированы (разделены на две категории) при помощи задания некоторой разделительной величины.
Представьте себе, что Вы играете со своим партнёром по теннису 50 матчей и выигрываете 29. Ваш партнёр, выигравший 21 раз, думает, что Вы ничем не лучше, а эта разница является случайной.
Чтобы это проверить можно выполнить биномиальный тест.
Binomial Test (Тест на биномиальное распределение)
| Category (Категория) | N | Observed Prop. (Наблюда- емая пропорция) | Test Prop. (Тестовая пропорция) | Asymp. Sig. (2-tailed) (Статисти- ческая значимость (2-сторонняя)) | ||
| SPIELER (Игрок) | Группа 1 | 1 | 29 | ,58 | ,50 | ,322а |
| Группа 2 | 2 | 21 | ,42 | |||
| Total (Сумма) | 50 | 1,00 | ||||
Анализ последовательностей
14.8 Анализ последовательностейПри проверке последовательности дихотомических значений переменной выясняется следующий вопрос: идёт ли речь о случайном ряде или ряд построен в соответствии с определённой закономерностью.
В качестве примера рассмотрим три различные очереди людей, стоящих у кассы кинотеатра, учитывая пол.
1. Очередь: мжмжмжмжмжмжмжмжмжмж
2. Очередь: жмжммжжммжмжмжжмжммж
3. Очередь: мжжжжммммжжжжмжжмжмж
В первой очереди можно заметить явную закономерность, т.к. посетители стоят всегда по парам, при чём мужчина всегда стоит впереди. Во второй очереди, также просматривается попарный рисунок, хотя очерёдность мужчин и женщин меняется Третья очередь была выстроена генератором случайных чисел. Для первой очереди следует ожидать значительное отклонение от случайной последовательности, для второй очереди скорее всего так же, а для третьей нет.
Данные рассматриваемого примера соответствуют трем переменными rl, r2 и r3 в файле kino.sav. Мужчинам присвоен код 0, а женщинам 1.
Диалоговое окно One Sample Kolomgorov-Smirnov Test (Тест Колмогорова-Смирнова для одной выборки)
Диалоговое окно One Sample Kolomgorov-Smirnov Test (Тест Колмогорова-Смирнова для одной выборки)
Предварительно установленной является проверка на нормальное распределение. В окне просмотра появятся следующие результаты:
One-Sample Kolmogorov-Smirnov Test (Тест Колмогорова-Смирнова для одной выборки)
|
Cholesterin, Ausgangswert (Холестерин, исходная величина) | ||
|
N |
|
174 |
|
Normal Parameters (Параметр нормального распределения) а' ь |
Mean (Среднее значение) Std. Deviation (Стандартное отклонение) |
237,27 49,42 |
|
Most Extreme Differences (Экстремальные разности) |
Absolute (Абсолютные) Positive (Положительные) Negative (Отрицательные) |
,057 ,057 -,046 |
|
Z Колмогорова-Смирнова |
|
,756 |
|
Asymp. Sig. (2-tailed) (Статистическая значимость (2-сторонняя)) |
|
,616 |
b. Calculated from data. (Рассчитано исходя из исходных данных.)
Полученные результаты включают:
Диалоговое окно Runs Test (Тест для последовательностей)
Диалоговое окно Runs Test (Тест для последовательностей)
Runs Test (Критерий серий)
|
Test Value (Проверяемое значение) " |
R1 1 |
R2 1 |
R3 1 |
|
Total Cases (Общее количество случаев) |
20 |
20 |
20 |
|
Number of Runs (Количество последовательностей) |
20 |
15 |
10 |
|
Z |
3,905 |
1,608 |
-,048 |
|
Asymp. Sig. (2-tailed) (Статистическая значимость (2-сторонняя)) |
,000 |
,108 |
,962 |
|
а. User-specified. (Определяется пользователем) | |||
Диалоговое окно СЫ-Square Test (Хи-квадрат-тест)
Диалоговое окно СЫ-Square Test (Хи-квадрат-тест)
(см. гл. 11.1). При помощи основополагающего правила, приведенного в главе 8.7.2, можно точно определить те категории, для которых наблюдается значительное отклонение наблюдаемых частот от ожидаемых:
Стандартизированные остатки >= 2,0 указывают на значительное, >= 2,6 на очень значительное и >= 3,3 на сверх значительное отклонение. Если следовать этому правилу, то в экспериментах с игральной костью наблюдается очень значимое превышение количества выпадений 3 очков и очень, очень значимое занижение количества выпадений 6 очков.
Во втором примере, который принадлежит к области ботаники, нужно проверить не равномерное распределение, а наличие распределения подчиняющегося заданному соотношению.
Потомки трёх сортов бобовой культуры были разделены на три типа, которые находятся в соотношении между собой как 1:2:1. Во время некоторого эксперимента, проведенного с сотней таких потомков тип 1 появился 29 раз, тип 2 — 44 раза и тип 3 — 27 раз. Необходимо исследовать значительно ли отклоняется полученное распределение от теоретического распределения 1:2:1.
Данные находятся в файле bohnen.sav, причём переменная typ соответствует типу, а переменная n частоте.
|
Observed N (Наблюдаемое N) |
Expected N (Ожидаемое N ) |
Residual (Остаток) | |
|
1 |
29 |
25,0 |
4,0 |
|
2 |
44 |
50,0 |
-6,0 |
|
3 |
27 |
25,0 |
2,0 |
|
Total (Сумма) |
100 |
|
|
|
Тур (Тип) | |
|
Chi-Square (Хи-квадрат) а |
1,520 |
|
Of |
2 |
|
Asymp. Sig. (Статистическая значимость) |
,468 |
Ожидаемые частоты выстроены в соответствии с заданным соотношением. На сей раз значимого отклонения наблюдаемых частот от ожидаемых не наблюдается (р = 0,468).
Диалоговое окно Tests for Several Independent Samples (Тесты для нескольких независимых выборок)
Диалоговое окно Tests for Several Independent Samples (Тесты для нескольких независимых выборок)
Ranks (Ранги)
|
Altersklassen (Возрастные категории) |
N |
Mean Rank (Средний ранг) | |
|
syst. Blutdruck, Ausgangswert (Систолическое давление, исходная величина) |
до 55 лет |
52 |
79,76 |
|
56-65 лет |
51 |
87,51 | |
|
66-75 лет |
47 |
102,17 | |
|
> 75 лет |
24 |
75,52 | |
|
Total (Сумма) |
174 |
|
|
syst. Blutdruck, Ausgangswert (Систолическое кровяное давление, исходная величина) | |
|
Chi-Square (Хи-квадрат) |
6,801 |
|
Df |
3 |
|
Asymp. Sig. (Статистическая значимость) |
,079 |
b. Grouping Variable: Altersklassen (Групповая переменная: Возрастные категории)
В результаты расчёта входят:
Диалоговое окно Tests for Several Related Samples (Тесты для нескольких связанных выборок)
Диалоговое окно Tests for Several Related Samples (Тесты для нескольких связанных выборок)
В окне просмотра появятся следующие результаты:
Ranks (Ранговые ряды)
|
Mean Rank (Средний ранг) | |
|
diast. Blutdruck, Ausgangswert (Диастолическое кровяное давление, исходная величина ) |
3,81 |
|
diast. Blutdruck, nach 1 Monat Диастолическое кровяное давление, через 1 месяц ) |
2,57 |
|
diast. Blutdruck, nach 6 Monaten (Диастолическое кровяное давление, через 6 месяцев) |
2,02 |
|
diast. Blutdruck, nach 12 Monaten (Диастолическое кровяное давление, ЧЙПРЗ 1 9 Миля! ien^ |
1,60 |
|
N |
174 |
|
Chi-Square (Хи-квадрат) |
317,754 |
|
Df |
3 |
|
Asymp. Sig. (Статистическая значимость) |
,000 |
Полученные результаты содержат:
Диалоговое окно Тест на биномиальное распределение
Диалоговое окно Тест на биномиальное распределение
В выводимые результаты включают наблюдаемые абсолютные и относительные частоты обеих категорий, а так же ожидаемую относительную частоту первой категории Полученная вероятность ошибки (р = 0,322) говорит о том, что между наблюдаемой и ожидаемой относительными частотами не существует значимого различия. Стало быть и разница между обеими частотами выигрыша не является значимой.
Диалоговое окно Two-Related-Samples Tests (Тесты для двух связанных выборок)
Диалоговое окно Two-Related-Samples Tests (Тесты для двух связанных выборок)
Теперь повторим тест, но отдельно для каждого медикамента. Это значит, что один раз расчёт нужно произвести с условием med = 1, а второй с условием med = 2.
Для расчёта можно применить метод "Выбрать наблюдения", однако метод "Разделить файл" является более быстрым (см. гл. 7.4).
Диалоговое окно Two Independent Samples Tests (Тесты для двух независимых выборок)
Диалоговое окно Two Independent Samples Tests (Тесты для двух независимых выборок)
Ранги
|
|
Пол |
N |
Mean Rank (Усреднённый ранг) |
Sum of Ranks (Ранговая сумма) |
|
Blutzucker, Ausgangswert (Сахар, исходное значение) |
maennlich (Мужской) |
59 |
81,66 |
4818,00 |
|
weiblich Женский |
115 |
90,50 |
10407,00 | |
|
Total (Сумма) |
174 |
|
|
|
Blutzucker, Ausgangswert (Сахар, исходное значение) | |
|
Mann-Whitney U jU-тест по Манну и Уитни) |
3048,000 |
|
W Уилкоксона |
4818,000 |
|
Z |
-1,096 |
|
Asymp. Sig. (2-tailed) Асимптотическая значимость (2-сторонняя) |
,273 |
Выведенные результаты включают следующие показатели:
Нажав кнопку Options, Вы можете выбрать дополнительные возможности вывода данных, относящихся к рассмотренному и к другим непараметрическим тестам. Наряду с обычной обработкой пропущенных значений, можно организовать расчет дескриптивных статистик (среднее значение, минимум, максимум, стандартное отклонение, количество наблюдений) и квартилей (25, 50 и 75 процентили). Однако в этом случае характеристики дескриптивной статистики будут определяться одновременно для тестируемых и группирующих переменных. Это абсолютно бесполезно, так как в данном случае дескриптивная статистика имеет смысл только для тестируемых переменных, разбитых на группы по группирующим переменным. К сожалению, данная ошибка не была исправлена и в 10 версии SPSS.
В рассмотренном примере проведения U-теста был бы также очень полезен расчет медиан обеих групп. Медианы определяются с помощью других средств SPSS. В нашем примере медиана показателя сахара для мужчин равна 93, а для женщин 97.
Непараметрические тесты
Непараметрические тестыНепараметрические (не основанные на каком-либо распределении вероятности) тесты применяются там, где выборки из переменных, принадлежащих к интервальной шкале, не подчиняются нормальному распределению. Так как в этих тестах обрабатывается не само измеренное значение, а его ранг (положение внутри выборки), то эти тесты нечувствительны к выбросам. Непараметрические тесты применяются также в тех случаях, когда переменные относятся к порядковой, а не к интервальной шкале. В меню Analyze (Анализ) Nonparametric Tests (Непараметрические тесты)
SPSS предоставляет в распоряжение пользователей немалое количество непараметрических тестов. Все эти тесты приведены в нижеследующей таблице. В левой колонке находятся описания вспомогательных меню, а правая содержит описания тестов, вызываемых через соответствующие диалоговые окна.
|
Вспомогательные меню |
Аналоговое окно |
|
Chi-Square (Хи-квадрат) |
|
|
Binomial (Биномиальный) |
|
|
Runs (Последовательности) |
|
|
1 -Sample K-S... (Колмогоров-Смирнов для одной выборки) |
|
|
2 Independent Samples (Две независимые выборки) |
Mann-Withney-U-Test (U-тест Манна-Уитни) Moses extreme reactions (Экстремальные реакции по Мозесу) |
|
|
Z Kolomgorov-Smirnov (Z-тест Колмогорова-Смирнова |
|
|
Wald-Wolfowitz runs (Последовательности Уалда-Вольфовица) |
|
К Independent Samples (К независимых выборок) |
Н Kruskal-Wallis (Н-тест Крускала-Уоллиса) Median (Медианный тест) |
|
2 Related Samples (Две связанные выборки) |
Wilcoxon (Тест Уилкоксона) Sign (Знак) |
|
|
McNemar (Тест МакНемара) |
|
К Related Samples (К связанных выборок) |
Friedman (Тест Фридмана) |
|
|
W Kendall (W-тест Кендала) |
|
|
Q Cochran (Q-тест Кохрана) |
Непараметрические тесты могут, конечно, применяться и в случае нормального распределения значений. Но в этом случае они будут иметь лишь 95 %-ую эффективность по сравнению с параметрическими тестами. Если Вы хотите, к примеру, произвести множественное сравнение средних значений двух независимых выборок, причем выборки являются частично подчиняются нормальному распределению, а частично — нет, то рекомендуется всегда применять U-тест Манна и Уитни.
Задачи статистики в пакете SPSS
Коэффициент корреляции Пирсона
15.1 Коэффициент корреляции ПирсонаДанный коэффициент вычисляется по следующей формуле:
Ранговые коэффициенты корреляции по Спирману и Кендалу
15.2 Ранговые коэффициенты корреляции по Спирману и КендалуДля переменных, принадлежащих к порядковой шкале или для переменных, не подчиняющихся нормальному распределению, а также для переменных принадлежащих к интервальной шкале, вместо коэффициента Пирсона рассчитывается ранговая корреляция по Спирману. Для этого отдельным значениям переменных присваиваются ранговые места, которые впоследствии обрабатываются с помощью соответствующих формул. Чтобы выявить ранговую корреляцию, уберите в диалоговом окне Bivariate Correlations... (Парные корреляции) метку для расчета корреляции по Пирсону, установленную по умолчанию. Вместо этого активируйте расчет корреляции Спирмана. Это расчет даст следующие результаты (см. стр. 260).
Коэффициенты ранговой корреляции весьма близки к соответствующим значениям коэффициентов Пирсона (исходные переменные имеют нормальное распределение). Ещё одним вариантом ранговых коэффициентов корреляции являются коэффициенты Кендала (tb Кендала), расчет которых можно вызвать в диалоговом окне Bivariate Correlations... (Парные корреляции). В этом методе одна переменная представляется в виде монотонной последовательности в порядке возрастания величин; другой переменной присваиваются соответствующие ранговые места. Количество инверсий (нарушений монотонности по сравнению с первым рядом) используется в формуле для корреляционных коэффициентов. Применение коэффициента Кендала является предпочтительным, если в исходных данных встречаются выбросы.
Correlations (Корреляции)
| Chole- sterin, Ausgan-gswert (Холе-стерин, исходная величина) | Chole-sterin, nach 1 Monat (Холе-стерин, через 1 месяц) | Chole-sterin, nach 6 Monaten (Холе-стерин, через 6 месяцев) | Chole- sterin, nach 12 Monaten (Холе-стерин, через 12 месяцев) | |||
| Spearman's rho (рСпир-мана) | Chole-sterin, Ausgang-swert (Холес-терин, исходная величина) | Correlation Coefficient (Коэф- фициент корре- ляции) Sig. (2-tailed) (Значимость (2-сторонняя)) N | 1,000 174 |
,877" ,000 174 |
,791" ,000 174 |
,792"! ,000 174 |
| Chole-sterin, nach 1 Monat (Холес-терин, через 1 месяц) | Correlation Coefficient (Коэф- фициент корре- ляции) Sig. (2-tailed) (Значимость (2-сторонняя)) N |
,877" ,000 174 | 1,000 174 |
,874** ,000 174 |
,834" ,000 174 | |
| Chole-sterin, nach 6 Monaten (Холес-терин, через 6 месяцев) | Correlation Coefficient (Коэф- фициент корр-еляции) Sig. (2-tailed) (Значимость (2-сторонняя)) N |
,791** ,000 174 |
,874** ,000 174 | 1,000 174 |
,879" ,000 174 | |
| Choles-terin, nach 12 Monaten (Холес-терин, через 12 месяцев) | Correlation Coefficient (Коэф- фициент корре- ляции) Sig. (2-tailed) (Значимость (2-сторонняя)) N |
,792** ,000 174 |
.834" ,000 174 |
,879" ,000 174 | 1,000 174 | |
Если рассчитать корреляционную матрицу Кендала, то станет заметно, что в данном случае коэффициенты значительно ниже корреляционных коэффициентов Спирмана.
Частная корреляция
15.3 Частная корреляцияЕсли исследовать достаточно большую совокупность мужчин и сопоставить размер их обуви с уровнем образованности, то между этими двумя переменными можно заметить хоть и небольшую, но в то же время значимую корреляцию. Это корреляция может послужить примером так называемой ложной корреляции. Здесь статистически значимый коэффициент корреляции является не проявлением некоторой причинной связи между двумя рассматриваемыми переменными, а в большей степени обусловлен некоторой третьей переменной.
В рассматриваемом примере такой переменной является рост. С одной стороны существует некоторая незначительная корреляция между ростом и уровнем образованности, а с другой — вполне объяснимая и логичная связь между ростом и размером обуви. Вместе эти две корреляции приводят к упоминавшейся ложной корреляции. Для исключения одной такой искажающей переменной необходим расчёт так называемой частной корреляции.
Если присвоить коррелирующим переменным индексы 1 и 2, а искажающей переменной — индекс 3, и попарно рассчитать корреляционный коэффициент (Пирсона) r12,r13, и r23 , то для частных корреляционных коэффициентов получим:
Мера расстояния и мера сходства
15.4 Мера расстояния и мера сходстваНаряду с приведенными корреляционными коэффициентами, SPSS дополнительно предлагает расчет ряда мер расстояния и мер сходства. Так, к примеру, реализован расчет многочисленных мер сходства при анализе взаимосвязи между дихотомическими переменными. Некоторые статистические процедуры, такие как факторный анализ, кластерный анализ, многомерное масштабирование, построены на применении этих мер, а иногда сами представляют добавочные возможности для вычисления 1 ер подобия. Если Вы во время выполнения этих процедур захотите использовать какую-либо меру, не предусмотренную в выбранной процедуре, то Вам следует воспользоваться дополнительными возможностями, предоставляемыми SPSS.
В качестве примера возьмем анкету, которая будет рассматриваться в главе 21. Она посвящена исследованию степени любознательности опрашиваемых.
В этом диалоговом окне Вы можете организовать расчет расстояния между наблюдениями или между переменными, а также выбрать тип рассчитываемой меры мера отличия или мера подобия). Щелчком на кнопке Measures... (Меры) можно выбрать формулу вычисления меры расстояния для интервальных или дихотомических (бинарных) переменных. В основу расчета мер отличия могут быть также положены и частоты.
Все меры отличия и сходства для переменных, принадлежащих к интервальной шкале, будут рассмотрены в главе 20.3. Эти меры являются важным элементом кластерного анализа. Ниже приведены формулы для мер сходства между бинарными (дихотомическими) переменными, принадлежащими к интервальной шкале. Символами а, b, с и d обозначены частоты, находящиеся в ячейках таблицы 2x2 (четырёхполевой таблицы). В случае необходимости, более подробное объяснение этих формул Вы найдёте в главе 20.3.3.
Внутриклассовый коэффициент корреляции (Intraclass Correlation Coefficient (ICC))
15.5 Внутриклассовый коэффициент корреляции (Intraclass Correlation Coefficient (ICC))Внутриклассовый коэффициент корреляции (ICC) со значениями, находящимися в диапазоне между -1 и +1, применяется в качестве меры связанности в том случае, когда согласованность двух признаков должна быть проверена не так, как при расчете рассмотренных выше корреляционных коэффициентов, относительно её общей направленности ("чем больше одна переменная, тем больше вторая"), а также и относительно средних уровней обеих переменных. Таким образом, расчёт ICC считается уместным только тогда, когда обе переменные имеют приблизительно одинаковый уровень значений. Подобная ситуация вероятнее всего возникнет в случае, когда одной и той же величине дается двоякая оценка.
ICC играет также важную роль при анализе достоверности (гл. 21), где он применяется в качестве меры достоверности. При его расчёте используется более двух переменных, называемых в данном случае объектами. В связи с этим расчёт ICC в SPSS производится в рамках анализа достоверности.
Рассмотрим расчёт ICC на данных одного типичного примера.
Если Вы произведёте расчёт корреляционных коэффициентов Пирсона (см. гл. 15.1) для переменных а и agesch, то получите значение г = 0,944. Такое же значение Вы получите при расчёте корреляции между переменными а и agesch2, так как соотношение между обоими переменными не изменилось.
Определим теперь ICC.
RELIABILITY ANALYSIS - SCALE (ALPHA) Intraclass Correlation Coefficient One-way random effect model: People Effect Random Single Measure Intraclass Correlation = ,9367 95,00% C.I.: Lower = Л9156 Upper = ,9526 F = 30,5740 DF = ( 173, 174,0) Sig. = ,0000 (Test Value = ,0000 ) Average Measure Intraclass Correlation = , 9673 95,00% C.I.: Lower = ,9559 Upper = ,9757 F = 30,5740 DF = ( 173, 174,0) Sig. = ,0000 (Test Value = ,0000 ) Reliability Coefficients N of Cases = 174,0 N of Items = 2 Alpha = ,9680 Результаты обычного расчёта ICC Вы найдёте под заголовком «Single Measure Intraclass Correlation». Вы получите значение ICC = 0,9367, которое с 95 %-м доверительным интервалом принадлежит к диапазону от 0,9156 до 0,9526. Это значение весьма близко к корреляционным коэффициентам Пирсона.
Ещё одним типичным случаем для применения расчёта ICC является определение связей между фактическим весом и весом по оценке со стороны или фактическим и оценочным ростом.
Активируйте расчёт расстояний Between Variables
Частоты в таблице 2x2
Proximity Matrix (Матрица близости)
|
Russell and Rao Measure (Мера подобия Рассела и Рао) | ||
|
ITEM3 | ITEM14 | |
|
ITEM3 ITEM 14 |
,300 |
,300 |
Пример второй: расчёт корреляционной матрицы 2x2 в качестве базиса для факторного анализа
Мы хотим рассчитать корреляционную матрицу для восемнадцати переменных item1-item18 с применением четырёхточечная корреляция фи. В этом случае корреляционную матрицу можно использовать в качестве базиса для факторного анализа. Для решения этой задачи нам предстоит поработать с программным синтаксисом SPSS.
Диалоговое окно Bivariate Correlations (Двумерные корреляции)
Диалоговое окно Bivariate Correlations (Двумерные корреляции)
Полученные результаты содержат: корреляционный коэффициент Пирсона r, количество использованных пар значений переменных и вероятность ошибки р, соответствующая предположению о ненулевой корреляции. В приведенном примере присутствует сильная корреляция, поэтому все коэффициенты конечно же являются сверхзначимыми (р < 0,001). Следовательно, маркировка корреляции, приведенная :-низу таблицы, должна была бы состоять из трёх звёздочек, которыми обозначается уровень р=0,001.
При помощи щелчка на кнопке Options... (Опции) можно организовать расчёт среднего значения и стандартного отклонения для двух переменных. Дополнительно могут выводиться отклонения произведений моментов (значений числителя формулы для коэффициента корреляции) и элементы ковариационной матрицы (числитель, делённый на n - 1).
Диалоговое окно Distances... (Расстояния).
Диалоговое окно Distances... (Расстояния).
Рассел и Рао (Russel and Rao)
Диалоговое окно Partial Correlations (Частичные корреляции)
Диалоговое окно Partial Correlations (Частичные корреляции)
Корреляции
КорреляцииВ этой главе речь пойдёт о связи (корреляции) между двумя переменными. Расчёты подобных двумерных критериев взаимосвязи основываются на формировании парных значений, которые образовываются из рассматриваемых зависимых выборок.
Если в качестве примера мы возьмём данные об уровне холестерина для первых двух моментов времени из исследования гипертонии (файл hyper.sav), то в данном случае следует ожидать довольно сильную связь: большие значения в исходный момент времени являются веским поводом для ожидания больших значений и через 1 месяц.
Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая; пара значений маркируется при помощи определенного символа. Такой график, называемый «диаграммой рассеяния» для двух зависимых переменных можно построить путём вызова меню Graphs... (Графики) Scatter plots... (Диаграммы рассеяния) (см. гл. 22.8).
Образовавшееся скопление точек показывает, что обследованные пациенты с высокими исходными показателями, как правило, имеют высокие значения холестерина и при повторном опросе через месяц. Это, конечно же, не является неожиданностью; данный пример был выбран, чтобы продемонстрировать наличие явной связи.
Статистик говорит о корреляции между двумя переменными и указывает силу связи при помощи некоторого критерия взаимосвязи, который получил название коэффициента корреляции. Этот коэффициент, всегда обозначаемый латинской буквой г, может принимать значения между -1 и +1, причём если значение находится ближе к 1, то это означает наличие сильной связи, а если ближе к 0, то слабой.
Диаграммы рассеяния
Рис. 15.1.Диаграммы рассеяния
Если коэффициент корреляции отрицательный, это означает наличие противоположной связи: чем выше значение одной переменной, тем ниже значение другой. Сила связи характеризуется также и абсолютной величиной коэффициента корреляции. Для словесного описания величины коэффициента корреляции используются следуюшие градации:
|
Значение |
Интерпретация |
|
до 0,2 |
Очень слабая корреляция |
|
до 0,5 |
Слабая корреляция |
|
до 0,7 |
Средняя корреляция |
|
до 0,9 |
Высокая корреляция |
|
свыше 0,9 |
Очень высокая корреляция |
Задачи статистики в пакете SPSS
Двухступенчатый метод наименьших квадратов
16.10 Двухступенчатый метод наименьших квадратовПри помощи этого метода, используемого в эконометрии, производится анализ переменных, представленных в виде временных рядов. Примером может здесь послужить классическая эконометрическая модель, в которой спрос на некоторый продукт зависит от его цены, уровня обеспеченности (достатка) потенциальных покупателей и других неизвестных факторов:
Спрос = ß0 + ß1 • Цена + ß2 • Достаток + Ошибка
Наряду с независимыми переменными (называемыми также объявленными переменными) в этом уравнении должно быть указано, по меньшей мере, такое же количество так называемых инструментальных переменных. Они могут оказывать влияние на независимые переменные, при этом сами независимые переменные оказывать влияния на них не могут. Если речь идёт о сельскохозяйственном продукте, то такими переменными могут быть климатические переменные. Инструментальные переменные должны иметь сильную корреляцию с независимыми переменными, но совсем не иметь корреляции со слагаемыми ошибки.
В диалоговом окне для этого метода выводится запрос по поводу зависимых, объявленных и инструментальных переменных. На данном этапе рассмотрение конкретного примера мы опустим.
Расчёт уравнения регрессии
16.1.1 Расчёт уравнения регрессииОткройте файл hyper.sav.
Model Summary (Сводная таблица по модели)
|
Model (Модель) |
R |
R Square (R-квадрат) |
Adjusted R Square (Смещенный R-квадрат) |
Std. Error of the Estimate (Стандартная ошибка оценки) |
|
1 |
,861а |
,741 |
,740 |
25,26 |
ANOVA b
|
Model (Модель) |
|
Sum of Squares (Сумма Квадратов) |
df |
Mean Square (Сред-нее значе- ние квадра- та) |
F |
Sig. (Значи-мость) |
|
1 |
Regre- ssion (Регре- ссия) |
314337,948 |
1 |
314337,9 |
492,722 |
,000a |
|
Residual (Остатки) |
109729,408 |
172 |
637,962 |
|
| |
|
Total (Сумма) |
424067,356 |
173 |
|
|
|
b. Dependent Variable: Cholesterin, nach 1 Monat (Зависимая переменная холестерин через 1 месяц)
Сохранение новых переменных
16.1.2 Сохранение новых переменныхМногочисленные вспомогательные значения, рассчитываемые в ходе построения уравнения регрессии, можно сохранить как переменные и использовать в дальнейших расчётах.
В 10 версии SPSS появилась новая возможность сохранять информацию о модели в так называемом XML-файле. В дальнейшем он может использоваться некоторыми дополнительными SPSS-продуктами (к примеру, Whatlf?).
Интересными здесь представляются опции Standardized (Стандартизированные значения) и Unstandardized (Нестандартизированные значения), которые находятся под рубрикой Predicted values (Прогнозируемые величины опции). При выборе опции Не стандартизированные значения будут рассчитывается значения у, которое соответствуют уравнению регрессии. При выборе опции Стандартизированные значения прогнозируемая величина нормализуется. SPSS автоматически присваивает новое имя каждой новообразованной переменной, независимо от того, рассчитываете ли Вы прогнозируемые значения, расстояния, прогнозируемые интервалы, остатки или какие-либо другие важные статистические характеристики. Нестандартизированным значениям SPSS присваивает имена pre_1 (predicted value), pre_2 и т.д., а стандартизированным zpr_l.
Построение регрессионной прямой
16.1.3 Построение регрессионной прямойЧтобы на диаграмме рассеяния изобразить регрессионную прямую, поступите следующим образом:
Выбор осей
16.1.4 Выбор осейДля диаграмм рассеяния часто оказывается необходимой дополнительная корректировка осей. Продемонстрируем такую коррекцию при помощи одного примера. В файле raucher.sav находятся десять фиктивных наборов данных. Переменная konsum указывает на количество сигарет, которые выкуривает один человек в день, а переменная puls на количество времени, необходимое каждому испытуемому для восстановления пульса до нормальной частоты после двадцати приседаний. Как было показано ранее, постройте диаграмму рассеяния с внедрённой регрессионной прямой.
Простая линейная регрессия
16.1 Простая линейная регрессияЭтот вид регрессии лучше всего подходит для того, чтобы продемонстрировать основополагающие принципы регрессионного анализа. Рассмотрим для этого диаграмму рассеяния из главы 15.1, которая иллюстрирует зависимость показателя холестерина спустя один месяц после начала лечения от исходного показателя, полученную при исследовании гипертонии. Можно легко заметить очевидную связь: обе переменные развиваются в одном направлении и множество точек, соответствующих наблюдаемым значениям показателей, явно концентрируется (за некоторыми исключениями) вблизи прямой (прямой регрессии). В таком случае говорят о линейной связи.
у=b*х + а
где b — регрессионные коэффициенты, a — смещение по оси ординат.
Смещение по оси ординат соответствует точке на оси у (вертикальной оси), где прямая регрессии пересекает эту ось. Коэффициент регрессии b через соотношение
b = tg(a) указывает на угол наклона прямой.
При проведении простой линейной регрессии основной задачей является определение параметров b и а. Оптимальным решением этой задачи является такая прямая, для которой сумма квадратов вертикальных расстояний до отдельных точек данных является минимальной.
Если мы рассмотрим показатель холестерина через один месяц (переменная chol1) как зависимую переменную (у), а исходную величину как независимую переменную (х), то тогда для проведения регрессионного анализа нужно будет определить параметры соотношения
chol1 = b-chol0 + a
После определения этих параметров, зная исходный показатель холестерина, можно спрогнозировать показатель, который будет через один месяц.
Множественная линейная регрессия
16.2 Множественная линейная регрессияВ общем случае в регрессионный анализ вовлекаются несколько независимых переменных. Это, конечно же, наносит ущерб наглядности получаемых результатов, так как подобные множественные связи в конце концов становится невозможно представить графически.
В случае множественного регрессионного анализа речь идёт необходимо оценить коэффициенты уравнения
у = b1-х1+b2-х2+... + bn-хn+а,
где n — количество независимых переменных, обозначенных как х1 и хn, а — некоторая константа.
Переменные, объявленные независимыми, могут сами коррелировать между собой; этот факт необходимо обязательно учитывать при определении коэффициентов уравнения регрессии для того, чтобы избежать ложных корреляций.
В качестве примера рассмотрим стоматологическое обследование 1130 человек, в котором исследуется вопрос необходимости лечения зубного ряда, измеряемой при помощи так называемого показателя CPITN, в зависимости от набора различных переменных.
При этом зубной ряд был разделён на секстанты, для которых и происходило определение показателя CPITN. Этот показатель может принимать значения от 0 до 4, где 0 соответствует здоровому состоянию, а 4 наибольшей степени развития заболевания. Затем значения показателя CPITN для всех секстант были усреднены.
Файл zahn.sav содержит следующие переменные:
| Имя переменной | Расшифровка |
| cpitn | Усредненное значение CPITN |
| alter | Возраст |
| g | Пол (1 = мужской, 2 = женский) |
| s | Образование (1 = специальное школьное, 2 = неполное школьное, 3 = среднее, 4 = аттестат зрелости, 5 = высшее образование) |
| pu | Периодичность чистки зубов (1 = меньше одного раза в день, 2 = один раз в день, 3 = два раза в день, 4 = долее двух раз в день) |
| zb | Смена зубной щётки (1 = каждый месяц, 2 = каждые три месяца, 3 = раз в полгода, 4 = ещё реже) |
| beruf (профессия) | Профессия (1 = государственный служащий/служащий, 2 = рабочий/профессиональный рабочий, 3 = занятость в области медицины, 4 = военный) |
В данном случае можно прибегнуть к специальному трюку: разложить переменную beruf на четыре, так называемых, фиктивных переменных, с кодировками отвечающими О (действительно) и 1 (ложно). В файл добавляются четыре новые переменные: berufl-beruf4, которые поочередно соответствуют четырём различным кодировкам переменной beruf. Так, к примеру, переменная berafl указывает на то, является ли данный респондент государственным служащим/работником (кодировка 1) или нет (кодировка 0).
Наиболее распространенным является пошаговый метод, который устроен так же, как и прямой метод, однако после каждого шага переменные, используемые в данный момент, исследуются по обратному методу. При пошаговом методе могут задаваться блоки независимых переменных; в этом случае заданные блоки на одном шаге обрабатываются совместно.
| Model (Модель) | R | R Square (Коэф- фициент детерми- нации) | Adjusted R Square (Скорректи- рованный R-квадрат) | Std. Error of the Estimate (Станда- ртная ошибка оценки) |
| 1 2 3 4 5 | ,452а ,564b ,599с ,609d ,613е | ,204 ,318 ,359 ,371 ,375 | ,203 ,317 ,358 ,369 ,373 | ,8316 ,7698 ,7467 ,7402 ,7380 |
b. Predictors: (Constant), Alter, Putzhaeufigkeit (Влияющие переменные: (константа), возраст, периодичность чистки)
c Predictors: (Constant), Alter, Putzhaeufigkeit, Zahnbuerstenwechsel (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки)
d Predictors: (Constant), Alter, Putzhaeufigkeit, Zahnbuerstenwechsel, Schulbildung (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки, образование)
е. Predictors: (Constant), Alter, Putzhaeufigkeit, Zahnbuerstenwechsel, Schulbildung, Arbeiter/Facharbeiter (Влияющие переменные: (константа), возраст, периодичность чистки, смена зубной щётки, образование, рабочий/профессиональный работник) .
Из первой таблице следует, что вовлечение переменных в расчет производилось за пять шагов, то есть переменные возраст, периодичность чистки, смена зубной щётки, образование, рабочий/профессиональный работник поочерёдно внедрялись в уравнение регрессии. Для каждого шага происходит вывод коэффициентов множественной регрессии, меры определённости, смещенной меры определённости и стандартной ошибки.
К указанным результатам пошагово присоединяются результаты расчёта дисперсии (см. гл. 16.1.1), которые здесь не приводятся. Также, пошаговым образом, производится вывод соответствующих коэффициентов регрессии и значимость их отличия от нуля.
Coefficients (Коэффициенты) a
| Model (Модель) | UnStan- dardized Coefficients (He стандарти-зированные коэф- фициенты) | Standa- rdized Coefficients (Стандарти-зированные коэф-фициенты) | Т | Sig. (Значи мость) | ||
| В | Std. Error (Станда- ртная ошибка) | ß (Beta) | ||||
| (Constant) (Константа) Alter (Возраст) | 1,295 3,31 Е-02 | ,071 ,002 | ,452 | 18,220 17,006 | ,000 ,000 | |
| 2 | (Константа) Возраст Перио- дичность чистки | 3,024 3.20Е-02 -,604 | ,142
,002 ,044 |
,437 -,339 | 21,317 17,765 -13,756 | ,000 ,000 ,000 |
| 3 | (Константа) Возраст Перио- дичность чистки Смена зубной щётки | 1,903 3.25Е-02 -,439 ,253 | ,191
,002 ,047 ,030 |
,443
-,246 ,222 |
9,976 18,555 -9,376 8,473 | ,000 ,000, ,000 ,000 |
| 4 | (Константа) Возраст Перио- дичность чистки Смена зубной щётки Образование | 2,188 3,31 Е-02 -,391 ,226 -,115 | ,199
,002 ,048 ,030 ,025 |
,451
-,220 ,199 -,116 |
10,992 19,011 -8,235 7,498 -4,580 | ,000 ,000
,000 ,000 ,000 |
| 5 | (Константа) Возраст Перио- дичность чистки Смена зубной щётки Образование Рабочий/ Профес- сиональный работник | 2,022 3.20Е-02 -,379 ,229 -8.3Е-02 ,143 |
,208 ,002 ,048 ,030 ,028 ,052 |
,437 -,213 ,201 -,084 ,075 |
9,743 18,041 -7,964 7,613 -2,983 2,757 | ,000 ,000 ,000 ,000 ,003 ,006 |
Вдобавок ко всему для каждого шага анализируются исключённые переменные. В вышеприведенной таблице в объяснениях нуждаются лишь коэффициенты ß. Это — регрессионные коэффициенты, стандартизованные соответствующей области значений, они указывают на важность независимых переменных, вовлечённых в регрессионное уравнение.
Уравнение регрессии для прогнозирования значения CPITN выглядит следующим образом:
cpitn = 0,032•alter - 0.379•рu + 0,229•zb - 0,083•s + 0,143- benif 2 + 2,022
Для 40-летнего рабочего с неполным школьным образованием, который ежедневно чистит зубы один раз в день и меняет щётку раз в полгода, с учётом соответствующих кодировок, получается следующее уравнение:
cpitn = 0,032•40-0,379•2 + 0,229•3- 0,083•2 + 0,143•1 + 2,022 = 3,208
При помощи соответствующих опций можно организовать вывод большого числа дополнительных статистических характеристик и графиков, на которых мы здесь останавливаться не будем. Можно также создать много дополнительных переменных и добавить их в исходный файл данных.
Важным моментом является анализ остатков, то есть отклонений наблюдаемых значений от теоретически ожидаемых. Остатки должны появляться случайно (то есть не систематически) и подчиняться нормальному распределению. Это можно проверить, если с помощью кнопки Charts... (Диаграммы) построить гистограмму остатков. В приведенном примере наблюдается довольно хорошее согласование гистограммы остатков с нормальным распределением.
Проверка на наличие систематических связей между остатками соседних случаев (что, однако, является уместным только при наличии так называемых данных с продольным сечением), может быть произведена при помощи теста Дарбина-Ватсона (Durbin-Watson) на автокорреляцию. Этот тест вычисляет коэффициент, лежащий в диапазоне от 0 до 4. Если значение этого коэффициента находится вблизи 2, то это означает, что автокорреляция отсутствует. Тест Дарбина-Ватсона можно активировать через кнопку Statistics (Статистические характеристики). В данном примере тест дает удовлетворительное значение коэффициента, равное 1,776.
Ещё одной дополнительной возможностью является задание переменной отбора в диалоговом окне Linear Regression (Линейная регрессия). Здесь, с помощью кнопки Rule... (Правило) в диалоговом окне Linear Regression: Define Selection Rule (Линейная регрессия: ввод условия отбора), Вы получаете возможность при помощи избирательного признака сформулировать условие, которое будет ограничивать количество случаев, вовлеченных в анализ.
Нелинейная регрессия
16.3 Нелинейная регрессияМногие связи по своей природе, то есть в реальной жизни, либо являются строго линейными, либо их можно привести к линейному виду. Один пример линейной связи из области медицины был приведен в главе 16.1; ещё одним, уже знакомым нам примером является линейная связь между весом и ростом. При условии наличия лопаточного количества респондентов, на основании измеренных пар значений можно вывести уравнение регрессионной прямой, к которой более или менее приближается '.тожество точек, соответствующие парам значений.
Существуют также линейные связи, следующие непосредственно из физических закономерностей. Так путь s, пройденный, при постоянной скорости с за промежуток времени : рассчитывается по формуле:
s=c•t
Стало быть, путь является линейной функцией времени. А если мы рассмотрим закон свободного падения, то в этом случае расстояние s. которое проходили падающее тело увеличивается пропорционально квадрату времени:
Бинарная логистическая регрессия
16.4 Бинарная логистическая регрессияС помощью метода бинарной логистической регрессии можно исследовать зависимость дихотомических переменных от независимых переменных, имеющих любой вид шкалы.
Как правило, в случае с дихотомическими переменными речь идёт о некотором событии, которое может произойти или не произойти; бинарная логистическая регрессия в таком случае рассчитывает вероятность наступления события в зависимости от значений независимых переменных.
Вероятность наступления события для некоторого случая рассчитывается по формуле
Мультиномиальная логистическая регрессия
16.5 Мультиномиальная логистическая регрессияЭтот метод является вариантом логистической регрессии, при которой зависимая переменная не является дихотомической, как при бинарной логистической регрессии, а имеет больше двух категорий. В то время как, при бинарной логистической регрессии независимая переменная может иметь интервальную шкалу, то мультиномиальная логистическая регрессия пригодна только для категориальных независимых переменных, причём имеет значение, относятся ли они к шкале наименований или к порядковой шкале. Конечно же, не исключается возможность задания в качестве ковариат переменных, имеющих интервальную шкалу.
Начиная с 10 версии SPSS для независимых переменных, относящихся к порядковой шкале предусмотрен метод порядковой регрессии (см. гл. 16.6), который в данном случае является предпочтительным.
Для представления метода мольтиномиальной логистической регрессии был сначала взят простой пример с одной независимой переменной. Данные для этого примера "ыли взяты из ALLBUS (общий социологический опрос населения) 1998 года.
Alter (Возраст)
| Frequency (Частота) | Percent (Процент) | Valid Percent (Действи- тельный процент) | Cumulative Percent (Совокупный процент) | ||
| Valid (Действи- тельное значение) | bis 45 Jahre (До 45 лет) | 1306 | 50,1 | 50,1 | 50,1 |
| ueber 45 Jahre (Свыше 45 лет) | 1301 | 49,9 | 49,9 | 100,0 | |
| Total (Сумма) | 2607 | 100,0 | 100,0 | ||
| Frequency (Частота) | Percent (Процент) | Valid Percent (Действи- тельный процент) | Cumulative Percent (Совокупный процент) | ||
| Valid (Действи- тельное значение) | eher links (Скорее левый) | 740 | 28,4 | 28,4 | 28,4 |
| Mitte (Центрист) | 1212 | 46,5 | 46,5 | 74,9 | |
| eher rechts (Скорее правый) | 655 | 25,1 | 25,1 | 100,0 | |
| Total (Сумма) | 2607 | 100,0 | 100,0 | ||
| Frequency (Частота) | Percent (Процент) | Valid Percent (Действи- тельный процент) | Cumulative Percent (Совокупный процент) | ||
| Valid (Действи- тельное | Unterschicht (Нижняя прослойка) | 879 | 33,7 | 33,7 | 33,7 |
| значение) | Mittelschicht (Средняя прослойка) | 1477 | 56,7 | 56,7 | 90,4 |
| Oberschicht (Верхняя прослойка) | 251 | 9,6 | 9,6 | 100,0 | |
| Total (Сумма) | 2607 | 100,0 | 100,0 | ||
| Frequency (Частота) | Percent (Процент) | Valid Percent (Действи- тельный процент) | Cumulative Percent (Совокупный процент) | ||
| Valid (Действи- тельное значение) | Hauptschule (Неполное среднее) | 1499 | 57,5 | 57,5 | 57,5 |
| Mittlere Reife (Среднее) | 610 | 23,4 | 23,4 | 80,9 | |
| Abitur (Атестат зрелости) | 498 | 19,1 | 19,1 | 100,0 | |
| Total (Сумма) | 2607 | 100,0 | 100,0 | ||
Alter * Politische Links-Rechts-Einschfltzung Crosstabulation
(Возраст * Политическая принадлежность к левым или правым - таблица сопряженности)
|
| Politische Links-Rechts-Einschfltzung (Политическая принадлежность к левым или правым) | Total (Сумма) | ||||
| eher links (Скорее левый) | Mitte (Цент- рист) | eher rechts (Скорее правый) | ||||
| Alter (Воз-раст) | bis 45 Jahre (До 45 лет) | Count (Коли- чество) | 446 | 615 | 245 | 1306 |
| % of Total (% от возраста) | 34,2% | 47,1% | 18,8% | 100,0% | ||
| ueber 45 Jahre (Свыше 45 лет) | Count % of Total (Коли- чество) | 294 | 597 | 410 | 1301 | |
| (% от возраста) | 22,6% | 45,9% | 31,5% | 100,0% | ||
| Total (Сум- ма) | Count (Коли- чество) | 740 | 1212 | 655 | 2607 | |
| % of Total (% от возраста) | 28,4% | 46,5% | 25,1% | 100,0% | ||
Так как политическое самоопределение, как зависимая переменная, включает три категории, то для определения вероятностей отнесения респондентов к этим трем категориям можно сформировать два недублированных логита, причём последняя категория "eher rechts" (скорее правый) будет использоваться как эталонная:
Порядковая регрессия
16.6 Порядковая регрессияВ то время как, мультиномиальная регрессия, представленная в разделе 16.5, предназначена для зависимой переменной, относящейся к номинальной шкале, то порядковая регрессия предназначена для целевой переменной, принадлежащей к порядковой шкале. Независимые переменные и здесь должны быть категориальными (то есть иметь номинальную или порядковую шкалу), однако в качестве ковариат допускается применение переменных с интервальной шкалой.
Мы изучим данный метод при помощи примера из области психологии. В главе 19.3 будет рассматриваться "Анкета о специфике лечения психических заболеваний в больнице Фрайбурга", которая дает представление о работе с пациентами на основании 35 отдельных пунктов. К примеру, восприимчивость пациента к целенаправленным лечебным действиям выясняется при помощи пункта "Разработать план и затем приступить к его воплощению", причём ответ даётся в соответствии с пятибалльной шкалой: от "абсолютно не верно" (кодировка 1) до "абсолютно верно" (кодировка 5).
Эта типичная порядковая переменная должна быть исследована в зависимости от возраста, пола, продолжительности болезни и образования. Значения приведенных переменных были собраны в отношении 85 пациентов и находятся в файле plan.sav.
| Freq-uency (Часто-та) | Percent (Про-цент) | valid Percent (Действи- тельный процент) | uumuiative percent (Совокупный процент) | ||
| Valid (Действи-тельное значение) | bis 40 Jahrejflo 45 лет) | 29 | 34,1 | 34,1 | 34,1 |
| 41-55 Jahre (41-55 лет) | 29 | 34,1 | 34,1 | 68,2 | |
| ueber 55 Jahre (Свыше 55 лет) | 27 | 31,8 | 31,8 | 100,0 | |
| Total (Сумма) | 85 | 100,0 | 100,0 | |||
|
|
Frequ-ency (Часто-та) |
Percent (Про-цент) |
Valid Percent (Действи- тельный процент) |
Cumulative Percent (Совокупный процент | |
|
Valid (Действи-тельное значение) |
maennlich (Мужской) |
44 |
51,8 |
51,8 |
51,8 |
|
weiblich (Женский) |
41 |
48,2 |
48,2 |
100,0 | |
|
Total (Сумма) |
85 |
100,0 |
100,0 |
| |
|
|
|
Frequ-ency (Часто-та) |
Percent (Про-цент) |
Valid Percent (Действи- тельный процент) |
Cumu-lative Percent (Сово-купный процент) |
|
Valid |
bis 5 Jahre {До 5 лет) |
24 |
28,2 |
28,2 |
28,2 |
|
(Действи- |
6-10 Jahre (6-1 Олег) |
16 |
18,8 |
18,8 |
47,1 |
|
тельное |
11-20 Jahre (11-20 лет) |
32 |
37,6 |
37,6 |
84,7 |
|
значение) |
ueber 20 Jahre (Свыше 20 лет) |
13 |
15,3 |
15,3 |
100,0 |
|
|
Total (Сумма) |
85 |
100,0 |
100,0 |
|
|
|
Freq-uency (Часто- та) |
Percent (Про-цент) |
Valid Percent (Действи- тельный процент) |
Cumu-lative Percent (Сово-купный процент) | |
|
Valid (Действи-тельное значение) |
Haupt-schule (неполное среднее) |
53 |
62,4 |
62,4 |
62,4 |
|
Mittlere Reife (среднее) |
18 |
21,2 |
21,2 |
83,5 | |
|
Abitur (аттестат зрелости) |
14 |
16,5 |
16,5 |
100,0 | |
|
Total (Сумма) |
85 |
100,0 |
100,0 |
| |
|
|
Freq-uency (Часто-та) |
Percent (Про-цент) |
Valid Percent (Действи-тельный процент) |
Cumu-lative Percent (Сово-купный процент) | |
|
Valid (Действи-тельное значе- ние) |
gar nicht (абсолютно не верно) |
24 |
28,2 |
28,2 |
28,2 |
|
Wenig (слабо) |
18 |
21,2 |
21,2 |
49,4 | |
|
mittelmaessig (посред- ственно) |
18 |
21,2 |
21,2 |
70,6 | |
|
ziemlich(достаточно) |
16 |
18,8 |
18,8 |
89,4 | |
|
sehr stark (абсолютно верно) |
9 |
10,6 |
10,6 |
100,0 | |
|
(Сумма) |
85 |
100,0 |
100,0 |
| |
Correlations (Корреляции)
|
Einen Plan machen und danach handeln (Разработать план и затем приступить к его воплощению) | |||
|
Spearman's rho (p Спирмана) |
Alter (Возраст) |
Correlation Coefficient (Корре-ляционный коэффициент) |
-,376** |
|
Sig. (2-tailed) (Значимость (2-сторонняя)) |
,000 | ||
|
N |
85 | ||
|
Geschlecht (Пол) |
Correlation Coefficient (Корре-ляционный коэффициент) |
,298" | |
|
Sig. (2-tailed) (Значимость (2-сторонняя)) |
,006 | ||
|
N |
85 | ||
|
Krankheitsda uer (Продолжи- тельность болезни) |
Correlation Coefficient (Корре-ляционный коэффициент) |
-,260* | |
|
Sig. (2-tailed) (Значимость (2-сторонняя)) |
,016 | ||
|
N |
85 | ||
|
Schulbildung (Образование) |
Correlation Coefficient (Корре-ляционный коэффициент) |
,314** | |
|
Sig. (2-tailed) (Значимость (2-сторонняя)) |
,003 | ||
|
N |
85 | ||
*. Correlation is significant at the .05 level (2-tailed) (Корреляция является значимой на уровне 0,01 (2 - сторонняя)).
Стало быть, существует значимая, хоть и не очень большая корреляция. Если учесть принятое кодирование переменных, то можно заметить, что женщины более склонны сначала составить план действий, а затем приступать к лечению, чем мужчины. Кроме того, более молодые пациенты, пациенты с непродолжительным периодом болезни и пациенты, имеющие высшее образование, более активно занимаются своим лечением.
Попытаемся теперь изучить одновременное влияние возраста, пола, продолжительности болезни и образования на целевую переменную "Разработать план и затем приступить к его воплощению". Подходящим методом для этого является порядковая регрессия.
Пробит-анализ
16.7 Пробит-анализЭтот метод известен также под именем "Дозаторный анализ кривых воздействия" и находит применение преимущественно в области токсикологии. В большинстве случаев речь идёт о том, как на заданное количество индивидуумов воздействуют различные дозировки некоторого вещества (к примеру, некоторого токсичного вещества).
Классический пример, который вошёл и в справочник по SPSS, исследует действие средства, предназначенного для уничтожения насекомых. При этом производится подсчёт, сколько насекомых из заранее известного количества погибли при воздействии определённых доз вещества. Особенный интерес в данном случае представляет дозировка, при которой уничтожается половина имеющихся насекомых.
Оставим животных в покое и обратимся, в виде исключения, к одному специально придуманному примеру. Шеф секретной службы некоторой вымышленной страны пожелал узнать, сколько денег он должен предложить гражданам соседнего государства, чтобы они доставляли ему некоторую тайную информацию. Для этой цели через своего посредника он предлагает первой группе 1000 долларов и отмечает, сколько человек соглашаются на его предложение вести шпионскую деятельность. Второй группе он предлагает 2000 долларов и вновь отмечает себе количество попаданий в цель. Он продолжает предлагать деньги и дальше, действуя таким пошаговым образом и доходит до суммы 10000 долларов. При этом исследованиям подвергаются две различные категории людей. К первой категории относятся люди, которые недовольны своим материальным положением, ко второй — люди, удовлетворенные своим материальным положением.
Для обеих категорий шеф секретной службы желает выяснить, сколько он должен предложить денег, чтобы достичь желаемой доли положительных ответов. К примеру, его интересует сумма, которую он должен заплатить, чтобы на его предложение согласилась половина опрашиваемой группы.
Для обеих категорий удовлетворенности материальным положением (доволен — недоволен) в нижеследующей таблице представлены долларовые суммы в порядке возрастания, количество вовлечённых в эксперимент людей (nges) и количество фактически завербованных шпионов (п).
|
группа |
доллар |
количество вовлечённых в эксперимент людей |
количество фактически завербованных шпионов |
|
недоволен |
1000 |
59 |
8 |
|
недоволен |
2000 |
56 |
22 |
|
недоволен |
3000 |
53 |
28 |
|
недоволен |
4000 |
49 |
30 |
|
недоволен |
5000 |
51 |
35 |
|
недоволен |
6000 |
43 |
34 |
|
недоволен |
7000 |
40 |
36 |
|
недоволен |
8000 |
45 |
41 |
|
недоволен |
9000 |
40 |
38 |
|
недоволен |
10000 |
35 |
34 |
|
доволен |
1000 |
61 |
1 |
|
доволен |
2000 |
45 |
13 |
|
доволен |
3000 |
52 |
21 |
|
доволен |
4000 |
45 |
22 |
|
доволен |
5000 |
46 |
26 |
|
доволен |
6000 |
38 |
27 |
|
доволен |
7000 |
45 |
35 |
|
доволен |
8000 |
42 |
33 |
|
доволен |
9000 |
37 |
32 |
|
доволен |
10000 |
36 |
33 |
Приближение с помощью кривых
16.8 Приближение с помощью кривыхПри помощи этого пункта меню можно строить графики реального течения наблюдаемых процессов и приближать их при помощи аппроксимационных кривых. Для этого в ваше распоряжение предоставляется, в общей сложности, одиннадцать различных типов кривых. В большинстве случаев речь здесь будет идти о временных рядах.
В качестве примера рассмотрим изменение зарплаты в Федеративной республике Германии с 1950 года по 1988, описываемое так называемым индексом действительной зарплаты. Его можно получить при помощи соотнесения текущего годового уровня зарплаты к уровню к 1980 году, для которого значение индекса принимается равным 100.
|
Год |
Индекс действительной зарплаты |
|
1950 |
28,6 |
|
1960 |
46,9 |
|
1965 |
63,0 |
|
1970 |
80,4 |
|
1975 |
87,9 |
|
1980 |
100,0 |
|
1981 |
98,2 |
|
1982 |
96,5 |
|
1983 |
96,0 |
|
1984 |
96,9 |
|
1985 |
98,0 |
|
1986 |
101,2 |
|
1987 |
104,5 |
|
1988 |
107,6 |
Взвешенное оценивание (оценка с весами)
16.9 Взвешенное оценивание (оценка с весами)В линейном регрессионном анализе, рассмотренном до настоящего времени, все наблюдения входят в модель равнозначно. При этом, исходной предпосылкой является тот факт, что все наблюдения должны иметь одинаковую дисперсию.
Если это условие не выполняется и дисперсия увеличивается с ростом значения независимой переменной, то отдельные точки можно взвесить так, чтобы наблюдения с большой дисперсией имели меньшее влияние.
В качестве примера рассмотрим тест, проверяющий знания детей в области географии. Дети в возрасте от 3 до 14 лет должны были в течение двух минут назвать как можно больше городов Германии. Результаты теста сведены в нижеследующей таблице, причём количество детей в каждой возрастной группе варьируется от двух до пяти:
|
Возраст |
Количество названных городов |
|
3 |
2, 1, 0, 4 |
|
4 |
4, 2, 6 |
|
5 |
3, 8, 4, 7 |
|
6 |
3, 8, 9, 5 |
|
7 |
6, 10 |
|
8 |
7, 14, 10 |
|
9 |
9, 16, 10 |
|
10 |
9, 16, 15, 9 |
|
11 |
18, 12 |
|
12 |
22, 11, 14, 16 |
|
13 |
14, 21 |
|
14 |
20, 15, 23, 14, 26 |
Диаграмма рассеяния с регрессионной прямой
Диаграмма рассеяния с регрессионной прямой
После соответствующей обработки данных в окне просмотра появится диаграмма рассеяния, изображённая на рисунке 16.10.
Диаграмма рассеяния в окне просмотра
Диаграмма рассеяния в окне просмотра
Диалоговое окно Линейная регрессия: Сохранение
Диалоговое окно Линейная регрессия: Сохранение
Если мы в уравнение регрессии
chol1 = 0,863 • chol0 + 34,546
подставим исходное значение для chol0 (265), то получим chol1 = 0,863 -265 + 34,546 =263,241
Небольшое отклонение от значения, хранящегося в переменной рге_1 объясняется тем, что SPSS использует в расчётах более точные значения, чем те, которые выводятся в окне просмотра результатов. На этом этапе мы ещё раз проиллюстрируем возможность использования регрессии в качестве прогноза.
Диалоговое окно Scatterplot Options: Fit Line (Опции для диаграммы рассеяния:
Диалоговое окно Scatterplot Options: Fit Line (Опции для диаграммы рассеяния:
Теперь в диаграмме рассеяния отображается регрессионная прямая (см. рис. 16.9).
Диалоговое окно Scatterplot Options (Опции для диаграммы рассеяния)
Диалоговое окно Scatterplot Options (Опции для диаграммы рассеяния)
Диалоговое окно Scatter plots... (Диаграмма рассеяния)
Диалоговое окно Scatter plots... (Диаграмма рассеяния)
Диалоговое окно Simple Scatterplot (Простая диаграмма рассеяния).
Диалоговое окно Simple Scatterplot (Простая диаграмма рассеяния).
Регрессионный анализ
Регрессионный анализЕсли расчёт корреляции характеризует силу связи между двумя переменными, то регрессионный анализ служит для определения вида этой связи и дает возможность для прогнозирования значения одной (зависимой) переменной отталкиваясь от значения другой (независимой) переменной.
Разделы этой главы соответствуют опциям вспомогательного меню. Причём при изучении линейного регрессионного анализа снова будут проведено различие между простым анализом (одна независимая переменная) и множественным анализом (несколько независимых переменных). Собственно говоря, никаких принципиальных отличий между этими видами регрессии нет, однако простая линейная регрессия является простейшей и применяется чаще всех остальных видов.
Диаграмма рассеяния с регрессионной прямой до коррекции осей
Рис. 16.10: Диаграмма рассеяния с регрессионной прямой до коррекции осей
Так как никто не выкуривает минус 10 сигарет в день, точка начала отсчёта оси X является не совсем корректной. Поэтому попробуем эту ось откорректировать.
Диалоговое окно Axis Selection (Выбор оси)
Рис. 16.11: Диалоговое окно Axis Selection (Выбор оси)
Диалоговое окно X-Scale Axis (Ось X)
Рис. 16.12: Диалоговое окно X-Scale Axis (Ось X)
На откорректированной диаграмме рассеяния теперь стало проще распознать начальную точку на оси Y, которая образуется при пересечении с регрессионной прямой. Значение этой точки примерно равно 2,9. Сравним это значение с уравнением регрессии для переменных puls (зависимая переменная) и konsum (независимая переменная). В результате расчёта уравнения регрессии в окне отображения результатов появятся следующие значения:
Coefficients (Коэффициенты)а
| Model (Модель) | Unstandardized Coefficients (He стандартизированные коэф- фициенты) | Standar- dized Coefficients (Стандарти- зированные коэф- фициенты) | Т | Sig. (Значи- мость) | |||
| В | Std. Error (Стандар- тная ошибка) | ß (Beta) | |||||
| 1 | (Constant) (Константа) | 2,871 | ,639 | 4,492 | ,002 | ||
| tgl. Zigaretten-konsum (Коли- чество сигарет в день) | ,145 | ,038 | ,804 | 3,829 | ,005 | ||
Диаграмма рассеяния с регрессионной прямой после корректировки осей
Рис. 16.13: Диаграмма рассеяния с регрессионной прямой после корректировки осей
Что дает следующее уравнение регрессии:
pids = 0,145-konsum + 2,871
Мы видим, что константа в вышеприведенном уравнении регрессии (2,871) соответствует точке на оси Y, которая образуется в точке пересечения с регрессионной прямой.
Гистограмма остатков
Рис. 16.14: Гистограмма остатков
Диалоговое окно Nonlinear Regression (Нелинейная регрессия).
Рис. 16.15: Диалоговое окно Nonlinear Regression (Нелинейная регрессия).
|
Nonlinear Regression |
Summary Statistics Dependent Variable POP | ||
|
Source |
DF |
Sum of Squares |
Mean Square |
|
Regression |
3 |
123048 ,61437 |
41016,20479 |
|
Residual |
15 |
186,50337 |
12,43356 |
|
Uncorrected Total |
18 |
123235,11774 |
|
|
(Corrected Total) |
17 |
53291,50763 |
|
|
R squared = 1Residual SS / CorrectedSS = ,99650 | |||
|
Asymptotic 95 % Asymptotic Confidence Interval | ||||
|
Parameter Estimate |
Std. Error |
Lower Upper | ||
|
A |
3,888771432 , |
093688592 |
3,6890789254 ,088463938 | |
|
В |
-,278834486, |
015593535 |
-,312071318 - ,245597654 | |
|
С |
244,01372955 |
17,974966354 |
205, 70099568 282 |
,32646341 |
|
Asymptotic |
Correlation А |
Matrix of В |
the |
Parameter Estimates С |
|
А В С |
1,0000 -,7243 -,3759 |
-,724: 1,000 ,904 |
3 '0 3 |
-,3759 ,9043 1,0000 |
Согласно предварительным установкам при расчете нелинейной регрессии происходит минимизация суммы квадратов остатков. При помощи кнопки Loss...(Остаток) можно задать какую-либо другую минимизирующую функцию. Далее при помощи кнопки Constraints...(ограничения) может быть открыто окно, в котором можно задать ограничения для определяемых параметров нелинейной регрессии.
Диалоговое окно -Ogistic Regression (Логистическая регрессия).
Рис. 16.16: Диалоговое окно -Ogistic Regression (Логистическая регрессия).
В качестве метода использования переменных в вычислениях предварительно установлен метод Enter (Вложение), при котором в расчёт одновременно вовлекаются :-:е переменные объявленные ковариатами. Альтернативой здесь являются прогрессивная и обратная селекции. В случае наличия лишь одной ковариаты, как в указаном примере, для расчёта подходит только предварительно установленный метод.
Кнопка Select» (Выбрать) предоставляет возможность отбора определённых случаев для дальнейшего анализа.
Используя кнопку Categorical... (Категориальные) Вы можете подготовить для расчета категориальные переменные (то есть переменные, принадлежащие к номинальной шкале). На этом мы остановимся более подробно, рассматривая второй пример.
При помощи кнопки Save... (Сохранить) Вы можете добавить в файл дополнительные переменные; активируйте к примеру в разделе Predicted Values (Спрогнозированные значения) предварительные установки Probabilities (Вероятности) и Принадлежность к группе.
Нажав на кнопку Options... (Опции), Вы сможете организовать вывод дополнительных статистических характеристик, различных диаграмм и произвести некоторые дополнительные установки. В данном расчёте мы этого делать не будем.
Omnibus Tests of Model Coefficients (Универсальный критерий коэффициентов модели)
| Chi-square (Хи-квадрат) | Df | Sig. (Значимость) | ||
| Step 1 (ШаМ) 1 | Step (Шаг) | 18,789 | 1 | ,000 |
| Block (Блок) | 18,789 | 1 | ,000 | |
| Model (Модель) | 18,789 | 1 | ,000 |
| Step (Шаг) | -2 Log likelihood (-2 логарифмическое правдоподобие) | Сох & Snell R Square (R-квадрат Кокса и Шнела) | R Square Nadelkerkes (R-квадрат Наделькеркеса) |
| 1 | 43,394 | ,341 | ,456 |
Это означает, что начальная модель после добавления переменной tzell претерпела значительное улучшение. Если при наличии некоторого количества независимых переменных анализ производится не при помощи метода вложения, а пошаговым образом, то получающиеся изменения отображаются в разделах "Блок" и "Шаг". При этом, если Вы производили ввод переменных в блочной форме, то показатель в разделе "Блок" приобретает особое значение.
Два других выведенных показателя, названные именами Кокса & Шела и Наделькеркеса, являются мерами определённости. Они также как и при линейной регрессии указывают на ту часть дисперсии, которую можно объяснить с помощью логистической регрессии. Мера определённости по Коксу и Шелу имеет тот недостаток, что значение равное 1 является теоретически не достижимым; этот недостаток устранен благодаря модификации данной меры по методу Наделькеркеса. Часть дисперсии, объяснимой с помощью логистической регрессии, в данном примере составляет 45,6 %.
Далее приводится классификационная таблица, в которой наблюдаемые показатели принадлежности к группе (1 = болен, 2 = здоров) противопоставляются предсказанным на основе рассчитанной модели.
Classification Table (Классификационная таблица) а
| Observed (Наблюдаемый показатель) | Predicted (Спрогнозировано) | ||||
| GRUPPE (Группа) | Percentage Correct (Процентный показатель верных показателей) | ||||
| Krank (болен) | Gesund (здоров) | ||||
| Шаг 1 | GRUPPE (Группа) | Krank (болен) | 18 | 6 | 75,0 |
| Gesund (здоров) | 4 | 17 | 81,0 | ||
| Overall Percentage (Суммарный процентный показатель) | 77,8 |
Из таблицы можно сделать вывод о том, что из общего числа больных, равного 24, тестом были признаны таковыми только 18 (в медицинской диагностике в таких случаях говорят о "строго положительных" результатах). Остальных 6 называют "ложно отрицательными"; они были признаны тестом здоровыми, хотя и являются больными. Из общего числа здоровых, равного 21, тестом были признаны таковыми только 17 ("строго отрицательные"), 4 признаны больными, хотя они и являются здоровыми ("ложно положительные"). В общем, правильно были распознаны 35 случаев из 45, это составляет 77,8 %.
В заключении выводятся результаты о рассчитанных коэффициентах и проверке их значимости:
Variables in the Equation (Переменные в уравнении)
| В (Коэф-фициент регрессии В) | S.E. (Стандарт- ная ошибка) | Wald (Вальд) | df | Sig. (Значи-мость) | Ехр (В) | ||
| Step 1 (Шаг 1)а | TZELL | ,278 | ,082 | 11,599 | 1 | ,001 | 1,321 |
| Constant (Константа) | -19,005 | 5,587 | 11,571 | 1 | ,001 | ,000 |
Проверка значимости отличия коэффициентов от нуля, проводится при помощи статистики Вальда, использующей распределение хи-квадрат, которая представляет собой квадрат отношения соответствующего коэффициента к его стандартной ошибке.
В приведенном примере получились сверх значимые коэффициенты а = -19,005 bt = 0,278. При помощи этих двух значений коэффициентов мы можем для каждого значения Т-типизации рассчитать вероятность р. К примеру, для некоего обследуемого со значением Т-типизации 72 получим
z= - 19,005+ 0,278x72= 1,018
и таким образом
Рассчитанная вероятность р всегда указывает на исполнение предсказании, которое соответствует большей из двух кодировок зависимых переменных, в данном случае — на исполнение предсказания "здоров". Следовательно, рассматриваемый человек является здоровым с вероятностью 0,735. Рассчитанная вероятность для всех случаев и связанная с ней принадлежность к группе кодировка 1 для болен и 2 для здоров) добавлены к файлу под именами рге_1 и pgr_l.
Теперь подключим к нашему анализу тест LAI. Дополнительно к переменной tzell теперь в поле ковариат поместите и переменную lai.
Расчёт выдаст сначала заметно снизившееся значение -2LL (хи-квадрат = 25,668) и следующую классификационную таблицу. Доля правильно спрогнозированных диагнозов незначительно выросла (с 77,8 % до 80,0 %).
Classification Table (Классификационная таблица)а
| Observed (Наблюдаемый показатель) | Predicted (Спрогнозировано) | ||||
| Группа | Percentage Correct (Процентный показатель верных показателей) | ||||
| Krank (болен) | Gesund (здоров) | ||||
| Шаг 1 |
GRUPPE (Группа) | Krank (болен) | 20 | 4 | 83,3 |
| Gesund (здоров) | 5 | 16 | 76,2 | ||
| Overall Percentage (Суммарный процентный показатель) | 80,0 |
Количество ложно отрицательных диагнозов снизилось на 2, а количество ложно положительных повысилось на 1. Для коэффициентов получим:
Variables in the Equation (Переменные в уравнении)
| В (Коэф0 фициент регрессии В) | S.E. Стандартная ошибка) | Wald (Вальд) | df | Sig. (Значи0 мость) | Ехр (В) | ||
| Stepl (UJarlf | TZELL | ,201 | ,094 | 4,574 | 1 | 0,32 | 1,222 |
| LAI | 2,205 | ,877 | 6,324 | 1 | ,012 | 9,074 | |
| Constant (Константа) | -14,645 | 6,328 | 5,356 | 1 | ,021 | ,000 |
Для обследуемого с типизированным числом Т-клеток равным 72 получилась вероятность оказаться здоровым р = 0,735. Если в дополнении к этому и тест LAI отрицателен (кодировка 1), то эта же вероятность рассчитывается следующим образом:
Вероятность, оказаться здоровым, при наличии данных уже двух диагностических методов значительно возросла. Ещё один пример из области медицины, теперь уже с большим количеством независимых переменных, должен помочь нам разобраться в пошаговом методе анализа. Кроме того, в состав независимых переменных будет включена категориальная переменная.
Для данного примера в некоторой клинике со специальными автоматизированными методиками лечения были накоплены данные о пациентах с тяжёлыми (или даже смертельными) повреждениями лёгких. Из большого количества переменных были выбраны следующие:
| Имя переменной | Расшифровка |
| out | Исход (0 = скончался, 1 = выздоровел) |
| alter (возраст) | Возраст |
| bzeit | Время проведения искусственного дыхания в часах |
| kob | Концентрация кислорода в воздушной массе для искусственного |
| | дыхания |
| адд | Интенсивность искусственного дыхания |
| gesch (пол) | Пол (1 = мужской, 2 = женский) |
| gr | Рост |
| ursache (причина) | Причина повреждения лёгких (1 = несчастный случай, 2 = воспаление лёгких, 3 = прочее) |
Вопрос, на который нам предстоит найти ответ, звучит так: какое влияние на вероятность выздоровления оказывают отобранные переменные.
Метод прямой селекции начинается с использования одних лишь констант на стартовом этапе , а затем последовательно подключаются переменные, которые демонстрируют сильную корреляцию с зависимыми переменными. Далее опять следует проверка того, какие переменные должны быть исключены, причём в качестве критерия проверки выбирается либо статистика Вальдовского (Wald), либо функция правдоподобия, либо один из вариантов, называемых "условной статистикой" (которые, однако, не рекомендуются). Метод обратной селекции сначала берёт в расчёт все переменные, а затем в обратном порядке происходит исключение малозначимых переменных.
Точность исполнения прогноза, которая достигается при использовании этих четыpex переменных, составляет 71,0 %; её можно увидеть в нижеследующей классификанионной таблице на стр 25.
Classification Table (Классификационная таблица)а
| Observed (Наблюдаемый показатель) | Predicted (Спрогнозировано) | ||||
| Outcome (Исход) | Percentage Correct (Процентный показатель верных прогнозов) | ||||
| gestorben (скончался) | ueberlebt (выздоровел) | ||||
| Step 1 (Шаг) |
Outcome (Исход) | gestorben (сконча-лся) | 29 | 34 | 46,0 |
| ueberlebt (выздоро- вел) | 14 | 54 | 79,4 | ||
| 63,4 | |||||
| Overall Percentage (Суммарный процентный показатель) | |||||
| Step 2 Шаг 2) |
Outcome (Исход) | gestorben (сконча- лся) | 32 | 31 | 50,8 |
| ueberlebt (выздоро- вел) | 16 | 52 | 76,5 | ||
| 64,1 | |||||
| Overall Percentage (Суммарный процентный показатель) | |||||
| StepS (Шаг 3) | Outcome (Исход) | gestorben (сконча- лся) | 33 | 30 | 52,4 |
| ueberlebt (выздоро- вел) | 19 | 49 | 72,1 | ||
| Overall Percentage (Суммарный процентный показатель) | 62,6 | ||||
| Step 4 (Шаг 4) | Outcome (Исход) | gestorben (сконча-лся) | 37 | 26 | 58,7 |
| ueberlebt (выздоро- вел) | 12 | 56 | 82,4 | ||
| 71,0 | |||||
| Overall Percentage (Суммарный процентный показатель) |
Прогноз оправдался для 58,7 % умерших пациентов и для 82,4 % выздоровевших. Значения коэффициента Ь. и константы а для расчёта вероятности (выздоровления) находятся в следующей таблице:
Variables in the Equation (Переменные в уравнении)
| | В Коэф-фициент регрессии В) | S.E. (Стандар-тная ошибка) | Wald (Валь-довский) | df | Sig. (Значи- мость) | Ехр (В) | |
| Шаг 1а | BZEIT | -,081 | ,028 | 8,482 | 1 | ' ,004 | ,922 |
| Конста- нта | 1,104 | ,385 | 8,205 | 1 | ,004 | 3,017 | |
| Шаг 2b | GR | ,038 | ,017 | 5,109 | 1 | ,024 | 1,039 |
| BZEIT | -,073 | ,028 | L 6,688 | 1 | ,010 | ,930 | |
| Конста- нта | -5,460 | 2,924 | L 3,487 | 1 | ,062 | ,004 | |
| Шаг 3c | КОВ | -2,678 | 1,264 | 4,489 | 1 | ,034 | ,069 |
| GR | ,037 | ,017 | 4,622 | 1 | ,032 | 1,038 | |
| BZEIT | -,077 | ,029 | 6,866 | 1 | ,009 | ,926 | |
| Конста- нта | -2,995 | 3,192 | ,880 | 1 | ,348 | ,050 | |
| Шаг 4d | ALTER (возраст) | -.037 | ,017 | 4,653 | 1 | ,031 | ,963 |
| КОВ | -3,028 | 1,302 | 5,410 | 1 | ,020 | ,048 | |
| GR | ,044 | ,017 | 6,650 | 1 | ,010 | 1,045 | |
| BZEIT | -,062 | ,029 | 4,639 | 1 | ,031 | ,940 | |
| Конста- нта | -2,884 | 3,079 | ,877 | 1 | ,349 | ,056 |
b. Variable(s) entered on step 2: GR. (Переменные, вводимые на шаге 2: GR.)
с. Variable(s) entered on step 3: КОВ. (Переменные, вводимые на шаге 3: КОВ.)
d. Variable(s) entered on step 4: ALTER. (Переменные, вводимые на шаге 4: ALTER.)
Если мы рассмотрим случай с 30-тилешим пациентом, с ростом 180 см, которому делали искусственное дыхание в течении 10 часов при концентрации кислорода в смеси равной 0,7, то исходя из соотношения
z= - 2,884- 0,037x30- 0,062x10+ 0,044x180- 3,028x0,7= 1,12В получим вероятность выздоровления
следовательно, вероятность выздоровления пациента равна 0,755Диалоговое окно Multinomial Logistic Regression (Множественная логистическая регрессия)
Рис. 16.17: Диалоговое окно Multinomial Logistic Regression (Множественная логистическая регрессия)
Диалоговое окно Multinomial...
Рис. 16.18: Диалоговое окно Multinomial Logistic Regression: Statistics (Множественная логистическая регрессия: Статистики)
Содержание таблицы результатов расчёта, выглядит следующим образом. Для не дублирующих категорий она содержит параметрические оценки, стандартную ошибку, проверку значимости при помощи статистики Вальда, значение экспоненциальной функции от параметрической оценки и его доверительный интервал.
Parameter Estimates (Оценки параметров)
| Politische Links-Rechts-Einschaetzung (Политическая принадлежность к левым или правым) | В | Std. Error (Станда- ртная ошибка) | Wald (Вальд) | df (Сте-пень сво- боды) | Sig. (Значи- мость) | Ехр(В) | 95% Confidence Interval for Ехр(В) (95 % довери- тельный интервал для Ехр(В)) | ||
| Lower Bound (Нижний предел) | Upper Bound (Верхний предел) | ||||||||
| eher links (Скорее левый) | Intercept (Постоян- ное слага- емое) | -,333 | ,076 | 18,938 | 1 | ,000 | |||
| [ALTER= 1,00] | ,932 | ,110 | 71,353 | 1 | ,000 | 2,539 | 2,045 | 3,151 | |
| [ALTER= 2,00] | Оа | 0 | 0 | , | |||||
| Mitte (Цен-трист) | Intercept (Постоян- ное слага-емое) | ,376 | ,064 | 34,320 | 1 | ,000 | |||
| [ALTER= 1,00] | ,545 | ,099 | 30,198 | 1 | ,000 | 1,724 | 1,420 | 2,094 | |
| rALTER= 2,00] | 0" | 0 | 0 | ||||||
Из таблицы можно взять следующие значения для b-коэффициентов:
b10 =-0,333
b11 (до 45 лет) = 0,932
b20 = 0,376
b21 (до 45 лет) = 0,545 1
Таким образом, для возрастной группы до 45 лет получим
g1 = -0,333 + 0,932 = 0,599
g2 = -0,376 + 0,545 = 0,921
и следовательно
Диалоговое окно Multinomial...
Рис. 16.19: Диалоговое окно Multinomial Logistic Regression: Model (Множественная логистическая регрессия: Модель)
Диалоговое окно Ordinal Regression (Порядковая регрессия)
Рис. 16.20: Диалоговое окно Ordinal Regression (Порядковая регрессия)
Диалоговое окно Ordinal Regression: Output (Порядковая регрессия: Вывод)
Рис. 16.21. Диалоговое окно Ordinal Regression: Output (Порядковая регрессия: Вывод)
Отображение результатов в окне просмотра начинается с вывода предостережения. В 66,2% всех ячеек, которые образовываются из комбинаций факторов и зависимых переменных, частота равна нулю. При этом не учитываются те комбинации факторов, которые повторяются. Вы можете включить в список выдачи наблюдаемые и ожидаемые частоты, а также их остатки, если после нажатия кнопки Output... (Вывод) активируете опцию Cell infonnation (Информация по ячейкам).
Warnings (Предостережения)
Далее следует таблица, содержащая абсолютные и выраженные в процентах частоты различных категорий зависимых переменных и факторов. Case Processing Summary (Сводная таблица обработки наблюдений)
| N (Коли-чество) | Marginal Percentage (Предельный процент) | ||
| Einen Plan machen und danach handeln (Разработать план и затем приступать к лечению) | gar nicht (Абсолютно не верно) | 24 | 28,2% |
| wenig (Слабо) | 18 | 21,2% | |
| mittelmaessig (Посредственно) | 18 | 21,2% | |
| ziemlich (Достаточно) | 16 | 18,8% | |
| sehr stark (Абсолютно верно) | 9 | 10,6% | |
| Alter (Возраст) | bis 40 Jahre (До 45 лет) | 29 | 34,1% |
| 41-55 Jahre (41-55 лет) | 29 | 34,1% | |
| ueber 55 Jahre (Свыше 55 лет) | 27 | 31,8% | |
| Geschlecht (Пол) | maennlich (Мужской) | 44 | 51,8% |
| weiblich (Женский) | 41 | 48,2% | |
| Krankheitsdauer (Продолжительность болезни) | bis 5 Jahre (До 5 лет) | 24 | 28,2% |
| 6-10 Jahre (6-10 лет) | 16 | 18,8% | |
| (6-10 лет) | 32 | 37,6% | |
| 11-20 Jahre (11 -20 лет) | 13 | 15,3% | |
| Schulbildung (Образование) | Hauptschule (Неполное среднее) | 53 | 62,4% |
| Mittlere Reife (Среднее) | 18 | 21,2% | |
| Abitur (Аттестат зрелости) | 14 | 16,5% | |
| Valid (Действительное значение) | 85 | 100,0% | |
| Missing (Пропущенное значение) | 0 | | |
| Tola (Сумма) | 85 | |
Model Fitting Information (Информация о приближении модели)
| Model (Модель) | -2 Log likelihood (-2 логарифми-ческое правдоподобие) | Chi-Square (Хи-квадрат) | df (Степень свободы) | Sig. (Значи-мость) |
| Intercept Only (Только постоянное слагаемое) | 207,180 | | | |
| Final (Окончательно) | 170,408 | 36,772 | 8 | ,000 |
| Link function: Logit (Связывающая функция: Логит). |
Goodness of fit (Критерий согласия)
| Chi-Square (Хи-квадрат) | df (Степень свободы) | Sig. (Значимость) | |
| Pearson (Пирсон) | 158,733 | 144 | ,190 |
| Deviance (Отклонение) | 127,454 | 144 | ,835 |
Из трёх мер согласия приведенных ниже, мера, вычисленная по методу Нагелькерке (Nagelkerke) является мерой определённости, которая указывает на процентную долю дисперсии, объяснимой при помощи порядковой регрессии, (см. разд. 16.4). В приведенном примере оценка дисперсии составляет 36,7 %.
Pseudo R-Square (Псевдо R-квадрат)
| Сох and Snell (Кокс и Шелл) | ,351 |
| Nagelkerke (Нагелькерке) | ,367 |
| McFadden (МакФадден) | ,138 |
Результатом анализа являются оценки параметров регрессии приведенные в нижеследующей таблице.
| Parameter Estimates (Оценки параметров регрессии) | ||||||||
| Esti-mate (Оце-нка) | Std. Error (Стандар-тная ошибка) | Wald (Валь-дов-ский) | df (Сте-пень сво-боды) | Sig. (Значи-мость) | 95% Confidence Interval (95 % довери- тельный интервал) | |||
| Lower Bound | Upper Bound | |||||||
| Threshold (Порог) | [PLAN = 1] | -,220 | ,968 | ,052 | 1 | ,820 | -2,118 | 1,677 |
| [PLAN = 2] | ,981 | ,988 | ,986 | 1 | ,321 | -,955 | 2,918 | |
| [PLAN = 3] | 2,253 | 1,013 | 4,949 | 1 | ,026 | ,268 | 4,238 | |
| [PLAN = 4] | 3,907 | 1,048 | 13,905 | 1 | ,000 | 1,853 | 5,960 | |
| Location (Поло-жение) | [G=1] | 2,145 | ,540 | 15,787 | 1 | ,000 | 1,087 | 3,204 |
| [G=2] | 1,357 | ,529 | 6,574 | 1 | ,010 | ,320 | 2,394 | |
| [ALTER =1] | Oa | , | , | 0 | , | f | ( | |
| [ALTER =2] | -1,091 | ,433 | 6,355 | 1 | ,012 | -1,939 | -,243 | |
| [ALTER =3] | Oa | , | , | 0 | , | f | j | |
| [KDAUER =1] | 1,811 | ,740 | 5,990 | 1 | ,014 | ,361 | 3,261 | |
| JKDAUER =2] | 1,486 | ,782 | 3,606 | 1 | ,058 | -4.772E-02 | 3,019 | |
| IKDAUER =3] | 1,340 | ,678 | 1 3,905 | 1 | ,048 | 1.101E-02 | 2,669 | |
| [KDAUER =4] | Oa | , | , | 0 | , | ( | , | |
| [SCHULE =1] | -1,183 | ,618 | 3,665 | 1 | ,056 | -2,394 | 2.807E-02 | |
| [SCHULE =2] | -,659 | ,700 | ,886 | 1 | ,347 | -2,031 | ,713 | |
| rSCHULE =31 | Oa | 0 |
a. This parameter is set to zero because it is redundant (Этот параметр приравнен к нулю, так как является дублирующим). !
Каждой категории зависимых переменных и каждой категории факторов сопоставлена оценка параметра регрессии, причём оценки для соответствующих категорий высших порядков являются дублирующими и поэтому приравнены к нулю. Оценки параметров регрессии для зависимой переменной являются пороговыми оценками, которые для факторов называются оценками положения.
Оценки положения дают возможность толковать влияние факторов и указывают на степень этого влияния. Поэтому, прежде чем будет продемонстрирована точная математическая связь между факторами влияния и зависимой переменной, можно констатировать следующее:
Математическое значение оценок параметров регрессии заключается в том, что на них основе могут быть вычислены кумулятивные (суммарные) вероятности для категорий независимых переменных. Покажем это на конкретном примере.
Для этого возьмем в редакторе данных первого пациента и рассчитаем совокупную вероятность для случая, когда он отмечает одну из первых двух категорий ("gar nicht" (абсолютно не верно) или "wenig" (слабо)) для зависимой переменной.
Первый пациент является мужчиной средней возрастной группы с большой продолжительностью болезни и неполным средним образованием. Учитывая все эти сведения, можно ожидать высокую вероятность того, что больной проявит слабую готовность планомерно лечить свою болезнь.
На первом шаге расчёта мы должны сложить оценки положения, соответствующие отдельным категориям:
| alter = 2 | 1,347 |
| g = 1 | -1,091 |
| Kdauer = 4 | 0,000 |
| Schule = 1 | -1,183 |
| Сумма | -0,917 |
0,981 - (-0,917) = 0,981 + 0,917 = 1,898
Как можно заметить по значению, которое превосходит единицу, этот показатель пока ещё не является искомой совокупной вероятностью того, что больной отметит одну из первых двух категорий. Значение этого показателя соответствует связующей функции, приведенной к этой вероятности. В нашем примере мы выбрали в качестве связующей логит-функцию, установленную по умолчанию, так что для искомой вероятности справедливо следующее выражение:
Таким образом, вероятность того, что первый пациент отметит одну из первых двух категорий, составляет р = 0,87 или 87 %. Фактически пациент отметил категорию 1. Чтобы успокоить пользователей программы, следует сказать, что Вы можете избежать этих сложных расчётов. В диалоговом окне Ordinal Regression:Output (Порядковая регрессия: Вывод) мы активировали опцию сохранения некоторых переменных, которые теперь можем просмотреть.
Пять переменных est1_1-est5_1 соответствуют вероятностям для пяти категорий зависимой переменной. Если мы возьмем первого пациента, то достаточно сложить вероятности для первых двух категорий:
0,67 + 0,20 = 0,87
Это соответствует тому значению, которое мы рассчитали для совокупной вероятности второй категории. В переменной рге_1 сохранен номер категории, которой соответствует самая высокая вероятность, названная "прогнозируемой категорией". Переменная рср_1 ещё раз дает вероятность выбора этой категории.
Связующая логит-функция выбранная нами для этого примера, принадлежит к набору из пяти функций, приведенных ниже.
| Функция | Форма | Применение |
| Logit (Логит) | In (р/(1-р)) | Равномерно распределённые категории |
| Complementary log-log (Сопряженный двойной логарифм) | ln(-ln(1-p)) | Высшие категории представлены сильнее |
| Negative log-log (Отрицательный двойной логарифм) | -ln(-ln(p)) | Низшие категории представлены сильнее |
| Probit (Пробит) | Инверсия стандартного комулятивного нормального распределения | Нормально распределённые частоты |
| Cauchit (Коши) | tan(7t(p-0.5)) | Появление пиковых значений |
Лучшую модель можно получить, если в диалоговом окне Ordinal Regression: Location (Порядковая регрессия: Положение) наряду с главными эффектами включить и взаимодействия. После активирования опции Custom (Пользовательский режим) в вашем распоряжении появляется вспомогательное меню, при помощи которого вместе с главным эффектом Вы сможете включить в модель и различные виды взаимодействия.
Диалоговое окно Probit Analysis (Пробит-анализ)
Рис. 16.22: Диалоговое окно Probit Analysis (Пробит-анализ)
р=8/59= 0,1356
Это значение интерпретируется как часть площади под кривой стандартного нормального распределения (которая, как известно, суммарно нормирована к 1). По соответствующей статистической таблице можно установить, что стандартное значение равно -1,10. Это значение является пробитом к дозировке 1000 долларов.
Упомянутые пробиты для обеих групп в зависимости от логарифма дозировки представлены на одной диаграмме, которую вы можете увидеть в окне просмотра:
Для обеих групп график является практически линейным, что является предпосылкой для дальнейших рассуждений. В противном случае дополнительно следовало было бы рассматривать ход процесса воздействия на основе исходных значений (то есть без логарифмического преобразования).
Отклики, трансформированные пробитом
Рис. 16.23: Отклики, трансформированные пробитом
Для обеих кривых определяется уравнение регрессионных прямых, причём для обеих прямых вычисляется общий угол наклона:
|
Regression Coeff. |
Standard Error |
Coeff./S.E. | ||||
|
DOLLAR |
2,78749 |
,17640 |
15,80205 | |||
|
Intercept |
Standard Error |
Intercept/S.E. |
GRUPPE | |||
| -9 ,59552 | ,63415 | -15, 13130 | 1 | |||
| 2 | ||||||
| -9 ,99490 | ,64731 | -15,44060 | ||||
| Pearson Goodness -of -Fit Chi Square=10,043 DF = 17 P = ,902 | ||||||
|
Parallelism Test Chi Square = ,164 DF = 1 P = ,686 | ||||||
Если мы рассмотрим уравнение регрессии для первой группы, то получим следующее уравнение, прогнозирующее значение пробита:
Probit= 2,78749xlog(Dollar)- 9,59552
Для значения 1000 долларов получим
Probit= 2,78749x3- 9,59552= - 1,2331
Если мы вновь обратимся к статистической таблице, содержащей значения стандартной кривой нормального распределения, то полученному стандартизированному значению в данном случае соответствует площадь 0,10878. Это значение используется для того, чтобы определить ожидаемую частоту отклика:
59x0,10878= 6,418
Полученные результаты сведены в следующую таблицу:
|
Number of Observed Expected | |||||||||||
|
GRUPPE |
DOLLAR |
Subjects Responses Responses Residual |
Prob | ||||||||
|
1 |
3 |
, 00 |
59 |
,0 |
8 |
,0 |
|
6,418 |
1 |
,582 |
,10878 |
|
1 |
3 |
,30 |
56 |
,0 |
22, |
0 |
19 |
,422 |
2 |
,578 |
,34681 |
|
1 |
3 |
,48 |
53 |
,0 |
28, |
0 |
28 |
,546 |
- |
,546 |
,53860 |
|
1 |
3 |
, 60 |
49 |
,0 |
30, |
0 |
32 |
, 923 |
- |
2, 923 |
, 67191 |
|
1 |
3 |
,70 |
51 |
,0 |
35, |
0 |
38 |
, 902 |
- |
3, 902 |
,76279 |
|
1 |
3 |
,78 |
43 |
,0 |
34, |
0 |
35 |
,491 |
- |
1,491 |
,82537 |
|
1 |
3 |
, 85 |
40 |
,0 |
36, |
0 |
34 |
,768 |
1 |
,232 |
,86921 |
|
1 |
3 |
, 90 |
45 |
,0 |
41, |
0 |
40 |
,522 |
, |
478 |
, 90048 |
|
1 |
3 |
, 95 |
40 |
,0 |
38, |
0 |
36 |
,928 |
1 |
,072 |
, 92319 |
|
1 |
4 |
,00 |
35 |
,0 |
34, |
0 |
32 |
,899 |
1 |
,101 |
, 93996 |
|
2 |
3 |
,00 |
61 |
,0 |
1, |
0 |
3, |
129 |
- |
2,129 |
,05129 |
|
2 |
3 |
,30 |
45 |
,0 |
13, |
0 |
9, |
621 |
3 |
,379 |
,21380 |
|
2 |
3 |
,48 |
52 |
,0 |
21, |
0 |
19 |
,820 |
1 |
,180 |
,38115 |
|
2 |
3 |
,60 |
45 |
,0 |
22, |
0 |
23 |
,322 |
- |
1,322 |
,51826 |
|
2 |
3 |
,70 |
46 |
,0 |
26, |
0 |
28 |
,703 |
- |
2,703 |
,62397 |
|
2 |
3 |
,78 |
38 |
,0 |
27, |
0 |
26 |
,761 |
, |
239 |
,70425 |
|
2 |
3 |
,85 |
45 |
,0 |
35, |
0 |
34 |
,436 |
, |
564 |
,76524 |
|
2 |
3 |
,90 |
42 |
,0 |
33, |
0 |
34 |
,100 |
- |
1,100 |
,81190 |
|
2 |
3 |
,95 |
37 |
,0 |
32, |
0 |
31 |
,373 |
f |
627 |
,84791 |
|
2 |
4 |
,00 |
36 |
/o |
33, |
0 |
31 |
,535 |
1 |
,465 |
,87597 |
|
95% Confidence Limits | |||
|
Prob |
DOLLAR |
Lower |
Upper |
|
,01 |
405,30868 |
289,59056 |
529,15509 |
|
,02 |
507,66784 |
373,66257 |
647,93485 |
|
,03 |
585,63448 |
439,14578 |
736,94514 |
|
, 04 |
652,08194 |
495,79196 |
811,99633 |
|
,05 |
711,65439 |
547,15681 |
878,74346 |
|
,06 |
766,62851 |
594,99562 |
939,94335 |
|
, 07 |
818,31336 |
640,32303 |
997,17444 |
|
,08 |
867,54082 |
683,78664 |
1051,43643 |
|
,09 |
914,87813 |
725,82978 |
1103,40905 |
|
,10 |
960,73191 |
766,77131 |
1153,57841 |
|
, 15 |
1176,35221 |
961,74200 |
1387,62679 |
|
,20 |
1381,73708 |
1150,43739 |
1608,52696 |
|
,25 |
1586,29202 |
1340,43221 |
1827,40833 |
|
,30 |
1795,67203 |
1536,35222 |
2050,97344 |
|
,35 |
2014,28728 |
1741,83765 |
2284,49983 |
|
,40 |
2246,29254 |
1960,31730 |
2533,03836 |
|
,45 |
2496,16365 |
2195,45599 |
2802,13038 |
|
,50 |
2769,19498 |
2451,53866 |
3098,44683 |
|
,55 |
3072,09057 |
2733,92871 |
3430,56245 |
|
, 60 |
3413,82108 |
3049,73874 |
3810,08632 |
|
,65 |
3807,02441 |
3408,93562 |
4253,51516 |
|
, 70 |
4270,51303 |
3826,32195 |
4785,56534 |
|
,75 |
4834,19240 |
4325,40532 |
5445,75782 |
|
,80 |
5549,85527 |
4946,81830 |
6303,01441 |
|
,85 |
6518,83063 |
5769, 66817 |
7493,47901 |
|
, 90 |
7981,87380 |
6980,17468 |
9345,15098 |
|
, 91 |
8381,92608 |
7305,70121 |
9861,25890 |
|
,92 |
8839,28528 |
7675,37386 |
10455, 92397 |
|
, 93 |
9371,03216 |
8102,08907 |
11153,16983 |
|
,94 |
10002,81198 |
8605,11895 |
11989,28434 |
|
,95 |
10775,51263 |
9215,02568 |
13022,52271 |
|
, 96 |
11759, 93430 |
9984,40147 |
14354,56418 |
|
, 97 |
13094,24400 |
11015,11467 |
16185,74513 |
|
,98 |
15105,23259 |
12545,80989 |
18995,72850 |
|
, 99 |
18920,00171 |
15388,14261 |
24468,76250 |
Отношение этих двух значений медиан составит:
2769/3852= 0,719
Это соотношение отображается в небольшой статистической сводке:
|
Estimates of Relative Median Potency | |||
|
|
95% |
Confidence |
Limits |
|
GRUPPE 1 VS. 2 |
Estimate ,7190 |
Lower ,60280 |
Upper ,84419 |

Диалоговое окно Curve Estimation (Подгонка кривых)
Рис. 16.24: Диалоговое окно Curve Estimation (Подгонка кривых)
Откроется диалоговое окно Curve Estimation (Подгонка кривых), в котором можно выбрать одну из одиннадцати различных моделей.
Предлагаемым моделям соответствуют следующие формулы:
| Молель | Формула |
| Линейная | у= b0+ b1хX |
| Логарифмическая | у= b0+ b1х ln(х) |
| Обратная | ![]() |
| Квадратичная | у= b0+ b1хX + b2хX2 |
| Кубическая | у= b0+ b1хХ + b2хX2 + b3хX3 |
| Степенная | y= b0хXb1 |
| Показательная (комбинированная) | y= b0 * b1 |
| S | у= е^(b0+b1xX) |
| Логистическая | ![]() |
| Рост | у= е^(b0+b1xX) |
| Экспоненциальная | y=b0 х е^(b1xt) |
В поле для меток наблюдений (Case labels) можете указать некоторую переменную для описания данного наблюдения, которая затем будет появляться в режиме выбора точек (см. гл. 22.8.1) на построенном графике (см. рис. 16.25).
Independent: ANZ Dependent Mth Rsq d.f. F Sigf b0 b1 b2 LOHN QUA ,979 11 251,10 ,000 22,5918 3,0615 -,0242 Эта таблица содержит значения коэффициентов а, b1, и b2. К данным исходного файла была добавлена переменная fit_1, которая содержит прогнозируемые значения, найденные на основе рассчитанных коэффициентов. Далее в окне просмотра появляется график, на котором отображаются кривые, соответствующие изменению наблюдаемых и спрогнозированных значений.
Приближение с помощью выбранной кривой, как кажется, удалось довольно не плохо. В противном случае можно было бы применить и другие модели, для использования которых, конечно же, не помешал бы некоторый опыт в области подобных криволинейных приближений.
Рис 16.25: Наблюдаемая и оценочная кривая Диаграмма рассеяния
Рис. 16.26: Диаграмма рассеяния
| Model (Модель) | R | R Square (R-квадрат) | Adjusted R Square (Смещенный R-квадрат) | Std. Error of the Estimate (Стандартная ошибка оценки) |
| 1 | ,879а | ,772 | ,766 | 3,1623 |
| Coefficients (Коэффициенты) а | ||||||
| Model (Модель) | Unstandardized Coefficients (He стандарти-зированные коэф-фициенты) | Standardized Coefficients (Стандарти-зированные коэф-фициенты) | Т | Sig. (Значи-мость) | ||
| В | Std. Error (Станда-ртная ошибка) | /3 (Beta) | ||||
| 1 a. Dep | (Constant) (Koнстанта) | -2,722 | 1,273 | -2,138 | ,039 | |
| Alter (Возраст) endent Variable | 1,569 (Зависим | ,138 ая перемен-ная) | ,879 | 11,357 | ,000 |
В данном примере мы имеем дело с группами случаев, разделёнными по годам возраста, для которых независимая переменная имеет всегда одно и то же значение. Исходя из значений зависимой переменной сопоставленных каждому случаю, можно определить дисперсию; обратное значение этой дисперсии применяется обычно в качестве весового фактора для соответствующего случая.
Если подобной группировки данных нет, то пытаются выявить такую связь между дисперсией и переменной, чтобы степень дисперсии была пропорциональна значению данной переменной. При поиске так называемых весовых переменных речь идет о независимой переменной или, если их много, — об одной из независимых переменных. В приведенном примере такой переменной, очевидно, является независимая переменная alter, по которой и можно проследить изменение дисперсии.
Целью анализа сначала является определение наилучшей возможной степени р. а затем подсчёт веса для каждого случая, причём вес для значения переменной х определяется как
1/хp
Диалоговое окно Weight Estimation (Весовая цепка)
Рис. 16.27: Диалоговое окно Weight Estimation (Весовая цепка)
| Source variable | . . ALTER | Dependent variable. . STAEDTE | |
| Log- likelihood | Function =-116,950816 | POWERvalue= -2,000 | |
| log- likelihood | Function =-115,170919 | POWERvalue=-1,800 | |
| Log- likelihood | Function =-113,434617 | POWERvalue=-1,600 | |
| Log- likelihood | Function =-111,746484 | POWERvalue=-1,400 | |
| Log- likelihood | Function =-110,111706 | POWERvalue=-1,200 | |
| Log- likelihood | Function =-108,536154 | POWERvalue=-1,000 | |
| Log- likelihood | Function =-107,026465 | POWERvalue=-,800 | |
| Log- likelihood | Function =-105,590111 | POWERvalue=-,600 | |
| Log- likelihood | Function =-104,235463 | POWERvalue=-,400 | |
| Log- likelihood | Function =-102,971835 | POWERvalue=-,200 | |
| Log- likelihood | Function =-101,809499 | POWERvalue=,000 | |
| Log- likelihood | Function =-100,759655 | POWERvalue=,200 | |
| Log- likelihood | Function =-99,834344 | POWERvalue=,400 | |
| Log- likelihood | Function =-99,046284 | POWERvalue=,600 | |
| Log- likelihood | Function =-98,408623 | POWERvalue=,800 | |
| Log- likelihood | Function =-97,934594 | POWERvalue=1,000 | |
| Log- likelihood | Function =-97,637078 | POWERvalue=1,200 | |
| Log- likelihood | Function =-97,528092 | POWERvalue=1,400 | |
| Log- likelihood | Function =-97,618231 | POWERvalue=1,600 | |
| Log- likelihood | Function =-97,916114 | POWERvalue=1,800 | |
| Log- likelihood | Function =-98,427890 | POWERvalue=2,000 | |
| The Value ofPOWER MaximizingLog-likelihood Function =1,400 | |||
| Source variable | ALTER | POWERvalue=:1,400 | |
| Dependent variable. . STAEDTE | |||
| Multiple R, 90081 | |||
| R Square,81146 | |||
| Adjusted R Square ,80650 | |||
| Standard Error ,68669 | |||
| Analysis of Variance : | |||
| DF Sum of Squares | Mean Square | ||
| Regression Residuals | 1 77,121477 38 17,918483 | 77,121477 ,471539 | |
| P = 163,55269 | Signif F = ,0000 | ||
| ------- | - — — Variables in the Equation — | - - - - - | - - - |
| Variable | В SE В Beta | Т | Sig Т |
| ALTER (Constant) | 1,569996 ,122764 ,900813 -2,728584 ,840793 | 12,789 -3,245 | ,0000 ,0025 |
| Log-likelihood | Function = -97,528092 | ||
| The following | new variables are being created: | ||
| Name | Label | ||
| WGT_1 | Weight for STAEDTE from WLS, MOD_ | 1 ALTER** | -1,400 |
1/(31,4)=0,2148
Весовые показатели были добавлены в исходный файл под переменной с именем wgt_1. Затем повторно был выполнен расчёт регрессии. Корреляционный коэффициент при этом возрос до 0,90081, а мера определённости до 0,81146. Хотя эти изменения, а также изменение рассчитанных коэффициентов регрессии и констант незначительны, зато стала намного меньше соответствующая им стандартная ошибка.
Диалоговое окно Линейная регрессия
Рис.16.2: Диалоговое окно Линейная регрессия
Coefficients (Коэффициенты) а
| Model (Модель) | Unstan- dardized Coefficients (Не стандарти-зированные коэф-фициенты) | Standa-rdized Coef- ficients (Стандарти-зированные коэф- фициенты) | Т | Sig. (Значи-мость) | |||
| В | Std: Error (Стандар-тная ошибка) | ß (Beta) | |||||
| 1 | (Constant) (Конста- нта) | 34,546 | 9,416 | 3,669 | ,000 | ||
| Choles- terin, Ausga- ngswert (холес- терин, исходная величина) | ,863 | ,039 | ,861 | 22,197 | ,000 | ||
Рассмотрим сначала нижнюю часть результатов расчётов. Здесь выводятся коэффициент регрессии b и смещение по оси ординат а под именем "константа". То есть, уравнение регрессии выглядит следующим образом:
chol1 = 0,863-chol0 + 34,546
Если значение исходного показателя холестерина составляет, к примеру, 280, то через один месяц можно ожидать показатель равный 276.
Частные рассчитанных коэффициентов и их стандартная ошибка дают контрольную величину Т; соответственный уровень значимости относится к существованию ненулевых коэффициентов регрессии. Значение коэффициента (3 будет рассмотрено при изучении многомерного анализа.
Средняя часть расчётов отражает два источника дисперсии: дисперсию, которая описывается уравнением регрессии (сумма квадратов, обусловленная регрессией) и дисперсию, которая не учитывается при записи уравнения (остаточная сумма квадратов). Частное от суммы квадратов, обусловленных регрессией и остаточной суммы квадратов называется "коэфициентом детерминации". В таблице результатов это частное выводится под именем "R-квадрат". В нашем примере мера определённости равна
314337,948/ 424067,356 =0,741
Эта величина характеризует качество регрессионной прямой, то есть степень соответствия между регрессионной моделью и исходными данными. Мера определённости всегда лежит в диапазоне от 0 до 1. Существование ненулевых коэффициентов регрессии проверяется посредством вычисления контрольной величины F, к которой относится соответствующий уровень значимости.
В простом линейном регрессионном анализе квадратный корень из коэфициента детерминации, обозначаемый "R", равен корреляционному коэффициенту Пирсона. При множественном анализе эта величина менее наглядна, нежели сам коэфициент детерминации. Величина "смещенный R-квадрат" всегда меньше, чем несмещенный. При наличии большого количества независимых переменных, мера определённости корректируется в сторону уменьшения. Принципиальный вопрос о том, может ли вообще имеющаяся связь между переменными рассматриваться как линейная, проще и нагляднее всего решать, глядя на соответствующую диаграмму рассеяния. Кроме того, в пользу гипотезы о линейной связи говорит также высокий уровень дисперсии, описываемой уравнением регрессии. О том, как регрессионную прямую можно встроить в диаграмму рассеяния, будет рассказано в разделе 16.1.3.
И, наконец, стандартизированные прогнозируемые значения и стандартизированные остатки можно предоставить в виде графика. Вы получите этот график, если через кнопку Plots...(Графики) зайдёте в соответствующее диалоговое окно и зададите в нём параметры *ZRESID и *ZPRED в качестве переменных, отображаемых по осям у и х соответственно. В случае линейной регрессии остатки распределяются случайно по обе стороны от горизонтальной нулевой линии.
Вспомогательное меню Regression (Регрессия)
Вспомогательное меню Regression (Регрессия)
Для проведения линейного регрессионного анализа зависимая переменная должна иметь интервальную (или порядковую) шкалу. В то же время, бинарная логистическая регрессия выявляет зависимость дихотомической переменной от некой другой переменной, относящейся к любой шкале. Те же условия применения справедливы и для пробит-анализа. Если зависимая переменная является категориальной, но имеет более двух категорий, то здесь подходящим методом будет мультиномиальная логистическая регрессия. Новшеством в 10 версии SPSS является порядковая регрессия, которую можно использовать, когда зависимые переменные относятся к порядковой шкале. И, наконец, можно анализировать и нелинейные связи между переменными, которые относятся к интервальной шкале. Для этого предназначен метод нелинейной регрессии.
Методы криволинейного приближения, весовые оценки и 2-ступенчатые наименьшие квадраты исследуют соответственно приближённость пути прохождения кривых при помощи компенсационных кривых, регрессионный анализ для изменяющейся дисперсии и проблемы из области эконометрии.
Задачи статистики в пакете SPSS
Одномерный дисперсионный анализ (общий многофакторный)
17.1.1 Одномерный дисперсионный анализ (общий многофакторный)Исследуем влияние пола и возраста на результирующую величину показателя внимательности (M1). Здесь мы имеем дело с двумя факторами, из которых один (пол) разделён на две категории, а второй (возраст) на три. Комбинации этих двух факторов образуют в общей сложности шесть групп испытуемых (называемых также ячейками). Число наблюдений, относящихся к отдельным ячейкам является не одинаковым, а наоборот различным.
Одномерный дисперсионный анализ по методу Фишера (Fisher)
17.1.2 Одномерный дисперсионный анализ по методу Фишера (Fisher)Проанализируем теперь пример, приведенный в разделе 17.1.1, при помощи традиционного "классического" метода Фишера. Так как, начиная с 8.0 версии программы, этот вид анализа уже не выводится в диалоговое окно, то нам придётся воспользоваться программным синтаксисом (процедура AN OVA).
При помощи вспомогательной команды STATISTICS можно организовать вывод следующих данных:
| ANOVA a | |||||||
| Experimental Method (Экспериментальный метод) | |||||||
| Sum of Squares (Сумма квадра-тов) | df (Степень свободы) | Mean Square (Среднее значение квадрата) | F | Sig. (Значи-мость) | |||
| М1 | Main Effects (Главные эффекты) | (Combined) (Объеди-нённо) | 143,388 | 3 | 47,796 | 19,745 | ,000 |
| GESCHL (Пол) | ,458 | 1 | ,458 | ,189 | ,668 | ||
| ALTER (Возраст) | 142,571 | 2 | 71,285 | 29,449 | ,000 | ||
| 2-Way Interacti-ons (2-сторонние взаимо-действия) | GESCHL * ALTER (Пол' Возраст) | 2,446 | 2 | 1,223 | ,505 | ,611 | |
| Model (Модель) | 145,833 | 5 | 29,167 | 12,049 | ,000 | ||
| Residual (Остатки) | 50,883 | 21 | 2,421 | ||||
| Total (Сумма) | 196,667 | 26 | 7,564 |
Вероятность ошибки р, соответствующая тестовому значению F-критерия, выводится в правой колонке под заголовком "Sig." ("Значимость"). Ее величина свидетельствует о глобальной значимости для главных эффектов (р < 0,001). Данное значение основано только на факторе Alter (Возраст) (р < 0,001), но не на факторе Geschlecht (Пол) (р = 0,668). Взаимодействия в данном случае не наблюдаются (р = 0,611). Результаты очень близки к результатам расчёта при помощи общей линейной модели (см. гл. 17.1.1).
Результаты МСА выглядят следующим образом:
| MCA a (Множественный классификационный анализ) | |||||||
| N | Predicted Mean (Прогнозируемое среднее значение) | Deviation (Отклонение) | |||||
| Unadjusted (Несме-щенное) | Adjusted for Factors (Смещенное по факторам) | Unad-justed (Несме-щенное) | Adjusted for Factors (Смещенное по факторам) | ||||
| М1 | GESCHL (Пол) | maennlich (Мужской) | 15 | 13,60 | 13,56 | ,16 | ,12 |
| weiblich (Женский) | 12 | 13,25 | 13,30 | -,19 | -.15 | ||
| ALTER (Возраст) | bis 30 Jahre (До 30 лет) | 7 | 16,00 | 16,00 | 2,56 | 2,55 | |
| 31 - 50 Jahre (31 -50 лет) | 9 | 14,78 | 14,78 | 1,33 | 1,33 | ||
| ueber 50 Jahre (Свыше 50 лет) | 11 | 10,73 | 10,73 | -2,72 | -2,71 |
| Factor Summary a (сводные данные для факторов) | ||
| | Eta (Эта) | Beta (Бета) |
| Adjusted for Factors (Смещено по факторам) | ||
| М1 GESCHL (Пол) | ,064 | ,048 |
| ALTER (Возраст) | ,853 | ,852 |
| а М1 by GESCHL, ALTER (М1/по полу, возрасту) |
| | R | R Squared (R-квадрат) |
| М1 by GESCHL, ALTER (М1/по полу, возрасту) | ,854 | ,729 |
Одномерный дисперсионный анализ с повторным измерением
17.1.3 Одномерный дисперсионный анализ с повторным измерениемИсследуем вопрос следующего характера: наблюдаются ли в течение четырёх моментов времени значимые изменения показаний теста на внимательность. При этом необходимо учесть влияние двух факторов: пола и возраста.
В общем, в нашем распоряжении имеется три фактора: пол с двумя категориями, возраст с тремя категориями и время с четырьмя категориями. Это приводит к необходимости выполнения трёхфакторного дисперсионного анализа, в котором третий фактор (время) является фактором с повторным измерением. Этот фактор будет представлен не при помощи отдельных групп испытуемых, а при помощи значений переменных ml-m4.
Одномерный дисперсионный анализ
17.1 Одномерный дисперсионный анализОднофакторный дисперсионный анализ (без и с повторными измерениями) уже рассматривался в главе 13, поэтому мы сразу обратимся к многофакторному дисперсионному анализу.
Так как дисперсионный анализ очень часто находит применение в области психологии, то первым примером и будет пример из этой области. В четыре различных момента времени 27 испытуемых были подвергнуты тесту на внимательность. Причём для каждого испытуемого регистрировался пол и возраст. Собранные значения представлены в следующей сводной таблице.
|
С |
А |
M1 |
М2 |
М3 |
М4 |
С |
А |
М1 |
М2 |
МЗ |
М4 |
|
1 |
1 |
16 |
18 |
21 |
20 |
1 |
3 |
8 |
11 |
12 |
12 |
|
1 |
1 |
17 |
19 |
18 |
22 |
2 |
1 |
17 |
18 |
20 |
21 |
|
1 |
1 |
15 |
15 |
17 |
18 |
2 |
1 |
15 |
15 |
18 |
17 |
|
1 |
1 |
16 |
17 |
18 |
19 |
2 |
1 |
16 |
17 |
17 |
18 |
|
1 |
2 |
15 |
16 |
20 |
18 |
2 |
2 |
15 |
18 |
19 |
21 |
|
1 |
2 |
16 |
19 |
18 |
20 |
2 |
2 |
17 |
20 |
21 |
22 |
|
1 |
2 |
13 |
14 |
16 |
17 |
2 |
2 |
14 |
16 |
17 |
20 |
|
1 |
2 |
14 |
14 |
15 |
17 |
2 |
2 |
14 |
14 |
16 |
18 |
|
1 |
2 |
15 |
16 |
16 |
18 |
2 |
3 |
12 |
11 |
14 |
15 |
|
1 |
3 |
13 |
14 |
15 |
16 |
2 |
3 |
10 |
12 |
13 |
14 |
|
1 |
3 |
14 |
17 |
16 |
19 |
2 |
2 |
10 |
10 |
11 |
13 |
|
1 |
3 |
13 |
13 |
15 |
16 |
2 |
3 |
9 |
10 |
12 |
11 |
|
1 |
3 |
10 |
11 |
11 |
11 |
2 |
3 |
10 |
9 |
12 |
13 |
|
1 |
3 |
9 |
10 |
10 |
13 |
|
|
|
|
|
|
При помощи этого примера мы рассмотрим, во-первых, одномерный дисперсионный анализ без повторных измерений и, во-вторых, одномерный дисперсионный анализ с повторными измерениями. Одномерный дисперсионный анализ без повторных измерений может быть проведен как при помощи общей линейной модели, так и при помощи классического метода Фишера.
Ковариационный анализ
17.2 Ковариационный анализЕсли в дисперсионном анализе используется независимая переменная, относящаяся к интервальной шкале или к шкале отношений (метрической), то говорят не о факторе, а о ковариации. Поясним значение такой "контрольной переменной" на следующем примере.
Двадцать испытуемых с избыточным весом (11 мужчин и 9 женщин) изъявили желание похудеть и для этого взялись следовать определённой диете. Одиннадцать испытуемых дополнительно вступили в некоторое общество для желающих похудеть, в котором процесс похудения подстегивается при помощи специальных стимулирующих лекций и других мотивирующих методов. Для всех тестируемых были сняты показатели роста (в см) и веса (в кг) до и после прохождения курса. Далее при помощи расчета индекса Брока (Вгоса) фактический вес был отнесен к нормальному весу, где нормальный вес в килограммах мы можем получить, если от роста, взятого в сантиметрах, отнимем 100:
Так индекс Брока, равный 100 процентам означает нормальный вес, превышающий 100 процентов — избыточный вес. Мы хотим провести двухфакторный дисперсионный анализ с использованием переменных beh и g в качестве независимых переменных (факторов) и переменной brocaab в качестве зависимой переменной.
Tests of Between-Subjects Effects (Тесты межсубъектных эффектов)
Dependent Variable: BROCAAB (Зависимая переменная: BROCAAB)
|
Source (Источник) |
Type III Sum of Squares (Сумма квадратов III типа) |
Df |
Mean Square (Средний квадрат) |
F |
Sig. (Значи-мость) |
|
Corrected Model (Подправленная модель) |
209,636" |
3 |
69,879 |
12,836 |
,000 |
|
Intercept (Отрезок) |
1371,877 |
1 |
1371,877 |
252,002 |
,000 |
|
ВЕН |
199,414 |
1 |
199,414 |
36,631 |
,000 |
|
G |
1.998E-03 |
1 |
1.998E-03 |
,000 |
,985 |
|
BEH*G |
3,026 |
1 |
3,026 |
,556 |
,467 |
|
Error (Ошибка) |
87,103 |
16 |
5,444 |
|
|
|
Total (Сумма) |
1805,668 |
20 |
|
|
|
|
Corrected Total (Подправленная суммарная вариация) |
296,738 |
19 |
|
|
|
Получается очень значимая разница между двумя группами (р < 0,001): то есть, членство в обществе оказывает очень значимое воздействие на процесс снижения веса.
Если рассмотреть результаты поподробнее, то можно заметить, что начальное значения индекса Брока для группы, дополнительно входящей в общество похудения, значительно выше (132,0 против 113,1). Таким образом, шансы потери веса в этой группе с самого начала выше, чем в другой. Поэтому было бы уместно включить в анализ начальное значение индекса Брока (переменную brоса0) в качестве контрольной переменной, то есть ковариации.
Tests of Between-Subjects Effects (Тесты межсубъектных эффектов)
Dependent Variable: BROCAAB (Зависимая переменная: BROCAAB)
|
Source (Источник) |
Type III Sum of Squares (Сумма квадратов III типа) |
df |
Mean Square (Средний квадрат) |
F |
Sig. (Значи-мость) |
| Corrected ModelПодправленная модель) | 231,170a | 4 |
57,842 |
13,273 |
,000 |
| Intercept (Отрезок) | 8.568 | 1 | 8,568 | 1,966 | ,181 |
| BRACAO | 21,734 | 1 | 21,734 | 4,987 | ,041 |
| ВЕН | 11.077 | 1 | 11,077 | 2, 542 | ,132 |
|
G |
3.830 |
1 |
3,830 |
,879 |
,363 |
|
ВЕН *G |
4.644 |
1 |
4,644 |
1,066 |
,318 |
|
Error (Ошибка) |
65.368 |
15 |
4,358 |
|
|
|
Total (Сумма) |
1805,668 |
20 |
|
|
|
|
Corrected Total (Подправленная суммарная вариация) |
296,738 |
19 |
|
|
|
В результате, как и ожидалось, обнаружилось сильное влияние ковариации brоса0 (р = 0,041). Это ведёт к тому, что в обеих группах пропадает значимый эффект (р = 0,132). Из-за сильно отличающихся исходных показателей, доказательство значимого воздействия дополнительного членства в обществе для желающих похудеть является невозможным.
Многомерный дисперсионный анализ
17.3 Многомерный дисперсионный анализМногомерный дисперсионный анализ применяется тогда, когда в одном дисперсионном анализе необходимо одновременно исследовать влияние факторов и возможных ковариации (независимых переменных) на несколько зависимых переменных. Такой многомерный дисперсионный анализ следует предпочесть одномерному тогда (и только тогда), когда зависимые переменные не являются независимыми друг от друга, а наоборот коррелируют между собой.
Если Вы откроете данные из исследования гипертонии (файл hyper.sav) и рассчитаете корреляции между исходными значениями систолического и диастолического давлений, уровнями холестерина и сахара в крови (переменные rrs0, rrd0, cho10 и bz0), то вы заметите, что эти переменные, хотя и не сильно, но всегда значимо коррелируют между собой.
Если Вы хотите узнать, значимо ли отличаются перечисленные переменные для четырёх заданных возрастных групп (переменная ak), то вместо четырёх отдельных одномерных однофакторных дисперсионных анализов Вы должны провести один многомерный однофакторный анализ.
Поместите переменные rs0, rrd0, cho10, и bz0 в поле. предусмотренное для зависимых переменных, а переменной ak присвойте статус постоянного фактора.
Под выключателями Contrasts... (Контрасты), Model... (Модель) и Options... (Опции) Вы найдёте множество разнообразных возможностей для задания контрастов, выбора различных вариантов моделей или организации вывода всевозможных дополнительных результатов расчёта; к примеру, здесь можно активировать тесты проверки дисперсии на однородность.
Уже было указано на невозможность в рамках этой книги представить все имеющиеся возможности по отдельности. Чтобы рассмотреть все эти возможности Вам придётся обратиться к оригинальному учебнику по SPSS; опытному же пользователю для понимания будет достаточно просто посмотреть на пункты, имеющиеся в диалоговом окне. В крайнем случае, можно воспользоваться справкой.
Компоненты дисперсии
17.4 Компоненты дисперсииРасчёт компонентов дисперсии в общей линейной модели производится при наличии факторов со случайными эффектами. Факторами со случайными эффектами являются те факторы, слои которых были случайно выбраны из популяции (совокупности) многих возможных слоев факторов.
Проанализируем длину листьев растений растущих на одной клумбе. Для этого вырвем произвольно три растения, листья которых мы и будем измерять.
|
Растения |
Длина листьев (см) |
Растения |
Длина листьев (см) | |
|
1 |
9,5 |
2 |
9,0 |
|
|
1 |
9,8 |
2 |
9,5 |
|
|
1 |
8,7 |
3 |
8,0 |
|
|
1 |
8,8 |
3 |
7,8 |
|
|
1 |
8,9 |
3 |
9,0 |
|
|
1 |
10,0 |
3 |
8,7 |
|
|
2 |
11,0 |
3 |
8,9 |
|
|
2 |
10,5 |
|
|
|
Диалоговое окно Multivariate (Многомерная)
Диалоговое окно Multivariate (Многомерная)
Появятся довольно обширные результаты расчёта. Важным для нас является в первую очередь глобальный многомерный тест на предмет выявления значимых различий "где-нибудь" между возрастными группами:
Multivariate Tests c (Многомерные тесты)
|
Effect (Эффект ) |
Value (Зна-чение) |
F |
Hypo-thesis df (Гипо-теза df) |
Error df (Ошибка df) |
Sig. (Значи-мость) | |
|
Inte-rcept Отре-зок) |
Pillai's Trace (След Пиллая) |
,996 |
9252, 061а |
4,000 |
167,000 |
,000 |
|
Wilks' Lambda (Лямбда Уилкса) |
,004 |
9252,061 а |
4,000 |
167,000 |
,000 | |
|
Hotelling's Trace (След Хоттелинга) |
221,606 |
9252, 061а |
4,000 |
167,000 |
,000 | |
|
Roy's Largest Root 'Макси-мальный характе-ристический корень по методу Роя) |
221,606 |
9252,061 а |
4,000 |
167,000 |
,000 | |
|
АК |
Dillai's Trace (След Пиллая) |
,178 |
2,661 |
12,00ol |
507,00o' |
,002 |
|
Wilks' Lambda (Лямбда Уилкса) |
,827 |
2,740 |
12,000 |
442,132 |
,001 | |
|
Hotelling's Trace (След Хоттелинга) |
,203 |
,805 |
12,000 |
197,000 |
,001 | |
|
Roy's Largest Root (Макси-мальный характе-ристический корень по методу Роя) |
,169 |
7,159Ь |
4,000 |
167,000 |
,000 | |
b. The statistic is an upper bound on F that yields a lower bound on the significance level (Статистической характеристикой является верхний придел значения F-распределе-ния, который указывает на нижний предел уровня значимости).
с Design: Intercept+AK (Компоновка: Отрезок + АК)
Здесь производится расчёт величин, традиционных для общей линейной модели. Они уже представлены в главе 17.1.3. Основываясь на критерии "След Пиллая" ("Pillai's Trace"), следует отклонить нулевую гипотезу о том, что между четырьмя возрастными группами не наблюдается различий ни для одной из зависимых переменных (значение р = 0,002).
Для проверки, какие из четырёх зависимых переменных в чем-то различаются между собой, были проведены одномерные тесты. Результаты этих тестов полностью соответствуют результатам отдельного одномерного дисперсионного анализа для каждой зависимой переменной.
Мы здесь воздержимся от подробной расшифровки довольно большой таблицы "Тесты межсубъектных эффектов". Отметим только, что для систолического и диастолического давлений, уровней холестерина и сахара в крови получаются следующие значения вероятности ошибки р: 0,153, 0,002, 0,267 и 0,688 соответственно. Причиной суммарной значимости, поучающейся в результате многомерного теста, являются прежде всего значимые различия для диастолического давления.
Для опытных статистиков, хорошо знакомых с тонкостями многомерных методов, SPSS может предложить избыточное количество разнообразных возможностей в области дисперсионного анализа. В первую очередь можно использовать разнообразные возможности процедуры MANOVA, доступной отныне только через командный синтаксис. Эта процедура позволяет проводить простой и множественный регрессионный анализ, дискриминантный анализ, канонический анализ, анализ главных компонентов и др. Однако сложность работы с заданием параметров может составить некоторые затруднения для менее опытных пользователей. Поэтому в данной книге мы ограничились рассмотрением наиболее часто применяемых компоновок дисперсионного анализа.
Диалоговое окно Repeated Measures (Повторные измерения)
Диалоговое окно Repeated Measures (Повторные измерения)
Сначала даётся сводная таблица для внутрисубъектных (время) и межсубъектных (пол и возраст) факторов. Затем выводятся дескриптивные статистики (среднее значение, стандартное отклонение, количество наблюдений) для отдельных ячеек, то есть характеристики переменных ml-m4 отдельно для пола и возрастных групп. Вывод этих показателей в книге не приводится.
Далее следуют результаты расчёта для фактора "Zeit" ("Время") и для взаимодействий с этим фактором, в основу которых положен метод общей линейной модели. Для этого были определены различные тестовые величины, которые выводятся под наименованиями: "Pillai's Trace" (След Пиллая), "Wilks' Lambda" (Лямбда Уилкса), "Hotelling's Trace" (След Хоттелинга) и "Roy's Largest Root" (Максимальный характеристический корень по методу Роя). С помощью надлежащих преобразований по этим тестовым величинам восстанавливается рампределения значение F, по которому затем определяется значение р, приводимое в колонке "Значимость" (Sig). Следует отметить, что след Пиллая ("Pillai's Trace") является наиболее сильным и устойчивым (робастным) тестом.
Результаты первых трёх тестов являются практически идентичными. Обнаружено очень значимое влияние временного фактора, а вот взаимодействия других факторов со временем, напротив, оказались не значимыми.
Одни и те же расчёты, то есть проверка временного фактора и взаимодействий со временем, производятся также при помощи традиционного "классического" метода Фишера. Соответствующие результаты можно взять из строки "Предполагается сферичность" во второй из нижеследующих таблиц, которая наряду с ними содержит ещё три варианта проверок.
Multivariate Tests c (Многомерные тесты)
| Effect (Эффект) | Value (Значе-ние) | F | Hypothesis df (Гипотеза df) | Error df (Ошибка df) | Sig. (Зна-чимость) | |
| ZEIT (Время) | Pillai's Trace (След Лиллая) | ,955] | 133,367" | 3,000 | 19,000 | ,000 |
| Wilks' Lambda (Лямбда Уилкса) | ,045 | 133,367" | 3,000 | 19,000 | ,000 | |
| Hotelling's Trace (След Хоттелинга) | 21,058 | 133,367а | 3,000 | 19,000 | ,000 | |
| Roy's Largest Root (Макси-мальный характе-ристический корень по методу Роя) | 21,058 | 133,367е | 3,000 | 19,000 | ,000 | |
| ZEIT*GESCHL (Время'Пол) | Pillai's Trace (След Пиллая) | ,106 | ,752" | 3,000 | 19,000 | ,535 |
| Wilks1 Lambda (Лямбда Уилкса) | ,894 | ,752а | 3,000 | 19,000 | ,535 | |
| Hotelling's Trace (След Хоттелинга) | ,119 | ,752а | 3,000 | 19,000 | ,535 | |
| Roy's Largest Root (Макси-мальный характе-ристический корень по методу Роя) | ,119 | ,752" | 3,000 | 19,000 | ,535 | |
| ZEIT * ALTER (Время* Возраст) | Pillai's Trace (След Пиллая | ,293 | 1,145 | 6,000 | 40,000 | ,355 |
| Лямбда Уилкса) | ,710 | 1,183а | 6,000 | 38,000 | ,336 | |
| Hotelling's Trace (След Хоттелинга) | ,404 | 1,213 | 6,000 | 36,000 | ,322 | |
| Roy's Largest Root (Макси-мальный характе-ристический корень по методу Роя) | ,394 | 2,625" | 3,000 | 20,000 | ,079 | |
| ZEIT * GESCHL * ALTER (Время'Пол* Возраст) | Pillai's Trace (След Пиллая) | ,406 | 1,699 | 6,000 | 40,000 | ,146 |
| Wilks1 Lambda (Лямбда Уилкса) | ,622 | 1,699а | 6,000 | 38,000 | ,148 | |
| Hotelling's Trace (След Хоттелинга) | ,564 | 1,691 | 6,000 | 36,000 | ,151 | |
| Roy's Largest Root (Макси-мальный характе-ристический корень по методу Роя) | ,468 | 3,118Ь | 3,000 | 20,000 | ,049 | |
| a, b, с — см. след. стр. |
Measure: MEASURE_1 (Мера: MEASURE_1 )
| Source Источник) | Type III Sum of Squares (Сумма квадратов III типа) | df | Чеап Square (Среднее значение квадрата) | F | Sig. (Значи-мость) | |
| ZEIT Время) | Sphericity Assumed (Предполагается сферичность) | 185,661 | 3 | 61,887 | 83,028 | ,000 |
| Greenhouse-Geisser (Гринхауз-"айссер) | 185,661 | 2,577 | 72,055 | 83,028 | ,000 | |
| Huynh-Feldt (Гин-Фельд) | 185,661 | 3,000 | 61,887 | 83,028 | ,000 | |
| Lower-bound (Нижний предел) | 185,661 | 1,000 | 185,661 | 83,028 | ,000 | |
| ZEIT* GESCHL Время * Пол) | Sphericity Assumed (Предполагается сферичность) | 1,520 | 3 | ,507 | ,680 | ,568 |
| Greenhouse-Geisser (Гринхауз-"айссер) | 1,520 | 2,577 | ,590 | ,680 | ,547 | |
| Huynh-Feldt (Гин-Фельд1 | 1,520 | 3,000 | ,507 | ,680 | ,568 | |
| .ower-bound (Нижний предел) | 1,520 | 1,000 | 1,520 | ,680 | ,419 | |
| ZEIT* ALTER (Время * Возраст) | Sphericity Assumed ^Предполагается сферичность) | 4,190 | 6 | ,698 | ,937 | ,475 |
| Greenhouse-Geisser (Гринхауз-Гайссер) | 4,190 | 5,153 | ,813 | ,937 | ,467 | |
| Huynh-Feldt (Гин-Фельд) | 4,190 | 6,000 | ,698 | ,937 | ,475 | |
| Lower-bound (Нижний предел) | 4,190 | 2,000 | 2,095 | ,937 | ,408 | |
| ZEIT* GESCHL* ALTER Время * Пол* Зозраст) | Sphericity Assumed (Предполагается сферичность) | 6,557 | 6 | 1,093 | 1,466 | ,204 |
| Greenhouse-Geisser (Гринхауз-Гайссер^ | 6,557 | 5,153 | 1,272 | 1,466 | ,215 | |
| Huynh-Feldt (Гин-Фельд) | 6,557 | 6,000 | 1,093 | 1,466 | ,204 | |
| Lower-bound (Нижний предел) | 6,557 | 2.00C | 3,278 | 1,466 | ,254 | |
| Error (ZEIT) (Ошибка (Время)) | Sphericity Assumed (Предполагается сферичность) | 46,958 | 63 | ,745 | ||
| Greenhouse-Geisser (Гринхауз-Гайссер) | 46,958 | 54,110 | ,868 | |||
| Huynh-Feldt (Гин-Фельд) | 46,95f | 63,000 | ,745 | |||
| Lower-bound (Нижний предел) | 46,958 | 21.00C | 2,236 |
b The statistic is an upper bound on F that yields a lower bound on the significance level (Статистической характеристикой является верхний придел значения Е-распределе-ния, который указывает на нижний предел уровня значимости).
c Design: Intercept+GESCHL+ALTER+GESCHL * ALTER (Компоновка: Отрезок + Пол + Возраст + Пол * Возраст )
Within Subjects Design: ZEIT (Компоновка внутри субъектов: Время)
Полученные результаты близки к результатам расчётов по общей линейной модели. Тест Левене на равенство дисперсий демонстрирует однородность дисперсии для моментов времени со второго по четвёртый и неоднородность дисперсии (р = 0,009) для первого момента (см. гл. 17.1.1).
Levene's Test of Equality of Error Variances a (Тест Левене на равенство дисперсии ошибок)
| | F | df1 | df2 | Sig. (Значимость) |
| М1 | 4,177 | 5 | 21 | ,009 |
| М2 | ,878 | 5 | 21 | ,513 |
| МЗ | 1,751 | 5 | 21 | ,167 |
| М4 | 2,022 | 5 | 21 | ,117 |
Далее идут расчёты для обоих факторов (пол и возраст), для которых не производятся повторные измерения, а также для их взаимодействия.
Tests of Between-Subjects Effects (Тест межсубъектных эффектов)
Measure: MEASURE_1 (Мера: MEASURE_1)
Transformed Variable: Average (Трансформированная переменная: Среднее значение)
| Source (Источник) | Type III Sum of Squares (Сумма квадратов III типа) | Df | Mean Square (Среднее значение квадрата) | F | Sig. (Значимость) |
| Intercept (Отрезок) | 25080,367 | 1 | 25080,367 | 2029,299 | ,000 |
| GESCHL (Пол) | ,738 | 1 | ,738 | ,060 | ,809 |
| ALTER (Возраст) | 667,147 | 2 | 333,573 | 26,990 | ,000 |
| GESCHL * ALTER (Пол * Возраст) | 33,571 | 2 | 16,785 | 1,358 | ,279 |
| Error (Ошибка) | 259,542 | 21 | 12,359 | | |
1. GESCHL (Пол)
| Measure: MEASURE_1 (Мера: MEASURE_1) | ||||
| GESCHL (Пол) | Mean (Среднее значение) | Std. Error (Стандартная ошибка) | 95% Confidence Interval (95 % доверительный интервал) | |
| Lower Bound (Нижний предел) | Upper Bound (Верхний предел) | |||
| maennlich (Мужской) | 15,700 | ,460 | 14,743 | 16,657 |
| weiblich (Женский) | 15,531 | ,519 | 14,452 | 16,609 |
| Measure: MEASURE 1 (Мера: MEASURE 1) | ||||
| ALTER (Возраст) | Mean (Среднее значение) | Std. Error (Стандартная ошибка) | 95% Confidence Interval (95 % доверительный интервал) | |
| Lower Bound (Нижний предел) | Upper Bound (Верхний предел) | |||
| bis 30 Jahre (До 30 лет) | 17,646 | ,671 | 16,250 | 19,042 |
| 31 - 50 Jahre (31 - 50 nejr) | 16,988 | ,590 | 15,761 | 18,214 |
| ueber 50 Jahre (Свыше 50 лет) | 12,213 | ,532 | 11,106 | 13,319 |
| Measure: MEASURE_1 (Мера: MEASURE_1) | ||||
| ZEIT (Время) | Mean (Среднее значение | Std. Error (Стандартная ошибка; | 95% Confidence Interval (95 % доверительный интервал) | |
| Lower Bound (Нижний предел) | Upper Bound (Верхний предел) | |||
| 1 | 13,828 | ,307 | 13,190 | 14,466 |
| 2 | 14,964 | ,405 | 14,121 | 15,807 |
| 3 | 16,275 | ,386 | 15,472 | 17,078 |
| 4 | 17,394 | ,400 | 16,562 | 18,227 |
Диалоговое окно Univariate: Model (Одномерная: Модель)
Диалоговое окно Univariate: Model (Одномерная: Модель)
Модель дисперсионного анализа — это математическое соотношение, в котором каждая переменная представлена в виде суммы среднего значения и ошибки. Что касается выбора конкретной формы модели, то по умолчанию установлена полнофакторная модель Full factorial). В этой модели среднее значение каждого наблюдения представлено в виде генерального среднего и суммы вклада всех главных "эффектов" (факторов влияния), помимо которых производится также расчёт всех взаимодействий между факторами. Альтернативой является возможность выбора отдельных взаимодействий факторов влияния, которая осуществляется посредством активирования опции Custom (Пользовательский режим). Таким же образом должны быть отобраны и взаимодействия с ковариациями.
Для формирования сумм квадратов для МНК существует четыре различных подхода (четыре типа, обозначенных с помощью римских чисел I, II, III и IV), по умолчанию установлен тип III.
Диалоговое окно Univariate (Одномерная)
Диалоговое окно Univariate (Одномерная)
Диалоговое окно Univariate: Options (Одномерная: Опции)
Диалоговое окно Univariate: Options (Одномерная: Опции)
Диалоговое окно Univariate: Post...
Диалоговое окно Univariate: Post Hoc Multiple Comparisons for Observed Means (Одномерная: Дополнительно — многократные сравнения для наблюдаемых средних значений)
Between-Subjects Factors (Межсубъектные факторы)
| | | Value Label (Метка значения) | N |
| GESCHL (Пол) | 1 | maennlich (Мужской) | 15 |
| 2 | weiblich (Женский) | 12 | |
| ALTER (Возраст) | 1 | bis 30 Jahre (До 30 лет) | 7 |
| 2 | 31 - 50 Jahre (31 - 50 лет) | 9 | |
| 3 | ueber 50 Jahre (Свыше 50 лет) | 11 |
| Dependent Variable: М1 (Зависимая переменная: М1) | ||||
| GESCHL ' (Пол) | ALTER (Возраст) | Mean (Среднее значение) | Std. Deviation (Стандартное отклонение) | N |
| maennlich (Мужской) | bis 30 Jahre (До 30 лет) | 16,00 | ,82 | 4 |
| 31 - 50 Jahre (31 - 50 лет) | 14,60 | 1,14 | 5 | |
| ueber 50 Jahre (Свыше 50 лет) | 11,7 | 2,48 | 6 | |
| Total (Сумма) | 13,60 | 2,69 | 15 | |
| weiblich (Женский) | bis 30 Jahre (До 30 лет) | 16,00 | 1,00 | 3 |
| 31 - 50 Jahre (31 - 50 лет) | 15,00 | 1,41 | 4 | |
| ueber 50 Jahre (Свыше 50 лет) | 10,20 | 1,10 | 5 | |
| Total (Сумма) | 13,25 | 2,93 | 12 | |
| Total (Сумма) | bis 30 Jahre (До 30 лет) | 16,00 | ,82 | 7 |
| 31 - 50 Jahre (31 - 50 лет) | 14,78 | 1,20 | 9 | |
| ueber 50 Jahre (Свыше 50 лет) | 10,73 | 1,95 | 11 |
Dependent Variable: М1 (Зависимая переменная: М1)
| F | df1 | df2 | Sig(Значимость) |
| 4,177 | 5 | 21 | ,009 |
a. Design: Intercept+GESCHL+ALTER+GESCHL * ALTER (Компоновка: Отрезок + Пол + Возраст + Пол*Возраст)
К сожалению, тест Левене на равенство дисперсий показывает, значимый результат со значением вероятности ошибки р = 0,009. Это означает, что отсутствует однородность дисперсий между группами, которая наряду с нормальным распределением значений выборки, является основной предпосылкой для возможности проведения дисперсионного анализа.
Традиционная схема дисперсионного анализа (еще раз отметим: проводимого на основе общей линейной модели) показывает незначимое влияние пола (р = 0,761), очень значимое влияние возраста (р = 0,001) и незначимое взаимодействие между обоими переменными (р = 0,611).
Tests of Between-Subjects Effects (Тест межсубъектных эффектов)
Dependent Variable: M1 (Зависимая переменная: М1)
| Source (Источник) | Type III Sum of Squares (Сумма квадратов III типа) | Df | Mean Square (Среднее значение квадрата) | F | Sig. (Значи-мость) |
| Corrected Model (Подпра- вленная модель) | 145,833a | 5 | 29,167 | 12,049 | ,000 |
| Intercept (Отрезок) | 4916,763 | 1 | 4916,763 | 2031,187 | ,000 |
| GESCHLJOonl | ,229 | 1 | ,229 | ,095 | ,761 |
| ALTER (Возраст) | 144,273 | 2 | 72,137 | 29,801 | ,000 |
| GESCHL * ALTER (Пол'Возраст) | 2,446 | 2 | 1,223 | ,505 | ,611 |
| Error (Ошибка) | 50,833 | 21 | 2,421 | | |
| Total (Сумма) | 5077,000 | 27 | | | |
| Corrected Total | 196,667 | 26 | | | |
В случае отсутствия однородности дисперсии границу значимости рекомендуется устанавливать равной не р = 0,05, а р =0,01. Значимое влияние возраста проявляется в любом случае.
Если вы сравните эти результаты с результатами, полученными при методе Фишера (Fisher) (см. гл. 17.1.2), то заметите незначительное отклонение значения р для фактора влияния пол (geschlecht). Далее следует вывод дескриптивных статистик для совокупной выборки и для отдельных слоев факторов.
1. Grand Mean (Общее среднее значение)
| Dependent Variable: М1 (Зависимая переменная: М1) | |||
| Mean (Среднее значение) | Std. Error (Стандартная ошибка) | 95% Confidence Interval (95 % доверительный интервал) | |
| Lower Bound (Нижний предел) | Upper Bound (Верхний предел) | ||
| 13,828 | ,307 | 13,190 | 14,466 |
| Dependent Variable: М1 (Зависимая переменная: М1) | ||||
| GESCHL (Пол) | Mean (Среднее значение) | Std. Error (Стандартная ошибка) | 95% Confidence Interval (95 % доверительный интервал) | |
| Lower Bound (Нижний предел) | Upper Bound (Верхний предел) | |||
| maennlich (Мужской) | 13,922 | ,407 | 13,075 | 14,769 |
| weiblich (Женский) | 13,733 | ,459 | 12,779 | 14,688 |
| Dependent Variable: М1 (Зависимая переменная: М1) | ||||
| ALTER (Возраст) | Mean (Среднее значение) | Std. Error (Стандартная ошибка) | 95% Confidence Interval (95 % доверительный интервал) | |
| Lower Bound (Нижний предел) | Upper Bound (Верхний предел) | |||
| bis 30 Jahre (До 30 лет} | 16,000 | ,594 | 14,764 | 17,236 |
| 31 - 50 Jahre (31 - 50 лет) | 14,800 | ,522 | 13,715 | 15,885 |
| ueber 50 Jahre (Свыше 50 лет) | 10,683 | ,471 | 9,704 | 11,663 |
Multiple Comparisons (Множественные сравнения)
| Dependent Variable: M1 (Зависимая переменная: М1) Scheffe (Шеффе) | ||||||
| (I) ALTER (Возраст) | (J) ALTER (Возраст) | Mean Difference (I-J) (Средняя разность) | Std. Error (Стандар -тная ошибка) | Sig. (Значи-мость) | 95% Confidence Interval (95 % доверительный интервал) | |
| Lower Bound (Нижний предел) | Upper Bound (Верхний предел) | |||||
| bis 30 Jahre (До 30 лет) | 31 -50 Jahre (31 -50 лет) | 1,22 | ,784 | ,317 | -.84 | 3,29 |
| ueber 50 Jahre (Свыше 50 лет) | 5,27* | ,752 | ,000 | 3,29 | 7,25 | |
| 31 -50 Jahre (31 -50 лет) | bis 30 Jahre (До 30 лет) | -1,22 | ,784 | ,317 | -3,29 | ,84 |
| ueber 50 Jahre (Свыше 50 лет) | 4,05* | ,699 | ,000 | 2,21 | 5,89 | |
| ueber 50 Jahre (Свыше 50 лет) | bis 30 Jahre (До 30 лет) | -5,27* | ,752 | ,000 | -7,25 | -3,29 |
| 31 -50 Jahre (31 -50 лет) | -4,05* | ,699 | ,000 | -5,89 | -2,21 |
Этот факт подтверждается ещё раз при выводе результатов для рассматриваемых "однородных подгрупп" в другой форме.
М1
| Scheffe аbс (Шеффе) | |||
| ALTER | N | Subset (Подгруппа) | |
| 1 | 2 | ||
| ueber 50 Jahre (Свыше 50 лет) | 11 | 10,73 | |
| 31 - 50 Jahre (31 - 50 лет) | 9 | | 14,78 |
| bis 30 Jahre (До 30 лет) | 7 | | 16,00 |
| Sig. (Значимость) | | 1,000 | ,283 |
Based on Type III Sum of Squares (На основе суммы квадратов III типа).
The error term is Mean Square(Error) = 2,421 (Слагаемое ошибки равно среднему значению квадрата (ошибки) = 2,421).
a. Uses Harmonic Mean Sample Size = 8,699 (Используя среднегармонический размер выборок = 8,699).
b. The group sizes are unequal (Размеры групп не одинаковы). The harmonic mean of the group sizes is used (Используется среднее гармоническое размера групп). Туре I error levels are not guaranteed (Уровень ошибки для I типа не гарантируется).
с. Alpha = ,05
Завершает вывод результатов профильная диаграмма, в которой представлена линейчатая диаграмма возраста отдельно для каждого пола:
Вид графиков для обоих полов почти одинаков, что свидетельствует о незначимом взаимодействии между двумя факторами. Кроме того, наглядно проявляется незначимость различия между двумя полами.

Диалоговое окно Univariate: Profile Plots (Одномерная: Профильные диаграммы)
Диалоговое окно Univariate: Profile Plots (Одномерная: Профильные диаграммы)
В случае профильных диаграмм речь идёт о графическом представлении средних значений слоев выбранных факторов в виде линейчатых диаграмм. При этом слои второго фактора соответственно могут быть использованы для отображения второй линии. Таким образом можно наглядно изобразить взаимодействия между двумя факторами.
Диалоговое окно Variance Components (Компоненты дисперсии)
Диалоговое окно Variance Components (Компоненты дисперсии)
В окне просмотра появятся оценки компонентов дисперсии.
Factor Level Information (Информация о слоях фактора)
|
|
N | |
|
PFLANZE (Растение) |
1,00 |
6 |
|
2,00 |
4 | |
|
3,00 |
5 | |
Variance Estimates (Оценки дисперсии)
|
Component (Компоненты) |
Estimate (Оценка) |
|
Var(PFLANZE) (Переменная (Растение)) |
,471 |
|
Var(Error) (Переменная (Ошибка)) |
,438 |
На основе этих результатов можно найти процентную долю дисперсии, получающуюся из-за наличия разных растений:
0,471/(0,471+0,438)=51,8%
Приведём ещё один несколько усложненный пример из учебника SPSS. На некоторой фирме, работающей в области электроники, в 36 различных печах при различных температурах (550 и 600 градусов по Фаренгейту) измеряют выносливость (в минутах) определенных радиоэлектронных комплектующих. Один инженер предполагает, что не все печи создают одинаковые условия для тестирования комплектующих. Чтобы это проверить, он случайно выбирает три печи и для каждой печи делает по три измерения выносливости комплектующих для каждой из температур.
Данные находятся в файле ofen.sav в переменных of en (печь), temp (температура) и zeit (время). Переменная ofen (печь) соответствует фактору со случайными эффектами, так как из 36 печей три были выбраны случайно. Температура также является фактором со случайными эффектами, так как температуры 550 и 600 градусов были выбраны из бесконечного множества возможных температур.
Так как вполне возможно, что в разных печах действуют различные температурные режимы, предположим, что температурный фактор является вложенным в фактор печей — т.н. ("гнездовая компоновка'").
VARCOMP zeit BY ofen temp /RANDOM = ofen temp /METHOD = MINQUE (1) /DESIGN /INTERCEPT = INCLUDE .
|
Component (Компонент) |
Estimate (Оценка) |
|
Var(OFEN) (Переменная (Печь)) |
29,287 |
|
Var(TEMP(OFEN)) (Переменная Температура (Печь)) |
1525,889 |
|
Var(Error) (Переменная (Ошибка)) |
69,778 |
Из таблицы можно узнать, что доля дисперсии объясняемая наличием разных печей очень незначительна:
[29, 287/(29,287 + 1525,889 + 69,778)]*100 = 1,8%
До этого момента мы рассматривали только модели со случайными эффектами. Модели, содержащие как случайные, так и постоянные эффекты, получили название "смешанных" моделей.
И, наконец, следует указать на то, что методы MINQUE и ANOVA иногда могут выдавать негативные оценки компонентов дисперсии, что собственно противоречит самому определению дисперсии. Это может происходить потому, что количество наблюдений слишком мало, некоторые значения отсутствуют или выбран неподходящий метод оценки.
Дисперсионный анализ
Дисперсионный анализС помощью дисперсионного анализа исследуют влияние одной или нескольких независимых переменных на одну зависимую переменную (одномерный анализ) или на несколько зависимых переменных (многомерный анализ). В обычном случае независимые переменные принимают только дискретные значения (и относятся к номинальной или порядковой шкале); в этой ситуации также говорят о факторном анализе. Если же независимые переменные принадлежат к интервальной шкале или к шкале отношений, то их называют ковариациями, а соответствующий анализ — ковариационным.
В рамках дисперсионного анализа SPSS предлагает множество возможностей, в которых, однако, не всегда легко разобраться, в особенности для новичка. Даже учебники по SPSS напрямую не способствуют облегчению освоения имеющихся возможностей. Во-первых, нужно отметить, что в принципе дисперсионный анализ может выполняться в рамках двух подходов:
До 6 версии SPSS обобщенная линейная модель была реализована на основе процедуры MANOVA, управление которой могло происходить как через диалоговое окно, так и при помощи командного синтаксиса. В 7-ой версии эта процедура была заменена на процедуру GLM; при этом процедура MANOVA осталась, как и прежде, доступной через командный синтаксис.
Главным отличием между GLM и MANOVA является то, что в MANOVA используется, так называемая, "full rank linear model" (линейная модель полного ранга), а в GLM, так называемая, "поп full rank linear model" (линейная модель неполного ранга). Более подробную информацию по этому вопросу можно найти в специальной литературе, к примеру, в книге Р. Е. Кирка (R. E. Kirk) (см. список литературы). В GLM предлагаются ещё и дополнительные расширения, самым важным из которых, конечно же, является тест для сравнения средних значений отдельных слоев (подпопуляций), который выполняется после проведения дисперсионного анализа. Слои или подпопуляций определяются различными уровнями величины фактора, положенного в основу классификации. В то же время, MANOVA включает ряд дополнительных видов анализа (регрессионный анализ, дискриминантный анализ, канонический анализ, анализ главных компонентов и т.д.), которых нет в GLM.
В дальнейшем мы ограничимся рассмотрением только наиболее часто употребительных видов дисперсионного анализа. При этом будет проведено различие между, одномерными и многомерным дисперсионным анализом (в зависимости от количества зависимых переменных), а также выделен случай, когда факторы (независимые переменные) включают повторные измерения.
После открытия соответствующего файла (к примеру, varana.sav), дисперсионный анализ может быть вызван посредством выбора меню Analyze (Анализ) General Linear Model (Общая линейная модель)
Откроется вспомогательное меню (см. рис. 17.1)
Все без исключения возможности, предлагаемые в диалоговом окне, предполагают проведение расчётов на основе общей линейной модели. Если перечислять по очереди, то с помощью данного меню можно провести одномерный дисперсионный анализ (Univariate...), многомерный дисперсионный анализ (Multivariate...), многомерный дисперсионный анализ с учетом повторных измерений (Repeated Measures...). И, наконец, в данном меню имеется один пункт для расчёта компонентов дисперсии (Variance Components...) (см. гл. 17.4).
Возможно также проведение дисперсионного анализа по традиционному "классическому" методу Фишера. Однако такой анализ выполним только за счёт использования программного синтаксиса (процедура ANOVA). Этому методу посвящен отдельный раздел (см. гл. 17.1.2).
Вспомогательное меню General Linear Model (Общая линейная модель)
Вспомогательное меню General Linear Model (Общая линейная модель)
В рамках данной книги нет возможности полностью рассмотреть все, что предлагается пользователю SPSS для проведения дисперсионного анализа, поэтому с помо-:лью нескольких примеров мы попытаемся сделать общий обзор и изложить вводные замечания для основных ситуаций. К основным ситуациям относятся:
Задачи статистики в пакете SPSS
Пример из области медицины
18.1 Пример из области медициныОбратимся ещё раз к примеру, который уже приводился при рассмотрении логистической регрессии. В этом примере приводятся выборочные данные о пациентах с нарушениями работы легких. Эти данные хранятся в файле lunge.sav. Приведем ещё раз переменные, которые в данном случае будут применяться при дискриминантом анализе:
|
Имя переменной |
Значение |
|
out |
Исход (0 = скончался, 1 = выжил) |
|
alter |
Возраст |
|
bzeit |
Время проведения искусственного дыхания в часах |
|
kob |
Концентрация кислорода в смеси для искусственного дыхания |
|
адд |
Интенсивность искусственного дыхания |
|
geschl |
Пол (1 = мужской, 2 = женский) |
|
gr |
Рост |
Пример из области социологии
18.2 Пример из области социологииВ своём исследовании "Культурный прорыв. Изменение ценностей в западном мире" (см. дополнительную литературу) Рональд Инглехарт (Ronald Inglehart) приводит тезис, что в более зрелых возрастных группах значимо большее количество человек высказались в пользу материальных ценностей (см. гл. 8.4.2). Среди младших поколений, согласно Инглехарту, растёт доля постматериалистов. Склонность опрошенных к постматериалистическим ценностям зависит от их образования и профессиональной квалификации. Чем выше образование и профессиональная квалификация, тем выше склонность к постматериалистическим ценностям. Значение имеет также и социально-экономический статус отца; согласно мнению Инглехарта, чем он выше, тем значительней доля постматериалистов. При помощи дискриминантного анализа мы проверим эту теорему смены ценностей, сформулированную американским политологом.
|
Имя переменной |
Значение |
|
ingMnd |
Индекс Инглехарта |
|
|
Ценности: |
|
|
1 Постматериалисты |
|
|
2 Постматериалисты смешанного типа |
|
|
3 Материалисты смешанного типа |
|
|
4 Материалисты |
|
|
5 Не могу дать ответ |
|
|
6 Нет данных |
|
statpaps |
Социально-экономический статус отца (индекс) |
|
|
Значения: |
|
|
1 Низкий |
|
|
5 Высокий |
|
|
8 Формируется в данный момент (отсутствующее значение) |
|
|
9 Безработный, в заключении, умер, пенсионер и т.д. (отсутствующее |
|
|
значение) |
|
schule |
Уровень образования опрашиваемых |
|
|
Значения: |
|
|
1 Без образования |
|
|
2 Начальная школа |
|
|
3 Незаконченное среднее |
|
|
4 Среднее |
|
alter |
Возраст опрашиваемых |
|
|
Значения: |
|
|
1 18 до 29 лет |
|
|
2 30 до 44 лет |
|
|
3 45 до 59 лет |
|
|
4 60 до 74 лет |
|
|
5 75 до 88 лет |
|
|
6 89 и старше |
|
|
9 Не указан (отсутствующее значение) |
|
ausbild |
Профессиональное образование опрашиваемых Значения: 0 Образование отсутствует (отсутствующее значение) 1 Краткосрочное образование 2 Ученик 3 Мастер/техник 4 Высшее образование |
Пример из области биологии
18.3 Пример из области биологииДискриминантный анализ очень часто применяется для обработки данных из области биологии. В следующем типичном примере для некоторого количества индивидуумов принадлежность к группе уже известна, на основании чего и строится дискриминантная функция. Далее она используется для того, чтобы оценить принадлежность к определенной группе тех индивидуумов, для которых она ещё не известна.
В файле vogel.sav хранятся данные о половой принадлежности, длине крыла, длине клюва, размере головы, длине лап и весе 245 птиц определённого вида. Причём пол смогли определить только для 51 особи. Кодировка пола соответствует 1 = мужской и 2 = женский; отсутствие данных кодируется 9.
Если для перечисленных параметров Вы рассчитаете средние значения для самцов и самок, то для самок получите более высокие показатели. Исходя из этого, при помощи дискриминантного анализа можно попытаться определить пол тех особей, для которых этого нельзя было сделать ранее.
Если мы рассмотрим наблюдение 8, то здесь пол известен — женский и в результате прогноза получается женский пол, а вот для наблюдения 30 пол известен как мужской, но прогнозируется как женский. Наблюдения с нераспознанным полом приводятся в таблице как "ungrouped" (не группированные).
Для наблюдения 1, для которого пол оказался неизвестным, он прогнозируется как женский. Значение вероятности прогнозирования, 0,990, указывается в колонке "P(G=g | D=d)" под заголовком "Highest Group" (Старшая группа). Менее достоверным является прогноз пола для наблюдения 10, здесь вероятность прогнозирования составляет только 0,721.
Casewise Statistics
| (Статистики для наблюдений) | |||||||||||
| Case Number (Номер случая) | Actual Group (Факти-ческая группа) | Highest Group (Старшая группа) | Second Highest Group (Вторая по старшинству группа) | Discri-minant Scores (Значе-ния диск-рими- нантной фун-кции) | |||||||
| Predicted Group (Прог-нози- руемая группа) | P(D>d | e=g) | P(G=9 I D=d) | Squared Ma-hala-nobis Distance to Cent-raid (Квадрат рас-стояния Маха-ланобиса до цент-роида) | Group (Груп-па) | P(G=g |D=d) | Squared Ма-halanobis Distance to Centraid (Квадрат рас-стояния Маха-ланобиса до центро-ида) | Fun-ction 1 (Фун-кция 1 ) | ||||
| P | df | ||||||||||
| Original (Пер- вона- чаль -но) | 1 | ungrouped (не груп-пирова-нный) | 2 | ,222 | 1 | ,990 | 1,489 | 1 | ,010 | 10,679 | 2,304 |
| 2 | ungrouped (не груп-пирова-нный) | 2 | ,063 | 1 | ,997 | 3,453 | 1 | ,003 | 15,254 | 2,942 | |
| 3 | ungrouped (не груп-пирова-нный) | 2 | ,064 | 1 | ,997 | 3,433 | 1 | ,003 | 15,213 | 2,937 | |
| 4 | ungrouped (не груп-пирова-нный) | 2 | ,245 | 1 | ,989 | 1,353 | 1 | ,011 | 10,307 | 2,247 | |
| 5 | ungrouped (не груп-пирова-нный) | 2 | ,126 | 1 | ,995 | 2,338 | 1 | ,005 | 12,792 | 2,613 | |
| 6 | ungrouped (не груп-пирова-нный) | 2 | ,319 | 1 | ,984 | ,995 | 1 | ,016 | 9,271 | 2,081 | |
| 7 | ungrouped (не груп-пирова-нный) | 2 | ,485 | 1 | ,971 | ,489 | 1 | ,029 | 7,543 | 1,783 | |
| 8 | 2 | 2 | ,102 | 1 | ,996 | 2,673 | 1 | ,004 | 13,561 | 2,719 | |
| 9 | ungrouped (не груп-пирова-нный) | 2 | ,387 | 1 | ,980 | ,748 | 1 | ,020 | 8,482 | 1,949 | |
| 10 | ungrouped (не группирова-нный) | 2 | ,576 | 1 | ,721 | ,313 | 1 | ,279 | 2,213 | ,524 | |
| 11 | ungrouped (не груп-пирова-нный) | 2 | ,651 | 1 | ,954 | ,205 | 1 | ,046 | 6,248 | 1,536 | |
| 12 | ungrouped (не груп-пирова-нный) | 2 | ,140 | 1 | ,994 | 2,177 | 1 | ,006 | 12,411 | 2,559 | |
| 13 | ungrouped (не груп-пирова-нный) | 2 | ,435 | 1 | ,976 | ,609 | 1 | ,024 | 7,995 | 1,864 | |
| 14 | ungrouped (не группиро-ванный) | 2 | ,471 | 1 | ,973 | ,519 | 1 | ,027 | 7,662 | 1,804 | |
| 15 | ungrouped (не группиро-ванный) | 2 | ,764 | 1 | ,938 | ,090 | 1 | ,062 | 5,510 | 1,384 | |
| 16 | ungrouped (не группиро-ванный) | 2 | ,481 | 1 | ,972 | ,497 | 1 | ,028 | 7,576 | 1,789 | |
| 17 | ungrouped (не груп-пирова-нный) | 2 | ,172 | 1 | ,993 | 1,868 | 1 | ,007 | 11,658 | 2,451 | |
| 18 | 2 | 2 | ,399 | 1 | ,979 | ,712 | 1 | ,021 | 8,359 | 1,928 | |
| 19 | ungrouped (не груп-пирова-нный) | 2 | ,705 | 1 | ,946 | ,143 | 1 | ,054 | 5,884 | 1,462 | |
| 20 | 2 | 2 | ,969 | 1 | ,898 | ,002 | 1 | ,102 | 4,355 | 1,123 | |
| 21 | 2 | 2 | ,249 | 1 | ,989 | 1,328 | 1 | ,011 | 10,238 | _ 2,236 | |
| 22 | ungrouped (не груп-пиров-анный) | 2 | ,121 | 1 | ,995 | 2,407 | 1 | ,005 | 12,953 | 2,636 | |
| 23 | 2 | 2 | ,071 | 1 | ,997 | 3,263 | 1 | ,003 | 14,853 | 2,890 | |
| 24 | ungrouped (не груп-пирова-нный) | 2 | ,367 | 1 | ,981 | ,815 | 1 | ,019 | 8,704 | 1,987 | |
| 25 | ungrouped (не груп-пиров-анный) | 2 | ,880 | 1 | ,857 | ,023 | 1 | ,143 | 3,598 | ,933 | |
| 26 | ungrouped (не груп-пирова-нный) | 2 | ,537 | 1 | ,966 | ,382 | 1 | ,034 | 7,103 | 1,702 | |
| 27 | ungrouped (не группиро-ванный) | 1 | ,640 | 1 | ,955 | ,218 | 2 | ,045 | 6,323 | -1,431 | |
| 28 | 2 | 2 | ,744 | 1 | ,806 | ,107 | 1 | ,194 | 2,960 | ,757 | |
| 29 | ungrouped (не груп-пирова-нный) | 2 | ,969 | 1 | ,883 | ,001 | 1 | ,117 | 4,035 | 1,045 | |
| 30 | 1 | 2" | ,625 | 1 | ,749 | ,239 | 1 | ,251 | 2,428 | ,595 | |
| 31 | ungrouped (не груп-пирова-нный) | 2 | ,646 | 1 | ,760 | ,211 | 1 | ,240 | 2,521 | ,624 | |
| 32 | 2 | 2 | ,173 | 1 | ,993 | 1,860 | 1 | ,007 | 11,636 | 2,448 | |
| 33 | 1 | 2" | ,504 | 1 | ,970 | ,447 | 1 | ,030 | 7,378 | 1,753 | |
| 34 | ungrouped (не груп-пирова-нный) | 2 | ,544 | 1 | ,966 | ,368 | 1 | ,034 | 7,046 | 1,691 | |
| 35 | ungrouped (не груп-пирова-нный) | 2 | ,618 | 1 | ,958 | ,248 | 1 | ,042 | 6,480 | 1,582 | |
| 36 | ungrouped (не груп-пирова-нный) | 2 | ,727 | 1 | ,943 | ,122 | 1 | ,057 | 5,744 | 1,433 | |
| 37 | 2 | 2 | ,458 | 1 | ,974 | ,551 | 1 | ,026 | 7,781 | 1,826 | |
| 38 | 2 | 2 | ,362 | 1 | ,981 | ,829 | 1 | ,019 | 8,750 | 1,995 | |
| 39 | 2 | 2 | ,814 | 1 | ,929 | ,055 | 1 | ,071 | 5,211 | 1,319 | |
| 40 | ungrouped (не груп-пирова-нный) | 2 | ,812 | 1 | ,930 | ,057 | 1 | ,070 | 5,222 | 1,322 |
Для того, чтобы хотя бы частично сократить количество ошибочных значений для переменной пола, при анализе вы можете применять прогнозируемую групповую принадлежность только в тех случаях, для которых вероятность прогнозирования принимает некоторое минимально допустимое значение, к примеру, 0,9.
IF (dis_1 = 1 and disl_1 >= 0,9) geschl=1 . IF (dis_1 = 2 and dis2_1 >= 0,9) geschl=2. EXECUTE. Таким образом, в используемом примере можно присвоить половой показатель ещё 90-а птицам. Если вы снизите минимально допустимое значение вероятности прогнозирования, то это число станет ещё больше.
К файлу были добавлены три новые переменные:
dis_1: Прогнозируемая группа
disl_1: Вероятность принадлежности к группе 1
dis2_1: Вероятность принадлежности к группе 2.
Пример из области биологии (три группы)
18.4 Пример из области биологии (три группы)В предыдущих примерах дискриминантный анализ всегда проводился при наличии лишь двух групп. В этой главе рассматривается пример, в котором групповая переменная имеет больше двух категорий, а именно три.
В файле kaefer.sav содержатся данные о длине и ширине грудной клетки трёх видов жуков (обозначенных как А, В и С). Если вы проведёте однофакторный дисперсионный анализ с последующими дополнительными тестами (Post-hoc-Tests), то увидите, что три разновидности жуков очень значимо различаются между собой как по длине, так и по ширине, поэтому вполне можно предположить, что этих жуков можно классифицировать между упомянутыми видами на основании их длины и ширины посредством дискриминантного анализа.
Group Statistics
| (Статистики для групп) | |||||
| KAEFEP (Жук) | Mean (Сред-нее значе-ние) | Std. Deviation (Станда-ртное отклоне-ние) | Valid N (listwise) (Действительные значения (по списку)) | ||
| Unweighted (Не взвеше-нное) | Weighted (Взвеше-нное) | ||||
| 1 (Семейство А) | LAENGE (Длина) | 1 ,6226 | 5.968Е-02 | 42 | 42,000 |
| BREITE (Ширина) | 1 ,2607 | 4J54E-02 | 42 | 42,000 | |
| 2 Семейство В) | LAENGE (Длина) | 1 ,3089 | 7.634Е-02 | 45 | 45,000 |
| BREITE (Ширина) | 1,0122 | 4.415Е-02 | 45 | 45,000 | |
| 3 Семейство С) | LAENGE (Длина) | 1,4788 | 6.029Е-02 | 26 | 26,000 |
| BREITE (Ширина) | 1,1192 | 5.114Е-02 | 26 | 26,000 | |
| Total | LAENGE (Длина) | 1,4646 | ,1535 | 113 | 113,000 |
| BREITE (Ширина) | 1,1292 | ,1191 | 113 | 113,000 |
Tests of Equality of Group Means (Тест на равенство средних значений групп)
| | Wilks' Lambda (Лямбда Уилкса) | F | df1 | df2 | Sig. (Значимость) |
| LAENGE (Длина) | ,187 | 239,154 | 2 | 110 | ,000 |
| BREITE (Ширина) | ,153 | 303,326 | 2 | 110 | ,000 |
Eigenvalues (Собственные значения)
| Function (Функция) | Eigenvalue (Собствен-ные значение) | % of Variance (% диспер-сии) | Cumulative % (Совокуп-ный %) | Canonical Correlation (Канони-ческая корре-ляция) |
| 1 | 6,040а | 98,7 | 98,7 | ,296 |
| 2 | ,078а | 1,3 | 100,0 | ,269 |
Wilks' Lambda (Лямбда Уилкса)
| Test of Function(s) (Тест функции (й)) | Wilks1 Lambda (Лямбда Уилкса) | Chi-square (Хи-квадрат) | df | Sig. (Значимость) |
| 1 through 2 (1 до 2) | ,132 | 221,900 | 4 | ,000 |
| 2 | ,928 | 8,202 | 1 | ,004 |
Canonical Discriminant Function Coefficients
| (Канонические коэффициенты дискриминантных функций) | ||
| | Function (Функция) | |
| 1 | 2 | |
| LAENGE (Длина) | 5,831 | 18,769 |
| BREITE (Ширина) | 14,891 | -23,659 |
| (Constant) (Константа) | -25,355 | -,773 |
Мы здесь опускаем вывод статистик для каждого отдельного случая. В результате расчетов Вы получаете соответствующие номера групп и вероятность прогнозирования под заголовком P(G = g|D = d). Прогнозирование осуществлено и для 17 неклассифицированных случаев.
На территориальной карте показано разделение на области, которые означают принадлежность к группе. При этом в пределах границ соответствующей области вероятность отнесения к данной группе выше, чем для других групп. На границах областей вероятности для граничащих групп одинаковы.
Значения обеих дискриминантных функций, на основе которых построена эта территориальная карта, Вы можете увидеть в редакторе данных под именами двух вновь созданных переменных: dis1_1 и dis2_1.
В заключение приводится обзор результатов классификации. По ним Вы можете заметить, что прогноз для групп А и В практически полностью был сделан верно и корректно классифицированы, в общей сложности, 91,2 % всех случаев.
Classification Results a
| (Результаты Классификации) | ||||||
| FUND (Семе-йство) | Predicted Group Membership | Total (Сум-ма) | ||||
| 1 (Семей-ство А) | 2 (Семей-ство В) | 3 (Семей-ство С) | ||||
| Original (Перво-нача-льно) | Count (Коли-чество) | 1 (Семейство А) | 41 | 0 | 1 | 42 |
| 2 (Семейство В) | 0 | 43 | 2 | 45 | ||
| 3 (Семейство С) | 4 | 3 | 19 | 26 | ||
| Ungrouped cases (He груп-пирован-ные случаи) | 7 | 6 | 4 | 17 | ||
| % | 1 (Семейство А) | 97,6 | ,0 | 2,4 | 100,0 | |
| 2 (Семейство В) | ,0 | 95,6 | 4,4 | 100,0 | ||
| 3 (Семейство С) | 15,4 | 11,5 | 73,1 | 100,0 | ||
| Ungrouped cases (He груп-пирован-ные случаи) | 41,2 | 35,3 | 23,5 | 100,0 |

| Символы, используемые втерриториальной карте | ||
| Символ | Группа | Метка |
| 1 2 3 | 1 2 3 | Семейство А Семейство В Семейство С |
| Маркировка | Центроиды групп |
Диалоговое окно Discriminant Analysis: Classification (Дискриминантный анализ: Классификация)
Диалоговое окно Discriminant Analysis: Classification (Дискриминантный анализ: Классификация)
Диалоговое окно Discriminant Analysis (Дискриминантный анализ).
Диалоговое окно Discriminant Analysis (Дискриминантный анализ).
Переменная geschl является при этом дихотомической переменной, принадлежащей к номинальной шкале с кодировками: 1 (мужской пол) и 2 (женский пол). Средние значения пола для обоих групп по исходу Легения, кажущиеся на первый взгляд бесполезными, равны 1,63492 и 1,45588; если бы вместо этого переменные были закодированы при помощи 0 и 1, то оба средних значения равнялись бы 0,63492 и 0,45588 соответственно. Для таких дихотомических переменных, кодированных при помощи 0 и 1, среднее значение указывает на долю наблюдений с кодировкой 1. Это означает, что для группы "скончался" доля женщин в процентном отношении составляет 63,492, а для группы "выжил" 45,588.
| Group Statistics (Статистики для групп) | |||||
| Outcome (Исход) | Mean (Среднее значение) | Std. Deviation (Стандартное отклонение) | Valid N (listwise) (Действительные значения (по списку)) | ||
| Unwe-ighted (Не взвешено) | Weig-hted (Взве-шено) | ||||
| gesto-rben (Скон-чался) | Aggressivitaet der Beatmung (Интенси-вность искус-ственного дыхания) | 15,90013 | 10,90013 | 63 | 63,000 |
| ALTER (Возраст) | 31,92063 | 13,82529 | 63 | 63,000 | |
| Beatmungszeit in Std. (Время проведения искус-ственного дыхания в часах) | 15,36508 | 10,50085 | 63 | 63,000 | |
| Geschlecht (Пол) | 1,63492 | ,48532 | 63 | 63,000 | |
| Koerper-groesse (Рост) | 165,1429 | 15,55931 | 63 | 63,000 | |
| Sauerstoff-Konzentration (Концент-рация кислорода в смеси для искус-ственного дыхания) | ,85952 | ,14807 | 63 | 63,000 | |
| ueberlebt (Выжил) | Aggressivitaet der Beatmung (Интенси-вность искус-ственного дыхания) | 11,69699 | 8,16057 | 68 | 68,000 |
| ALTER (Возраст) | 27,97059 | 10,86411 | 68 | 68,000 | |
| Beatmungszeit in Std. (Время проведения искус-ственного дыхания в часах) | 10,79412 | 5,10065 | 68 | 68,000 | |
| Geschlecht (TlonJ | 1,45588 | ,50175 | 68 | 68,000 | |
| Koerpe-rgroesse (Рост) | 172,0588 | 11,01137 | 68 | 68,000 | |
| Sauerstoff-Konzentration (Концентрация кислорода в смеси для искус-ственного дыхания) | ,80338 | ,15493 | 68 | 68,000 | |
| Total | Aggressivitaet der Beatmung (Интенси-вность искус-ственного дыхания) | 13,51843 | 9,72600 | 131 | 131,000 |
| ALTER (Воз_раст) | 29,87023 | 12,48654 | 131 | 131,000 | |
| Beatmungszeit in Std. (Время проведения искус-ственного дыхания в часах) | 12,99237 | 8,44120 | 131 | 131,000 | |
| Geschlecht (Пол) | 1,54198 | ,50015 | 131 | 131,000 | |
| Koerpe-rgroesse (Рост) | 168,7328 | 13,78339 | 131 | 131,000 | |
| Sauerstoff-Konzentration (Конце-нтрация кислорода в смеси для искус-ственного дыхания) | ,83038 | ,15369 | 131 | 131,000 |
Tests of Equality of Group Means (Тест равенства групповых средних значений)
| Wilks Lambda (Лямбда Уилкса) | F | df1 | df2 | Sig. (Значи-мость) | |
| Aggressivitaet der Beatmung (Интенсивность искусственного дыхания) | ,962 | 5,116 | 1 | 129 | ,025 |
| ALTER (Возраст) | ,975 | 3,331 | 1 | 129 | ,070 |
| Beatmungszeit in Std. (Время проведения искусственного дыхания в часах) | ,926 | 10,273 | 1 | 129 | ,002 |
| Geschlecht (Пол) | ,968 | 4,297 | 1 | 129 | ,040 |
| Koerpergroesse (Рост) | ,937 | 8,722 | 1 | 129 | ,004 |
| Sauerstoff-Konzentration (Концентрация кислорода в смеси для искусственного дыхания) | ,966 | 4,481 | 1 | 129 | ,036 |
Pooled Within-Groims Matrices (Объединённые внутригрупповые матрицы)
| Aggres-sivitaet der Beat-mung (Интен-сивность искус-ственного дыхания) | ALTER (Воз-раст) | Beatmun-gszeit in Std. (Время прове-дения искус-ственного дыхания в часах) | Gesc-hlecht (Пол) | Koerper-groesse (Рост) | Saue-rstoff- Konzen-tration (Концен-трация кисл-орода в смеси для искус-ственного дыхания) | ||
| Corre-lation (Корре-пяция) | Aggres-sivitaet der Beatmung (Интен-сивность искус-ственного дыхания) | 1,000 | -,072 | -,058 | ,141 | -,042 | ,285 |
| ALTER (Возраст) | -,072 | 1,000 | ,093 | -,040 | ,277 | -.119 | |
| Beatmu-ngszeit in Std. (Время прове-дения искус-ственного дыхания в часах) | -,058 | ,093 | 1,000 | ,069 | -,126 | -,089 | |
| Geschlecht (Пол) | .141 | -0,40 | ,069 | 1,000 | -,481 | -,066 | |
| Koerpe-rgroesse (Рост) | -,042 | ,277 | -,126 | -,481 | 1,000 | ,000 | |
| Sauer-stoff-Konze-ntration (Конце-нтрация кисло-рода в смеси для искус-ственного дыхания) | ,285 | -,119 | -,089 | -,066 | ,000 | 1,000 |
Eigenvalues (Собственные значения)
| Function (Функция) | Eigenvalue (Собственное значение) | % of Variance (% дисперсии) | Cumulative % (Сово-купный %) | Canonical Correlation (Канони-ческая корреляция) |
| 1 | ,256" | 100,0 | 100,0 | ,452 |
Wilks' Lambda (Лямбда Уилкса)
| Test of Function(s) (Тест функции (и)) | Wilks' Lambda (Лямбда Уилкса) | Chi-square (Хи-квадрат) | df | Sig. (Значимость) |
| 1 | ,796 | 28,733 | 6 | ,000 |
Значение, выводимое под именем "Eigenvalue" (Собственное значение), соответствует отношению суммы квадратов между группами к сумме квадратов внутри групп. Эти две суммы Вы сможете получить, если проведете дисперсионный анализ значений дискриминантной функции (переменная dis1_1) по фактору out (см. гл. 13.3). Большие собственные значения (в данном случае такого, к сожалению, не наблюдается) указывают на "хорошие" (удачно подобранные) дискриминантные функции.
Следующая таблица дает представление о том, как сильно отдельные переменные, применяемые в дискриминантной функции, коррелируют со стандартизированными значениями этой дискриминантной функции. При этом корреляционные коэффициенты были рассчитаны в обеих группах по отдельности и затем усреднены:
Standardized Canonical Discriminant Function Coefficients
| (Стандартизиро-ванные канонические коэффициенты дискриминантной функции) | |
| Function (Функция) | |
| 1 | |
| Aggressivitaet der Beatmung (Интенсивность искусственного дыхания) | ,316 |
| ALTER (Возраст) | ,494 |
| Beatmungszeit in Std. (Время проведения искусственного дыхания в часах| | ,491 |
| Geschlecht (Пол) | ,066 |
| Koerpergroesse (Рост) | -,544 |
| Sauerstoff-Konzentration (Концентрация кислорода в смеси для искусственного дыхания) | ,385 |
| (Структурная матрица) | |
| Function (Функция) | |
| 1 | |
| Beatmungszeit in Std. (Время проведения искусственного дыхания в часах) | ,558 |
| Koerpergroesse (Рост) | -,514 |
| Aggressivitaet der Beatmung (Интенсивность искусственного дыхания) | ,393 |
| Sauerstoff-Konzentration (Концентрация кислорода в смеси для искусственного дыхания) | ,368 |
| Geschlecht (Пол) | ,361 |
| ALTER (Возраст) | ,318 |
Variables ordered by absolute size of correlation within function (Переменные расположены в соответствии с абсолютными корреляционными величинами внутри функции).
И в заключение, приводятся сами коэффициенты дискриминантной функции:
Canonical Discriminant Function Coefficients
| (Канонические коэффициенты дискриминантной функции) | |
| | Function (Функция) |
| 1 | |
| Aggressivitaet der Beatmung (Интенсивность искусственного дыхания) | ,033 |
| ALTER (Возраст) | ,040 |
| Beatmungszeit in Std. (Время проведения искусственного дыхания в часах) | ,060 |
| Geschlecht (Пол) | ,133 |
| Koerpergroesse (Рост) | -,041 |
| Sauerstoff-Konzentration (Концентрация кислорода в смеси для искусственного дыхания) | 2,539 |
| (Constant) | 2,121 |
Здесь речь идёт о нестандартизированных коэффициентах — это множители при заданных значениях переменных, входящих в дискриминантную функцию. Стандартизированные коэффициенты, которые приводились ранее, основаны на стандартизированных значениях переменных, получаемых с помощью z-преобразования.
Далее приводятся средние значения дискриминантной функции в обеих группах:
Functions at Group Centroids
| (Функции групповых центроидов) | |
| Outcome (Исход) | Function (функция) |
| 1 | |
| gestorben (Скончался) | ,522 |
| ueberlebt (Выжил) | -,483 |
Далее следует таблица, в которой построчно для каждого наблюдения приводится информация о значении дискриминантной функции и определяется принадлежность к одной из двух групп. Мы здесь ограничились первыми двадцатью наблюдениями.
Группа, к которой фактически принадлежит наблюдение, отображается в колонке с именем "Actual Group" (Фактическая группа). В следующих трёх колонках содержится информация о прогнозе принадлежности к группе, сделанном на основании значения дискриминантной функции. Сначала приводится прогнозируемая принадлежность к группе; если она не соответствует фактической принадлежности, то в колонке "Predicted Group" (Прогнозируемая группа) отображаются две звёздочки (**).
Casewise Statistics
| (Статистики для наблюдений) | |||||||||||
| Case Number (Поряд-ковый номер случая) | Actual Group (Факти-ческая груп-па) | Highest Group (Старшая группа) | Second Highest Group (Вторая по старшинству группа) | Discri-minant Scores (Значе-ния дискри-ми- нант-ности) | |||||||
| Predic-ted Group (Прогно-зируе-мая груп-па) | P(D>d G=g) | P(G=g | D=d) | Squared Maha-lanobis Distance to Centroid (Квадрат рас-стояния Махапа-нобиса до центро-ида) | Group (Груп-па) | P(G=g |D=d) | Squared Maha-lanobis Distance to Centroid (Квадрат рас-стояния Маха-ланобиса до центро-ида) | Function 1 (Фун-кция 1) | ||||
| р | df | 1 | |||||||||
| Origi-nal (Перво-нача-льно) | 1 | 0 | 1" | ,727 | 1 | ,702 | ,122 | 0 | ,298 | 1,834 | -.833 |
| 2 | 1 | 0" | ,116 | 1 | ,889 | 2,464 | 1 | ,111 | 6,631 | 2,092 | |
| 3 | 0 | 1" | ,842 | 1 | ,576 | ,040 | 0 | ,424 | ,650 | -,284 | |
| 4 | 1 | 1 | ,310 | 1 | ,821 | 1,032 | 0 | ,179 | 4,085 | -1,499 | |
| 5 | 1 | 1 | ,495 | 1 | ,767 | ,465 | 0 | ,233 | 2,846 | -1,165 | |
| 6 | 1 | 1 | ,453 | 1 | ,779 | ,563 | 0 | ,221 | 3,081 | -1,234 | |
| 7 | 0 | 1" | ,635 | 1 | ,728 | ,225 | 0 | ,272 | 2,189 | -,958 | |
| 8 | 1 | 1 | ,549 | 1 | ,752 | ,359 | 0 | ,248 | 2,575 | -1,083 | |
| 9 | 1 | 1 | ,880 | 1 | ,587 | ,023 | 0 | ,413 | ,729 | -,332 | |
| 10 | 0 | 1" | ,952 | 1 | ,609 | ,004 | 0 | ,391 | ,893 | -,423 | |
| 11 | 0 | 0 | ,026 | 1 | ,940 | 4,980 | 1 | ,060 | 10,477 | 2,753 | |
| 12 | 1 | 0" | ,618 | 1 | ,501 | ,249 | 1 | ,499 | ,256 | ,023 | |
| 13 | 0 | 0 | ,930 | 1 | ,603 | ,008 | 1 | ,397 | ,841 | ,434 | |
| 14 | 1 | 1 | ,817 | 1 | ,676 | ,053 | 0 | ,324 | 1,528 | -,714 | |
| 15 | 1 | 1 | ,958 | 1 | ,611 | ,003 | 0 | ,389 | ,908 | -,431 | |
| 16 | 0 | 1" | ,685 | 1 | ,524 | ,165 | 0 | ,476 | ,359 | -,077 | |
| 17 | 1 | 1 | ,388 | 1 | ,798 | ,745 | 0 | ,202 | 3,492 | -1,347 | |
| 18 | 0 | 1" | ,763 | 1 | ,550 | ,091 | 0 | ,450 | ,496 | -,182 | |
| 19 | 1 | 1 | ,748 | 1 | ,696 | ,103 | 0 | ,304 | 1,760 | -,805 | |
| 20 | 0 | 0 | ,308 | 1 | ,822 | 1,037 | 1 | ,178 | 4,095 | 1,540 |
Далее выводятся две вероятности. Вторая из этих двух вероятностей, обозначенная P(G=g|D=d), является мерой принадлежности к одной из двух групп. Это вероятность того, что некоторой наблюдение принадлежит к прогнозированной группе, которая рассчитывается на основе подстановки в дискриминантную функцию значений набора переменных, соответствующих данному наблюдению. Вероятность того, что данный наблюдение принадлежит к другой группе получается вычитанием меры принадлежности из 1. Она приводится в колонке с названием "Second Highest Group" (Вторая по старшинству группа). Если мы рассмотрим первый наблюдение, то здесь вероятность того, что данный пациент выживет, рассчитанная на основании значении исходных переменных, равна 0,702 (в действительности он скончался).
Первую из двух рассмотренных вероятностей, получившую название Р (D>d|G=g), называют ещё и условной вероятностью. Это вероятность того, что пациент, принадлежащий к прогнозируемой группе, действительно имеет значения параметров, соответствующие дискриминантной функции или некоторые другие крайние значения.
В другой колонке приводится квадрат расстояния Махаланобиса до центроида (среднего значения группы значений дискриминантной функции). В правой колонке таблицы приводится соответствующее значение дискриминантной функции. Распределение значения дискриминантной функции отдельно по группам изображается на двух отдельных гистограммах.
Можно заметить, что значения дискриминантной функции для первой группы (скончался) смещены вправо, а значения второй группы (выжил) — влево, что однако свидетельствует об очень сильном смешении.
В завершении приводится классификационная таблица с указанием достигнутой точности прогнозирования. Значение этой точности равно 68,7 %, что является неудовлетворительным:
Диалоговое окно Discriminant Analysis (Дискриминантный анализ).
Диалоговое окно Discriminant Analysis (Дискриминантный анализ).
Диалоговое окно Discriminant Analysis: Save (Дискриминантный анализ: Сохранить)
Диалоговое окно Discriminant Analysis: Save (Дискриминантный анализ: Сохранить)
Видно, что в 10 версии появилась возможность сохранения информации о модели в так называемом, XML-файле (см. примечания к рис. 16.3).
Analysis Case Processing Summary (Анализ обработанных наблюдений)
| Unweighted Cases (He взвешенные случаи) | | N | Percent (Процент) |
| Valid (Действительные) | | 2200 | 71,9 |
| Excluded (Исключенные) | Missing or out-of-range group codes (Отсутствующие или находящиеся за пределами допустимой области кодировки принадлежности к группе) | 19 | ,6 |
| At least one missing discriminating variable (По меньшей мере одна отсутствующая дискриминационная переменная) | 816 | 26,7 | |
| Both missing or out-of-range group codes and at least one missing discriminating variable (Обе кодировки принадлежности к группе отсутствуют или находятся за пределами допустимой области, или по меньшей мере одна отсутствующая дискриминационная переменная) | 23 | ,8 | |
| Total (Общее количество исключённых) | 858 | 28,1 | |
| Total (Общее количество случаев) | | 3058 | 100,0 |
По средним значениям уже заметно, что для постматериалистических типов характерны: более высокий социально-экономический статус отца (2,8148 по сравнению с 2,3904), более высокое образование (2,9853 по сравнению с 2,5248) и принадлежность к младшей возрастной группе (2,1842 по сравнению с 2,8151).
Group Statistics
| (Статистики для групп) | |||||
| INGL_DIC (Индекс Ингпехарта, дихото-мический) | Mean (сред-нее значе-ние) | Std. Deviation (Станда-ртное отклоне-ние) | Valid N (listwise) (Действительные значения (по списку)) | ||
| Unwei-ghted (Не взвеше-нные) | Weigh-ted (Взвеше-нные) | ||||
| 1,00 (Пост-материа-листический тип) | SES-lndex des Vaters (социально-экономи-ческий статус отца) | 2,8148 | 1,1718 | 1091 | 1091,000 |
| Schulabschluss (Образование) | 2,9853 | ,8194 | 1091 | 1091,000 | |
| ALTER, BEFRAGTE | 2,1842 | 1,0887 | 1091 | 1091,000 | |
| Berufsaus-bildung (Профес-сиональное образо-вание) | 2,1888 | 1,1562 | 1091 | 1091,000 | |
| 2,00 (Материа-листический тип) | SES-lndex des Vaters (социально-экономи-ческий статус отца) | 2,3904 | 1,0407 | 1109 | 1109,000 |
| Scnulabschluss (Образование) | 2,5248 | ,7627 | 1109 | 1109,000 | |
| ALTER, BEFRAGTE | 2,8151 | 1,2111 | 1109 | 1109,000 | |
| Berufsa-usbildung (Профес-сиональное образование) | 1,8792 | 1,0249 | 1109 | 1109,000 | |
| Total (Сумма) | SES-lndex des Vaters (социально-экономи-ческий статус отца) | 2,6009 | 1,1275 | 2200 | 2200,000 |
| Schulabschluss (Образование) | 2,7532 | ,8240 | 2200 | 2200,000 | |
| ALTER, BEFRAGTE | 2,5023 | 1,1942 | 2200 | 2200,000 | |
| Berufsa-usbildung (Профес-сиональное образование) | 2,0327 | 1,1027 | 2200 | 2200,000 |
Tests of Equality of Group Means (Тест равенства групповых средних значений)
| | Wilks1 Lambda (Лямбда Уилкса) | F | df1 | df2 | Sig. (Значимость) |
| SES-lndex des Vaters (социально-экономический статус отца) | ,965 | 80,746 | 1 | 2198 | ,000 |
| Schulabschluss (Образование) | ,922 | 186,281 | 1 | 2198 | ,000 |
| ALTER, BEFRAGTE | ,930 | 164,951 | 1 | 2198 | ,000 |
| Berufsausbildung (Профессиональное образование) | ,980 | 44,222 | 1 | 2198 | ,000 |
Далее приводится корреляционная матрица между всеми переменными, причём коэффициенты были рассчитаны для обеих групп:
Pooled Within-Groups Matrices (Объединённые матрицы внутри групп)
| SES-lndex des Vaters (социально- экономи-ческий статус отца) | Schulab-schluss (Образо-вание) | ALTER, BEFRAG -TE | Berufsau-sbildung (Профес- сиона-льное образо-вание) | ||
| Corre-lation (Корре-ляция) | SES-lndex des Vaters (социально-экономи-ческий статус отца) | 1,000 | ,327 | -,033 | ,137 |
| Schula-bschluss (Образо-вание) | ,327 | 1,000 | -,275 | ,377 | |
| ALTER, BEFRA-GTE | -,033 | -,275 | 1,000 | ,018 | |
| Berufsa-usbildung (Профес-сиональное образо-вание) | ,137 | ,377 | ,018 | 1,000 |
Далее следует анализ коэффициентов дискриминантной функции. Корреляционный коэффициент между рассчитанными значениями дискриминантной функции и реальной принадлежностью к группе, равный 0,353, является неудовлетворительным:
Eigenvalues (Собственные значения)
| Function (Функция) | Eigenvalue (Собствен-ное значение) | % of Variance (% диспе-рсии) | Cumulative % (Сово-купный %) | Canonical Correlation (Канони-ческая корре-ляция) |
| 1 | ,142а | 100,0 | 100,0 | ,353 |
Wilks' Lambda (Лямбда Уилкса)
| Test of Function(s) Wilks' Lambda (Тест функции (и)) (Лямбда Уилкса) | Chi-square (Хи-квадрат) | df | Sig. (Значимость) |
| 1 ,875 | 292,431 | 4 | ,000 |
Затем приводятся стандартизированные коэффициенты дискриминантной функции и их корреляция с используемыми переменными:
Standardized Canonical Discriminant Function Coefficients
| (Стандартизиро-ванные канонические коэффициенты дискриминантной функции) | |
| | Function (Функция) |
| 1 | |
| SES-lndex des Vaters (социально-экономический статус отца) | ,321 |
| Schulabschluss (Образование) | ,434 |
| ALTER, BEFRAGTE | -,599 |
| Berufsausbildung (Профессиональное образование) | ,179 |
| (Структурная матрица) | |
| | Function (Функция) |
| 1 | |
| Schulabschluss (Образование) | ,771 |
| ALTER, BEFRAGTE | -,726 |
| SES-lndex des Vaters (социально-экономический статус отца) | ,508 |
| Berufsausbildung (Профессиональное образование) | ,376 |
Variables ordered by absolute size of correlation within function (Переменные расположены соответственно величине их абсолютных корреляционных показателей).
После этого приводятся нестандартизированные коэффициенты дискриминантной функции и средние значения дискриминантной функции в обеих группах:
Canonical Discriminant Function Coefficients
| (Канонические коэффициенты дискриминантной функции) | |
| | Function (Функция) |
| 1 | |
| SES-lndex des Vaters (социально-экономический статус отца) | ,290 |
| Schulabschluss (Образование) | ,549 |
| ALTER, BEFRAGTE | -,520 |
| Berufsausbildung (Профессиональное образование) | ,164 |
| (Constant) (Постоянно) | -1,297 |
Functions at Group Centroids (Функции для групповых центроидов)
| INGL DIC | Function (Функция) |
| 1 | |
| 1 ,00 (Постматериалистический тип) | ,380 |
| 2,00 (Материалистический тип) | -.374 |
В данном случае мы отказались от вывода очень длинной таблицы, в которой для каждого наблюдения построчно, приводится информация о значении дискриминантной функции и принадлежности к одной из двух групп.
В заключении приводится классификационная таблица с указанием точности попадания прогнозов:
Classification Resultsа
| (Классификационные результаты) | |||||
| INGL_DIC (Индекс Инглехарта, дихото-мический) | Predicted Group Membership (Прогнозируемая принадлежность к группе) | Total (Сум-ма) | |||
| 1,00 (Постматери-алисти-ческий тип) | 2,00 (Материа-листи-ческий тип) | ||||
| Original (Перво-начально) | Count (Коли-чество) | 1 ,00 (Пост-материа-листи-ческий тип) | 710 | 381 | 1091 |
| 2,00 (Материа-листический тип) | 410 | 699 | 1109 | ||
| Ungrouped cases (He сгруп-пирован-ные наблю-дения) | 7 | 12 | 19 | ||
| % | 1 ,00 (Постматериа-листический тип) | 65,1 | 34,9 | 100,0 | |
| 2,00 (Материа-листи-ческий тип) | 37,0 | 63,0 | 100,0 | ||
| Ungrouped cases (He сгруп-пирован-ные наблю-дения) | 36,8 | 63,2 | 100,0 |
Правая колонка таблицы ("Total" (Сумма)) указывает на общее количество наблюдений, которые фактически относятся к соответствующим группам. К группе постматериалистических типов относится 1091 наблюдение, а к группе материалистических типов 1109. Обе колонки, объединенные общим наименованием ("Predicted Group Membership" (Прогнозируемая принадлежность к группе)), указывают на фактическое количество наблюдений, относящихся к каждой из групп. Первая колонка указывает на количество наблюдений, которые были отнесены к первой группе. Из 1091 постматериалистическйх наблюдений корректно определены были 710, это соответствует 65,1 % всех наблюдений. 381 наблюдение было по ошибке отнесено ко 2 группе, что соответствует 34,9 % всех наблюдений. Из 1109 материалистических наблюдений по ошибке к группе 1 были отнесены 410, что соответствует 37,0 %. 699 наблюдений были корректно отнесены к группе 2, что составило 63 %. Строка "Ungrouped cases" (Несгруппированные наблюдения) содержит наблюдения, которые не соответствуют ни одной из групп. Хотя эти наблюдения и не учитываются при расчёте дискриминантной функции, значение функции для них всё равно вычисляется. Из 19 наблюдений, для которых отсутствуют данные о принадлежности к какой-либо группе, 7 были отнесены к постматериалистическим типам, а 12 к материалистическим. В строке под таблицей приводится итоговый результат. 64 % наблюдений были классифицированы корректно. Так как даже при чисто случайном отнесении некоторого наблюдения к одной из двух имеющихся групп, корректность классификации данного наблюдения составила бы 50 %, то 64 %-ную точность прогноза следует рассматривать как довольно умеренный результат. Такой неудовлетворительный результат можно попытаться объяснить тем, что в обе группы входили смешанные типы, которые тяжелее классифицировать, нежели чистые типы. Проверим это предположение путём повторного проведения расчёта, но уже с учётом только чистых типов.
Classification Results
| (Результаты классификации) | |||||
| | INGLEHART-INDEX (Индекс Инглехарта, дихото-мический) | Predicted Group Membership (Прогнозируемая принадлежность к группе | Total (Сумма) | ||
| POSTMATE-RIALISTEN (Постмате-риалисты) | MATERI-ALISTEN (Матери-алисты) | ||||
| Original (Перво-начально) | Count (Коли-чество) | POSTMATE-RIALISTEN (Постмате-риалисты) | 409 | 109 | 518 |
| MATERI-ALISTEN (Матери-алисты) | 133 | 297 | 430 | ||
| % | POSTMATE-RIALISTEN (Постмате-риалисты) | 79,0 | 21,0 | 100,0 | |
| MATERI-ALISTEN (Матери-алисты) | 30,9 | 69,1 | 100,0 |
К группе постматериалистов относится 518 наблюдений. 409 наблюдений (79 %) были спрогнозированы корректно, а 109 (21,0 %) по ошибке отнесены к группе 4 ("чистые материалисты"). В группе чистых материалистов насчитывается 403 наблюдения. 297 наблюдений (69,1 %) были определены корректно, а 133 (30,9 %) по ошибке были отнесены к группе 1 ("чистые постматериалисты"). Конечным результатом является корректная идентификация наблюдений, равная 74,5 %. Этот показатель значительно выше предыдущего и может быть расценен как приемлемый.
Диалоговое окно Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики)
Диалоговое окно Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики)
Дискриминантный анализ
Дискриминантный анализС помощью дискриминантного анализа на основании некоторых признаков (независимых переменных) индивидуум может быть причислен к одной из двух (или к одной из нескольких) заданных заранее групп.
Такая постановка задачи, в особенности в случае двух заранее заданных групп, очень сильно напоминает постановку задачи для метода логистической регрессии (см. гл. 16.4). Ядром дискриминантного анализа является построение так называемой дискриминантной функции
d = b1х1+b2х2+... + bnхn+а ,
где x1 и хn — значения переменных, соответствующих рассматриваемым случаям, константы b1-bn и a — коэффициенты, которые и предстоит оценить с помощью дискриминантного анализа. Целью является определение таких коэффициентов, чтобы по значениям дискриминантной функции можно было с максимальной четкостью провести разделение по группам.
Распределение значений дискриминантной функции для группы «скончался»
Распределение значений дискриминантной функции для группы «скончался»
Распределение значений дискриминантной функции для группы «выжил»
Распределение значений дискриминантной функции для группы «выжил»
Classification Results 3
| (Классификационные результаты) | |||||
| Outcome (Исход) | Predicted Group Membership (Предсказанная принадлежность к одной из групп) | Total (Сум-ма) | |||
| gestorben (Сконча-лся) | ueberlebt (Выжил) | ||||
| Original Перво-начально) | Count (Колич-ество) | gestorben (сконча-лся | 38 | 25 | 63 |
| ueberlebt (Выжил) | 16 | 52 | 68 | ||
| % | gestorben (сконча-лся | 60,3 | 39,7 | 100,0 | |
| ueberlebt (Выжил) | 23,5 | 76,5 | 100,0 |
При применении метода логарифмической регрессии (см. гл. 16.4) результат получился немного лучше (доля корректного прогноза 70,99 %).
Для случая, когда пациенту мужского пола, 25 лет, ростом 184 см искусственное дыхание делали на протяжении 5 часов, при концентрации кислорода равной 0,7 и интенсивности соответствующей значению 10, получается следующее значение дискриминантной функции
d = 2,121 + 0,033*10 + 0,04*25 + 0,06*5 + 0,133*1-0,041*184 + 2,539*0,7 = -1,883
Опираясь на распределение значений дискриминантной функции, этого пациента можно отнести к группе выживших.
При выполнении дискриминантного анализа, как и для других многомерных процедур, можно применять и пошаговый образ действий, который как раз и рекомендуется при наличии большого количества независимых переменных. Этот метод похож на многомерный регрессионный анализ, однако переменные при проведении дискриминантного анализа выбираются по другим критериям.
Рассчитаем ещё раз наш пример, но уже с применением пошагового метода.
Для проведения дискриминантного анализа Вы можете использовать и пример с двумя диагностическими тестами для обнаружения карциномы мочевого пузыря, рассмотренный в главе 16.4. Здесь можно получить более чёткое разделение двух групп (здоров — болен). Точность прогнозирования здесь составляет 82,2 %.
Задачи статистики в пакете SPSS
Порядок выполнения факторного анализа
19.1 Порядок выполнения факторного анализаНа первом шаге процедуры факторного анализа происходит стандартизация заданных значений переменных (z-преобразование); затем при помощи стандартизированных значений рассчитывают корреляционные коэффициенты Пирсона между рассматриваемыми переменными.
Исходным элементом для дальнейших расчётов является корреляционная матрица. Для понимания отдельных шагов этих расчётов потребуются хорошие знания, прежде всего, в области операций над матрицами; интересующимся подробностями советуем обратиться к специальной литературе. Для построенной корреляционной матрицы определяются, так называемые, собственные значения и соответствующие им собственные векторы, для определения которых используются оценочные значения диагональных элементов матрицы (так называемые относительные дисперсии простых факторов).
Собственные значения сортируются в порядке убывания, для чего обычно отбирается столько факторов, сколько имеется собственных значений, превосходящих по величине единицу. Собственные векторы, соответствующие этим собственным значениям, образуют факторы; элементы собственных векторов получили название факторной нагрузки. Их можно понимать как коэффициенты корреляции между соответствующими переменными и факторами. Для решения такой задачи определения факторов были разработаны многочисленные методы, наиболее часто употребляемым из которых является метод определения главных факторов (компонентов).
Описанные выше шаги расчёта ещё не дают однозначного решения задачи определения факторов. Основываясь на геометрическом представлении рассматриваемой задачи, поиск однозначного решения называют задачей вращения факторов. И здесь имеется большое количество методов, наиболее часто употребляемым из которых является ортогональное вращение по так называемому методу варимакса. Факторные нагрузки повёрнутой матрицы могут рассматриваться как результат выполнения процедуры факторного анализа. Кроме того на основании значений этих нагрузок необходимо попытаться дать толкование отдельным факторам.
Если факторы найдены и истолкованы, то на последнем шаге факторного анализа, отдельным наблюдениям можно присвоить значения этих факторов, так называемые факторные значения. Таким образом для каждого наблюдения значения большого количества переменных можно перевести в значения небольшого количества факторов.
Пример из области социологии
19.2 Пример из области социологииИзложенный метод будет проиллюстрирован на примере анкеты, составленной в Институте Социологии Университета Марбург. На основе этой анкеты на двух гессенских металлургических предприятиях было произведено исследование отношения к иностранцам. Опрашиваемым предложили высказать свое отношение к следующим пятнадцати положениям:
1. Необходимо улучшить интеграцию иностранцев.
2. Необходимо мягче относиться к беженцам.
3. Деньги Германии должны быть потрачены на нужды страны.
4. Германия — это не служба социальной помощи для всего мира.
5. Необходимо стараться налаживать хорошие отношения друг с другом.
6. Права беженцев следует ограничить.
7. Немцы станут меньшинством.
8. Право беженцев необходимо охранять во всей Европе.
9. Враждебность к иностранцам наносит вред экономике Германии.
10. Сначала необходимо создать нормальные жилищные условия для немцев.
11. Мы ведь тоже практически везде являемся иностранцами.
12. Мультикультура означает мультикриминал.
13. В лодке нет свободных мест.
14. Иностранцы вон.
15. Интеграция иностранцев — это убийство нации.
Оценки ставились по семибальной шкале: от полного несогласия (1) до полного согласия (7). Результаты опроса для 90 человек хранятся в файле ausland.sav в переменных а1-а15.
Пример из области психологии
19.3 Пример из области психологииВ анкете изучения вариантов поведения при заболевании по пунктам описываются возможные варианты поведения, дающие объяснение отношения больных к их болезни. На основании пятибалльной шкалы, балы которой соответствуют выражениям: абсолютно не подходит (1) —- незначительно (2) — умеренно (3) — довольно значительно (4) — и очень сильно (5), психолог должен понять, насколько сильно указанная ситуация подходит их пациенту. Помимо этого, посредством факторного анализа необходимо будет ещё определить, можно ли пункты анкеты логически связать с факторами, которые дают объяснение возможной типологии отношения к болезни. Сначала рассмотрим пункты стандартной анкеты:
1. Искать информацию о заболевании и лечении
2. Не желать признать случившееся
3. Занижать значение и важность болезни
4. Размышлять и мечтать о своём
5. Винить самого себя
6. Считать виноватыми других
7. Предпринимать активные действия для решения проблемы
8. Составить план и затем приступить к действиям
9. С нетерпением и раздражённо на всё реагировать
10. Выносить все эмоции наружу
П. Подавлять эмоции, проявлять самообладание
12. Искать улучшение настроения в употреблении алкоголя или успокаивающих средств
13. Больше себе позволять
14. Пытаться интенсивней жить
15. Решиться на борьбу с болезнью
16. Жалеть себя
17. Подбадривать себя
18. Пытаться достичь успеха и самоутверждения
19. Пытаться отвлечься
20. Искать уединения
21. Принимать болезнь как судьбу
22. Впасть в бесконечные размышления
23. Искать утешения в религии
24. Пытаться найти какой-либо смысл в болезни
25. Утешать себя тем, что другим ещё хуже
26. Ссылаться на судьбу
27. Точно следовать указаниям врача
28. Надеяться на врачей
29. Не доверять врачам, перепроверять диагноз, искать других врачей
30. Желать делать добро другим
31. Изображать напускное веселье
32. Принимать помощь от других
33. Позволять о себе заботиться
34. Отдаляться от других людей
35. Пытаться припомнить личный опыт и методы борьбы с подобными ударами судьбы
Результаты для 160 пациентов хранятся в файле fkv.sav в переменных fl-f35.
Задача вращения
19.4 Задача вращенияРассмотрим поподробнее задачу вращения. Используем для этого приводившийся в разделе 19.2 пример опроса, исследующего отношение к иностранцам.
Диалоговое окно Factor Analysis: Descriptives (Факторный анализ: Дескриптивные статистики)
Диалоговое окно Factor Analysis: Descriptives (Факторный анализ: Дескриптивные статистики)
Диалоговое окно Factor Analysis: Extraction (Факторный анализ: Отбор)
Диалоговое окно Factor Analysis: Extraction (Факторный анализ: Отбор)
Диалоговое окно Factor Analysis:Factor Scores (Факторный анализ: Значения факторов)
Диалоговое окно Factor Analysis:Factor Scores (Факторный анализ: Значения факторов)
Теперь мы запретим вывод малых факторных нагрузок и для этого установим граничное значение выводимых нагрузок равным 0,4. Достоинство этого шага состоит в том, что устраняется непривлекательное отображение малых значений в Е-формате (см. раздел 19.2).
Диалоговое окно Factor Analysis (Факторный анализ)
Диалоговое окно Factor Analysis (Факторный анализ)
Выключатель Rotation... (Вращение) позволяет выбрать метод вращения. Активируйте метод варимакса и оставьте активированным вывод повёрнутой матрицы факторов. Далее вы можете организовать вывод факторных нагрузок в графическом виде, в котором первые три фактора будут представлены в трёхмерном пространстве; в случае наличия только двух факторов в слое приводится только одно изображение.
Если Вы хотите найти значения факторов и сохранить их в виде дополнительных переменных задействуйте выключатель Scores... (Значения) и отметьте Save as variables (Сохранить как переменные). По умолчанию установлен регрессионный метод. Выключатель Options... (Опции) предназначен для обработки пропущенных значений. Здесь обеспечивается возможность заменить пропущенные значения средними значениями соответствующих переменных.
| (Объяснённая суммарная дисперсия) | ||||||
| Compo-nent (Компо-ненты) | Initial Eigenvalues (Первичные собственные значения) | Rotation Sums of Squared Loadings (Повёрнутые суммы квадратов нагрузок) | ||||
| Total (Сумма) | % of Variance (% диспе-рсии) | Cumulative % (Сово-купный %) | Total (Сум-ма) | % of Variance (% дис-персии) | Cumu-lative % (Сово-купный %) | |
| 1 | 5,146 | 34,308 | 34,308 | 3,466 | 23,105 | 23,105 |
| 2 | 1,945 | 12,970 | 47,278 | 2,536 | 16,907 | 40,013 |
| 3 | 1,415 | 9,433 | 56,711 | 2,505 | 16,698 | 56,711 |
| 4 | ,990 | 6,601 | 63,312 | | | |
| 5 | ,936 | 6,238 | 69,550 | | | |
| 6 | ,760 | 5,068 | 74,617 | | | |
| 7 | ,693 | 4,622 | 79,240 | | | |
| 8 | ,612 | 4,083 | 83,323 | | | |
| 9 | ,529 | 3,529 | 86,852 | | | |
| 10 | ,473 | 3,151 | 90,004 | | | |
| 11 | ,433 | 2,889 | 92,893 | | | |
| 12 | ,339 | 2,262 | 95,1555 | | | |
| 13 | ,301 | 2,007 | 97,161 | | | |
| 14 | ,245 | 1,635 | 98,797 | | | |
| 15 | ,181 | 1,203 | 100,000 | | | |
По таблице можно увидеть, что три собственных фактора имеют значения превосходящие единицу. Следовательно для анализа отобрано только три фактора. Первый фактор объясняет 34,308 % суммарной дисперсии, второй фактор 12,97 % и третий фактор 9,433 %. Так как мы запретили вывод неповернутой матрицы факторов, то далее приводится повёрнутая матрица (см. следующую таблицу).
При факторном анализе постоянно появляются сообщения об ошибках, — так нам жаловался один пользователь, — например 2,56Е-02 и т.п. Действительно такой формат вывода в глазах непосвященного пользователя очень портит картину всей таблицы. Это, так называемый, Е-формат, знакомый всем программистам по языку Фортран (Fortran), где буква Е соответствует 10 в некоторой степени; для числа 2,5Е-02 можно было бы записать и 0,0256. Во втором примере (гл. 19.3) мы покажем Вам, как выходить из такой ситуации.
Rotated Component Matrix a
| (Повёрнутая матрица компонентов) | |||
| | Component (Компонент) | ||
| 1 | 2 | 3 | |
| А1 | -,466 | ,628 | -,191 |
| А2 | -,141 | ,657 | ,215 |
| A3 | ,327 | -,153 | ,711 |
| А4 | ,533 | -,106 | ,394 |
| А5 | -,362 | ,783 | 4.52Е-02 |
| А6 | -1.2Е-02 | -3.8Е-02 | ,763 |
| А7 | ,525 | 3.58Е-02 | ,543 |
| А8 | -,117 | ,719 | -,267 |
| А9 | 2.56Е-02 | ,551 | -8.8Е-02 |
| А10 | ,252 | -9.5Е-02 | ,685 |
| А11 | ,125 | ,392 | -,292 |
| А12 | ,802 | -,199 | ,108 |
| А13 | ,685 | -,110 | ,465 |
| А14 | ,837 | -,144 | -2.5Е-02 |
| А15 | ,725 | -4.8Е-02 | ,144 |
Rotation Method: Varimax with Kaiser Normalization (Метод вращения: Варимакс с нормализацией Кайзера),
a. Rotation converged in 8 iterations (Вращение осуществлено за 8 итераций).
Здесь начинается самая интересная часть факторного анализа: Вы должны попытаться объяснить отобранные факторы. Для этого возьмите в руки карандаш и в каждой строке повёрнутой факторной матрицы отметьте ту факторную нагрузку, которая имеет наибольшее абсолютное значение.
Как уже было сказано, эти факторные нагрузки следует понимать как корреляционные коэффициенты между переменными и факторами. Так переменная a1 сильнее всего коррелирует с фактором 2, а именно, величина корреляции составляет 0,628, переменная а2 также сильнее всего коррелирует с фактором 2 (0,657), переменная же а3 коррелирует сильнее всего с фактором 3 (0,711) и т.д. В большинстве случаев включение отдельной переменной в один фактор, осуществляемое на основе коэффициентов корреляции, является однозначным. В исключительных случаях, к примеру, как в ситуации с переменной а7, переменная может относиться к двум факторам одновременно. Могут быть также и переменные, в нашем примере a11, которыми нельзя нагрузить ни один из отобранных факторов.
Если поступить так, как изложено выше, то варианты мнений, указанные вначале рассмотрения примера, можно отнести в следующем порядке к трём факторам:
Немцы станут меньшинством.
Мультикультура означает мультикриминал.
В лодке нет свободных мест.
Иностранцы вон.
Интеграция иностранцев — это убийство нации.
Необходимо мягче относиться к беженцам.
Необходимо стараться налаживать хорошие отношения друг с другом.
Права беженцев необходимо охранять во всей Европе.
Враждебность к иностранцам наносит вред экономике Германии.
Мы ведь тоже практически везде являемся иностранцами.
Права беженцев следует ограничить.
Немцы станут меньшинством.
Сначала необходимо создать нормальные жилищные условия для немцев.
Из-за равных по величине нагрузок, как для фактора 3, так и для фактора 1, положение "Немцы станут меньшинством" включено в оба фактора. Теперь мы подошли к последнему и решающему шагу факторного анализа: необходимо обнаружить и описать смысловую связь факторов. В рассматриваемом примере это можно сделать без особых усилий.
Первый фактор, и это очевидно, собрал все положения, враждебно настроенные по отношению к иностранцам. На основании позитивных корреляционных коэффициентов участвующих переменных с фактором и принимая во внимание полярность значений переменных (большое значение означает полное согласие) большое значение фактора означает высокую враждебность к иностранцам.
Во второй фактор входят те положения, которые указывают на дружелюбное отношение к иностранцам. Большое значение фактора означает здесь доброжелательное отношение к иностранцам.
Во второй фактор вошли точки зрения, соответствующие осторожному отношению к иностранцам; в противоположность к первому фактору это не враждебные точки зрения, а по большей части социальные страхи (деньги, жильё в первую очередь для немцев и т.д.). Большое значение фактора указывает здесь на высокую степень социального сомнения.
В соответствии с порядком изложения эти три фактора можно кратко охарактеризовать при помощи следующих выражений: Враждебная позиция, Доброжелательная позиция и Социальные страхи. Однако столь явно, как в приведенном примере факторы удаётся объяснить не всегда. Если нет возможности провести вербальное объяснение факторов, то факторный анализ можно считать неудавшимся.
Значения факторов
Поскольку мы пожелали произвести расчёт значений факторов, то в соответствии с тремя отобранными факторам были сгенерированы три новые переменные, на-
званные fac1_1, fac2_1 и fac3_1, которые содержат вычисленные значения факторов. Если Вы просмотрите текущий файл после поведения факторного анализа, то сможете увидеть имеющие нормализованные значения факторов. По каждому из отобранных фактору для каждого опрошенного было рассчитано специальное факторное значение. Факторное значение, как правило, лежит в пределах —3 до +3.
Рассмотрим факторную переменную fac1_1. Она включает следующие элементарные переменные: а4, а12, а13, а14 и а15. В качестве метки для этого фактора мы выбрали выражение: "Враждебная позиция". Большое положительное значение фактора означает одобрение элементарных переменных, то есть положений, входящих в этот фактор. Одобрение элементарных переменных, относящихся к первому фактору, тождественно ярко выраженным расистским взглядам. Для подтверждения этого факта рассмотрим два примера. Наблюдение 4 характеризуется очень низким факторным значением в переменной fac1_1. Оно равно —2,00455. В данном случае можно сделать заключение о том, что здесь не наблюдается расистская направленность или она очень слаба. Соответственно этому ведут себя и отдельные значения элементарных переменных (а4 = 2, а13 = 1, а14 = 1, а15 = 1). Наблюдение 17, в отличие от наблюдения 4, характеризуется очень высоким положительным значением фактора, который равен 3,14801. Основываясь на этом значении, мы можем исходить из того, что здесь явно заметна экстремально-расистская позиция. Соответственно этому ведут себя и отдельные значения элементарных переменных (а4 = 7, а13 = 7, а14 = 7, а15 = 7).
Рассмотрим факторную переменную fac2_1. К ней относятся элементарные переменные: a1, a2, а5, а8, а9 и a11. В качестве метки для этого фактора мы выбрали выражение: "Доброжелательная позиция". Большое положительное значение фактора означает полное согласие. Полное согласие соответствует дружелюбному отношению к иностранцам. И здесь рассмотрим два выборочных примера. Наблюдение 17 характеризуется очень малым значением фактора, которое составляет —3,32632. Основываясь на значении этого фактора можно сделать вывод, что едва ли в этом случае присутствует доброжелательное отношение к иностранцам. Соответственным образом ведут себя и отдельные значения элементарных переменных (a1 = 1, а2 = 1, а5 = 1, а8 = 2, а9 = 4, a11 = 6). В наблюдении 17 и следовало ожидать низкого значения фактора, так как здесь наблюдается высокое положительное факторное значение для факторной переменной fac1_1. В таком случае говорят, что существует отчётливая консистенция. По сравнению с предыдущим наблюдением, наблюдение 6 характеризуется очень высоким положительным значением факторной переменной fac2_1. Оно равно 1,23438. Исходя из значения фактора, можно сделать вывод, что существует сильное дружелюбное отношение к иностранцам. Соответственным образом ведут себя и отдельные значения элементарных переменных (a1 = 7, а2 = 7, а5 = 7, а8 = 7, а9 = 7, a11 = 7).
В заключение рассмотрим факторную переменную fac3_1. К ней относятся элементарные переменные аЗ, а6, а7 и а10. В качестве метки для этого фактора мы выбрали выражение: "Социальные страхи". Большое положительное значение фактора означает одобрение элементарных переменных. Одобрение элементарных переменных тождественно ярко выраженным социальным страхам. Рассмотрим для доказательства этого факта два примера. Наблюдение 5 характеризуется очень низким значением факторной переменной fac3_1. Оно равно —1,66369. В этом случае наблюдаются очень слабые социальные страхи и едва ли на основании социальных страхов можно наблюдать враждебное отношение к иностранцам. Соответственно этому ведут себя и отдельные значения элементарных переменных (аЗ = 5, аб = 2, а7 = 2, а 10 = 1). Наблюдение 43 в отличие от наблюдения 5 характеризуется очень высоким положительным факторным значением. Оно равно 1,93125. В этом случае наблюдаются очень сильные социальные страхи. Соответственным образом ведут себя и отдельные значения элементарных переменных (аЗ = 7, аб = 7, а7 = 7, а 10 = 7). В файле ausland.sav находятся ещё несколько дополнительных переменных, а именно:
|
| Удовлетворённость собственным местом в экономических отношениях (1 = да, 2 = нет) |
|
| Год рождения (1 = 1935-1949, 2 = 1941-1950, 3 = 1951-1960, 4 = 1961-1970) |
|
| Пол (1 = мужской, 2 = женский) |
|
| Социально-политическая активность (1 = да, 2 = нет) |
|
| Занимаемая должность (1 = рабочий, 2 = специалист, 3 = служащий) |
berufliche Stellung * fremdenfeindliche Einstellung Crosstabulation
| (Занимаемая должность * Враждебное отношение Таблица сопряженности ) | |||||||
| fremdenfeindliche Einstellung (Враждебное отношение) | Total (Сум-ма) | ||||||
| keine (отсу-тствует) | swach (сла- бое) | stark (силь-ное) | sehr stark (очень силь- ное) | ||||
| beru-fliche Ste- llung (Зани-маемая дол-жность) | Arbe- iter (Рабо-чий) | Count (Коли-чество) | 6 | 7 | 7 | 11 | 31 |
| % within berufliche Stellung (% от Зани-маемой долж-ности) | 19,4% | 22,6% | 22,6% | 35,5% | 100,0% | ||
| Facha-rbeiter (Специ-алист) | Count (Коли-чество) | 5 | 7 | 7 | 8 | 27 | |
| % within beru-fliche Stellung (% от Зани-маемой долж-ности) | 18,5% | 25,9% | 25,9% | 29,6% | 100,0% | ||
| Anges-tellte (Служа-щий) | Count (Коли-чество) | 10 | 9 | 8 | 3 | 30 | |
| % within beru-fliche Stellung (% от Зани-маемой долж-ности) | 33,3% | 30,0% | 26,7% | 10,0% | 100,0% | ||
| Total (сумма) | Count (Коли-чество) | 21 | 23 | 22 | 22 | 88 | |
| % within beru-fliche Stellung (% от Зани-маемой долж-ности) | 23,9% | 26,1% | 25,0% | 25,0% | 100,0% |
Попытайтесь найти связи между другими факторными значениями и переменными.
Диалоговое окно Factor Analysis:Options (Факторный анализ: Опции)
Диалоговое окно Factor Analysis:Options (Факторный анализ: Опции)
Total Variance Explained
| (Объяснённая совокупная дисперсия) | ||||||
| Component (Компо-ненты) | initial eigenvalues (Первичные собственные значения) | Kotation Sums of Squared Loadings (Повёрнутая сумма квадратов нагрузок) | ||||
| Total (Сумма) | % of Variance (% дис-персии) | Cumulative % (Совокупный процент) | Total (Сумма) | % of Variance (% дис-персии) | Cumulative % (Совокупный процент) | |
| 1 | 5,0226 | 14,359 | 14,359 | 4,388 | 12,538 | 12,538 |
| 2 | 3,937 | 11,250 | 25,609 | 3,972 | 11,349 | 23,887 |
| 3 | 2,356 | 6,731 | 32,340 | 2,396 | 6,845 | 30,732 |
| 4 | 2,073 | 5924 | 38,264 | 2,257 | 6,447 | 37,179 |
| 5 | 1,706 | 4,873 | 43,138 | 2,085 | 5,958 | 43,138 |
| 6 | 1,478 | 4,222 | 47,359 | |||
| 7 | 1,319 | 3,768 | 51, 127 | |||
| 8 | 1,258 | 3,595 | 54, 722 | |||
| 9 | 1,228 | 3,508 | 58, 230 | |||
| 10 | 1,082 | 3,092 | 61,322 | |||
| 11 | 1,029 | 2,941 | 64,263 | |||
| 12 | ,942 | 2,692 | 66. 955 | |||
| 13 | ,890 | 2,542 | 69, 497 | |||
| 14 | ,878 | 2,508 | 72, 005 | |||
| 15 | ,823 | 2,353 | 74, 358 | |||
| 16 | ,737 | 2,104 | 76, 462 | |||
| 17 | ,704 | 2,011 | 78, 473 | |||
| 18 | ,664 | 1,898 | 80, 371 | |||
| 19 | ,652 | 1,862 | 82, 232 | |||
| 20 | ,618 | 1,766 | 83, 998 | |||
| 21 | ,572 | 1,634 | 85, 632 | |||
| 22 | ,516 | 1,474 | 87, 106 | |||
| 23 | ,473 | 1,352 | 88, 458 | |||
| 24 | ,466 | 1,331 | 89, 788 | |||
| 25 | ,459 | 1,310 | 91,099 | |||
| 26 | ,432 | 1,234 | 92, 332 | |||
| 27 | ,417 | 1,192 | 93, 524 | |||
| 28 | ,388 | 1,108 | 94, 632 | |||
| 29 | ,345 | ,985 | 95,617 | |||
| 30 | ,324 | ,927 | 96, 544 | |||
| 31 | ,287 | ,821 | 97, 365 | |||
| 32 | ,259 | ,740 | 98, 105 | |||
| 33 | ,240 | ,684 | 98, 789 | |||
| 34 | ,223 | ,638 | 99, 427 | |||
| 35 | ,201 | ,573 | 100,000 |
Насчитывается одиннадцать собственных значений, превосходящих единицу, что означало бы отбор одиннадцати факторов, если бы Вы не изменили установку по умолчанию Eigenvalues over: 1 (Собственные значения, превосходящие единицу) и не ограничили бы количество рассматриваемых факторов пятью. После точечной диаграммы, которую мы объясним позже, следует вывод повёрнутой факторной матрицы:
Rotated Component Matrix a
| (Повёрнутая матрица компонентов) | |||||
| | Component (Компоненты) | ||||
| 1 | 2 | 3 | 4 | 5 | |
| F5 | ,683 | | | | |
| F16 | ,683 | | | | |
| F22 | ,620 | | | | |
| F9 | ,581 | | | | |
| F26 | ,580 | | | | |
| F6 | ,544 | | | | |
| F35 | ,515 | | | | |
| F33 | ,491 | | | | |
| F12 | ,488 | | | | |
| F34 | ,458 | | | | |
| F4 | ,447 | | | | |
| F7 | | ,710 | | | |
| F8 | | ,690 | | | |
| F17 | | ,654 | | | |
| F14 | | ,621 | | | |
| F15 | | ,597 | | | |
| F18 | | ,589 | | | |
| F19 | | ,572 | | | |
| F1 | | ,563 | | | |
| F13 | | ,510 | | | |
| F20 | | | | | |
| F28 | | | ,816 | | |
| F27 | | | ,765 | | |
| F31 | | | -,493 | | |
| F29 | | | | | |
| F21 | | | | ,683 | |
| F25 | | | | ,592 | |
| F30 | | | | ,522 | |
| F23 | ,426 | | | ,469 | |
| F24 | | | | ,404 | |
| F3 | | | | | ,677 |
| F2 | ,457 | | | | ,567 |
| F10 | | | | | -,564 |
| F11 | | | | | ,403 |
| F32 | | | | | |
Rotation Method: Varimax with Kaiser Normalization (Метод вращения: варимакс с нормализацией Кайзера).
a. Rotation converged in 6 iterations (Вращение получено за б итераций).
Здесь мы опять подходим к самой интересной части факторного анализа — толкованию факторов. Факторные нагрузки пяти факторов в блочном виде расположены по диагонали матрицы. Переменные, находящиеся внутри одного блока, отсортированы в порядке убывания факторных нагрузок, причём был запрещен вывод факторных нагрузок, меньших 0,4. Высказывания f5, f16, f22, f9, f26, f6, f35, f33, f12, f34 и f4 принадлежат первому фактору, высказывания f7, f8, f17, f14, f15, f18, f19, f1, f1З и f10 второму и т.д. Высказывание f5 своим значением 0,683 нагружает сильнее всего первый фактор, высказывание f7 — второй фактор (со значением 0,710), высказывание f28 — третий фактор (со значением 0,816) и т.д.
Для того, чтобы отдельные высказывания отнести к определенному фактору, при выводе отсортированных значений Вам уже не нужно маркировать их карандашом, так как сопоставление в этом случае будет произведено автоматически. Несмотря на то, что представление данных в таком виде значительно удобнее, всё же здесь существует один серьёзный недостаток: сопоставление высказывания некоторому фактору рассматривается как единственно верное решение, без проверки, не имеет ли данное высказывание примерно такую же нагрузку и для какого-либо другого фактора. Рассмотрим, к примеру, пунктf23. Пункт f23 нагружает фактор 1 значением 0,426, а фактор 4 значением 0,469. Для обеспечения корректности в этом случае следует иметь дело с обоими факторами. Если нельзя чётко объяснить принадлежность одного из многих высказываний одному-единственному фактору, то факторный анализ следует считать неудавшимся. Аналогично, Вы не должны забывать об этой проблеме при выводе сортированных данных. Кроме того, факторный анализ считается неудавшимся и тогда, когда нельзя однозначно интерпретировать факторы. Поэтому далее мы попытаемся интерпретировать факторы из рассматриваемого примера.
Жалеть себя
Впасть в бесконечные размышления
С нетерпением и раздражённо на всё реагировать
Жаловаться на судьбу
Считать виноватыми других
Пытаться припомнить личный опыт и методы борьбы с подобными ударами судьбы
Искать улучшение настроения в употреблении алкоголя или успокаивающих средств
Размышлять и мечтать о своём
Составить план и затем приступить к действиям
Подбадривать себя
Пытаться интенсивней жить
Решиться на борьбу с болезнью
Пытаться достичь успеха и самоутверждения
Пытаться отвлечься
Искать информацию о заболевании и лечении
Точно следовать указаниям врача
Изображать наигранное веселье
Утешать себя тем, что другим ещё хуже
Желать делать добро другим
Искать утешения в религии
Пытаться найти какой-либо смысл в болезни
В этом примере, также как и в предыдущем случае, можно без особых усилий истолковать содержание этих факторов.
Первый фактор собрал все пункты, описывающие депрессивное отношение к тяжёлой болезни. Эти пункты описывают состояние подавленности, удручённости и сомнений; здесь речь идёт о потере желания жить и попытке спрятаться за алкоголем и психотропными средствами. Обозначим фактор 1 меткой "Депрессивный подход".
Второй фактор собрал все пункты, описывающие активный подход к борьбе с болезнью. Эти пункты описывают состояние пробуждения желания жить, которое проявляется в рациональном подходе к борьбе с болезнью (Поиск информации), в нежелании позволить болезни ввести себя в угнетённое состояние (Пытаться отвлечься). Фактору 2 присвоим следующую метку: "Активное действие, направленное на решение проблемы".
Третий фактор собрал все пункты, основывающиеся на отношении врач-пациент. Следует обратить внимание на то, что высказывание f31 отрицательно нагружает этот фактор, то есть о наигранном веселье скорее всего речь не идёт. Для краткой характеристики этого фактора можно было бы выбрать выражение: "Надеяться на врачей".
Фактор 4 собрал все высказывания, указывающие на фаталистический или религиозно-направленный поиск смысла происходящего. В качестве краткой характеристики здесь можно было бы выбрать выражение: "Религиозность и поиск смысла".
В факторе 5 собрались все пункты, характеризующие состояние, в котором опрашиваемый не склонен признавать болезнь путём занижения её важности или нежелания осознавать реальность, а также душевной отчуждённости (Подавлять эмоции). Здесь следует обратить внимание на то, что пункт f10 (Выносить все эмоции наружу) нагружает фактор отрицательным значением, то есть эмоции скорее не выносятся наружу. В качестве краткой характеристики этого фактора можно было бы выбрать выражение: "Недооценка и психологическая отрешённость".
Точечная диаграмма
Займёмся теперь анализом точечной диаграммы, представленной на рисунке 19.7.
Точечная диаграмма может нам помочь определить количество учитываемых факторов. Как Вам уже известно, согласно установке по умолчанию, SPSS учитывает в результирующей модели все те факторы, собственное значение которых превосходит единицу. В нашем примере это было бы одиннадцать факторов.
Количество учитываемых факторов вы можете задать сами, что мы и сделали ранее. В качестве вспомогательного средства для определения задаваемого числа факторов может послужить специальная точечная диаграмма. Слово Screeplot, употребляемое для обозначения этой диаграммы состоит из двух частей: английского слова scree, что означает щебень и слова plot, что в английском соответствует графическому представлению. Такая диаграмма служит для того, чтобы маловажные факторы — щебень — можно было отделить от самых значимых факторов. Эти значимые факторы на графике образовывают в своего рода склон, то есть ту часть линии, которая характеризуется крутым подъёмом. В приведенной диаграмме такой крутой подъём наблюдается
в области первых пяти факторов. Пять факторов мы и положили в основу модели в самом начале анализа. Если посмотреть на график, то можно заметить что склон, то есть область значимых факторов, наблюдается выше пятого фактора (пятый, четвёртый, третий, второй ...), а ниже пятого фактора (шестой, седьмой, восьмой ...) расположился щебень, область незначимых факторов. Вы можете самостоятельно провести расчет с использованием модели, включающей различное число факторов; в рассмотренном примере было бы уместным произвести сравнение моделей с учётом четырёх, пяти и шести факторов.
Диалоговое окно Factor Analysis:Rotation (Факторный анализ: Вращение)
Диалоговое окно Factor Analysis:Rotation (Факторный анализ: Вращение)
Факторный анализ
Факторный анализФакторный анализ это процедура, с помощью которой большое число переменных, относящихся к имеющимся наблюдениям сводит к меньшему количеству независимых влияющих величин, называемых факторами. При этом в один фактор объединяются переменные, сильно коррелирующие между собой. Переменные из разных факторов слабо коррелируют между собой. Таким образом, целью факторного анализа является нахождение таких комплексных факторов, которые как можно более полно объясняют наблюдаемые связи между переменными, имеющимися в наличии.
Компонентная диаграмма без вращения
Компонентная диаграмма без вращения
На этой диаграмме в графическом виде представлены факторные нагрузки обоих факторов. Для интерпретации факторов было бы оптимально, если бы точки лежали ближе к осям и подальше от точки начала отсчёта; тогда каждая переменная имела бы значительную нагрузку для одного фактора и незначительную для другого. Этого можно достичь поворотом осей против часовой стрелки, причём ортогональность системы координат (прямой угол между осями) должна сохраниться. В данном двумерном примере это вращение можно представить себе довольно наглядно, математически же подобный поворот можно произвести также и в и—мерном пространстве (то есть при наличии произвольного количества факторов).
Альтернативой прямоугольному (ортогональному) вращению является косоугольное вращение. В этом случае после вращения оси не сохраняют прямой угол по отношению друг к другу. В то время как при прямоугольном вращении корреляция между факторами отсутствует, то при косоугольном вращении этот принцип нарушается — факторы могут коррелировать между собой.
SPSS предлагает в общей сложности пять методов вращения: три метода для ортогонального вращения, один для косоугольного и еще один, который является комбинацией двух видов вращения. Эти методы Вы можете активировать через выключатель Rotation... (Вращение) в диалоговом окне Factor Analysis: Rotation (Факторный анализ: Вращение).
Компонентная диаграмма после вращения
Компонентная диаграмма после вращения
На диаграмме стало заметно смещение факторных нагрузок в сторону главных осей.
Факторный анализ является самым излюбленным приёмом практических статистиков, служащим для сокращения количества переменных. Наиболее интересной частью факторного анализа является толкование получающихся факторов, над которым, правда, придётся поразмыслить и применить весь имеющийся опыт.
Точечная диаграмма
Точечная диаграмма
Задачи статистики в пакете SPSS
Системные требования для инсталляции
2. 1 Системные требования для инсталляции SPSS 10.0Чтобы вы могли использовать SPSS 10.0 для Windows на своем компьютере, аппаратное и программное обеспечение должны удовлетворять следующим минимальным требованиям:
В следующем описании мы исходим
2.2 Инсталляция SPSS 11.5В следующем описании мы исходим из того, что на вашем компьютере установлена операционная система Windows 98 или Windows 2000.
Создание ярлыка
2.3 Создание ярлыкаМы предполагаем, что в дальнейшем вы часто будете работать с SPSS и вам будет необходим быстрый доступ к этой программе. Поэтому мы предлагаем вам создать для нее ярлык.
Вы можете запускать SPSS прямо с рабочего стола. Для этого достаточно просто дважды щелкнуть на значке SPSS.
Установка рабочего каталога
2.4 Установка рабочего каталогаТеперь мы должны установить рабочий каталог. В этом каталоге будут храниться создаваемые вами файлы данных и выходные файлы. В дальнейшем в рабочий каталог надо будет скопировать файлы с компакт-диска примеров (см. главу 2.5). Мы рекомендуем дать этому каталогу имя SPSSBOOK.
Чтобы задать рабочий каталог, поступите следующим образом.
Инсталляция прилагаемого компакт-диска
2.5 Инсталляция прилагаемого компакт-дискаСейчас мы скопируем содержимое компакт-диска примеров в только что установленный каталог SPSSBOOK. Поступите следующим образом:
C:\SPSSBOOK\>
Возобновление лицензии
2.6 Возобновление лицензииЕсли срок действия вашей лицензии на SPSS истек и вы приобрели лицензию на новый период, можно возобновить лицензию, не повторяя весь процесс инсталляции заново. Для этого служит программа licrenew.exe.
Добавление компонентов
2.7 Добавление компонентовЧтобы добавить компоненты, например, другие модули SPSS, следует запустить файл setup.exe с компакт-диска. После этого можно выбрать любые компоненты или функции. Убедитесь, что выбраны все функции — как вновь добавляемые, так и уже установленные. Если в SPSS добавляется новый модуль, следует также ввести новый код лицензии.
Диалоговое окно Свойства: SPSS 10
Диалоговое окно Свойства: SPSS 10
Теперь рабочий каталог задан. В дальнейшем SPSS будет использовать его как стандартный каталог (Default Directory).
Инсталляция
ИнсталляцияВ этой главе мы покажем, как установить SPSS с компакт-диска, создать ярлык на эту программу и задать рабочий каталог. Далее мы расскажем об установке прилагаемого к книге компакт-диска примеров.
Начальный экран программы инсталляции
Начальный экран программы инсталляции
Наконец, программа инсталляции SPSS 11.5 для Windows готова к работе. Прежде чем запускать ее, рекомендуется закрыть все программы Windows.
На следующем этапе работы мастера требуется ввести данные пользователя. Здесь следует указать серийный номер SPSS.
Переход на уровень MS-DOS
Переход на уровень MS-DOS
Создание ярлыка
Создание ярлыка
Теперь мы должны зарегистрировать вновь созданный каталог SPSSBOOK как рабочий каталог для SPSS 10.0.
Сведения о пользователе
Сведения о пользователе
Ввод кода лицензии
Ввод кода лицензии
Принцип кластерного анализа
20.1 Принцип кластерного анализаДля рассмотрения принципа кластерного анализа выберем сначала очень простой пример.
Иерархический кластерный анализ с двумя переменными
20.2.1 Иерархический кластерный анализ с двумя переменнымиСоберём заданные 17 сортов пива в кластеры при помощи параметров kalorien (калории) и kosten (расходы).
Иерархический кластерный анализ с более чем двумя переменными
20.2.2 Иерархический кластерный анализ с более чем двумя переменнымиРассмотрим пример из области кадровой политики некоего предприятия. 18 претендентов прошли 10 различных тестов в кадровом отделе предприятия. Максимальная оценка, которую можно было получить на каждом из тестов, составляет 10 балов. Список тестов был следующим:
| № теста | Предмет теста |
| 1 | Память на числа |
| 2 | Математические задачи |
| 3 | Находчивость при прямом диалоге |
| 4 | Тест на составление алгоритмов |
| 5 | Уверенность во время выступления |
| 6 | Командный дух |
| 7 | Находчивость |
| 8 | Сотрудничество |
| 9 | Признание в коллективе |
| 10 | Сила убеждения |
Agglomeration Schedule
| (Порядок агломерации) | ||||||
| Stage (Шаг) | Cluster Combined (Объединение в кластеры) | Coefficients (Коэф-фициенты) | Stage Cluster First Appears (Шаг, на котором кластер появляется впервые) | Next Stage (Следую-щий шаг) | ||
| Cluster 1 (Кластер 1) | Cluster 2 (Кластер 2) | Cluster 1 (Кластер 1) | Cluster 2 (Кластер 2) | |||
| 1 | 1 | 4 | ,000 | 0 | 0 | 6 |
| 1 | 14 | 18 | 2,000 | 0 | 0 | 4 |
| 3 | 12 | 15 | 2,000 | 0 | 0 | 6 |
| 4 | 9 | 14 | 2,000 | 0 | 2 | 8 |
| 5 | 2 | 10 | 2,000 | 0 | 0 | 13 |
| 6 | 1 | 12 | 3,000 | 1 | 3 | 15 |
| 7 | 13 | 16 | 4,000 | 0 | 0 | 12 |
| 8 | 9 | 11 | 4,000 | 4 | 0 | 11 |
| 9 | 5 | 7 | 5,000 | 0 | 0 | 14 |
| 10 | 6 | 17 | 6,000 | 0 | 0 | 13 |
| 11 | 3 | 9 | 6,000 | 0 | 8 | 15 |
| 12 | 8 | 13 | 7,000 | 0 | 7 | 14 |
| 13 | 2 | 6 | 7,500 | 5 | 10 | 16 |
| 14 | 5 | 8 | 12,833 | 9 | 12 | 16 |
| 15 | 1 | 3 | 194,000 | 6 | 11 | 17 |
| 16 | 2 | 5 | 198,500 | 13 | 14 | 17 |
| 17 | 1 | 2 | 219,407 | 15 | 16 | 0 |
Cluster Membership (Принадлежность к кластеру)
| Case (Случай) | 4 Clusters (4 кластера) |
| 1:VolkerR | 1 |
| 2:Sigrid К | 2 |
| 3:Elmar M | 3 |
| 4:Peter В | 1 |
| 5:Otto R | 4 |
| 6:Elke M | 2 |
| 7:Sarah К | 4 |
| 8:PeterT | 4 |
| 9:Gudrun M | 3 |
| 10:Siglinde P | 2 |
| 1 1 :Werner W | 3 |
| 12:Achim Z | 1 |
| 13:DieterK | 4 |
| 14:Boris P | 3 |
| 15:Silke W | 1 |
| 16:ClaraT | 4 |
| 17:Manfred К | 2 |
| 18:Richard M | 3 |
| | Кластер 1 | Кластер 2 | Кластер 3 | Кластер 4 |
| Память на числа | 10,00 | 10,00 | 4,20 | 4,80 |
| Математические задачи | 10,00 | 10,00 | 4,80 | 4,40 |
| Находчивость при прямом диалоге | 9,00 | 4,25 | 10,00 | 4,00 |
| Тест на составление алгоритмов | 10,00 | 10,00 | 4,40 | 4,00 |
| Уверенность во время выступления | 10,00 | 4,75 | 10,00 | 4,20 |
| Командный дух | 9,50 | 4,50 | 4,40 | 10,00 |
| Находчивость | 9,25 | 3,75 | 10,00 | 4,40 |
| Сотрудничество | 9,75 | 4,25 | 4,00 | 10,00 |
| Признание в коллективе | 10,00 | 4,25 | 3,80 | 10,00 |
| Сила убеждения | 9,50 | 4,25 | 10,00 | 5,00 |
В примерах, подобных этому, перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который большое количество переменных заменяет меньшим количеством факторов. Продемонстрируем данный процесс на следующем примере.
Иерархический кластерный анализ с предварительным факторным анализом
20.2.3 Иерархический кластерный анализ с предварительным факторным анализомРассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:
| Переменная | Значение |
| land | Страна |
| sb | Процент городского населения |
| lem | Средняя продолжительность жизни мужчин |
| lew | |
| ks | Детская смертность на 1000 новорожденных |
| so | Количество часов ясной погоды в году |
| nt | Количество дней пасмурной погоды в году |
| tjan | Средняя дневная температура в январе |
| tjul | Средняя дневная температура в июле |
Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных (от непосредственного указания стран мы здесь воздержимся) становится заметным, что данные, содержащиеся в файле связаны исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки. Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.
Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который вы можете провести, выбрав в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)
Если Вы проведёте факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem. lew, ks и sb, а во второй фактор - переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причём высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают тёплый и сухой климат. Вместе с тем, Вы наверняка заметили, что в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Вы можете рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами fac1_1 и fac2_1. Чтобы Вам не пришлось самостоятельно проводить факторный анализ на этом этапе, указанные переменные уже включены в файл europa.sav. Вы можете видеть, к примеру, что высокой продолжительностью жизни обладают северные страны (высокие значения переменной fac1_1) или южные страны с тёплым и сухим климатом (высокие значения переменной fac2_1). Факторные значения можно вывести с помощью меню Analyze (Анализ) Reports (Отчёты) Case Summaries... (Итоги по наблюдениям)
Они выглядят следующим образом:
Case Summaries a (Итоги по наблюдениям)
| LAND (Страна) | Lebenserwartung (Ожидаемая продолжительность жизни) | Klima (Климат) | |
| 1 | ALBA | -1,78349 | ,57155 |
| 2 | BELG | ,55235 | -,57937 |
| 3 | BULG | -,43016 | -,13263 |
| 4 | DAEN | ,97206 | -,23453 |
| 5 | DDR | ,26961 | -,3351 1 |
| 6 | DEUT | ,19121 | -,44413 |
| 7 | FINN | -,30226 | -1,28467 |
| 8 | FRAN | 1,05511 | 1,04870 |
| 9 | GRIE | ,12794 | 2,65654 |
| 10 | GROS | ,75443 | -,05221 |
| 11 | IRLA | ,16370 | -,66514 |
| 12 | ISLA | 1,75315 | -,97421 |
| 13 | ITAL | ,40984 | 1,68933 |
| 14 | JUGO | -2,63161 | -,44127 |
| 15 | LUXE | -.16469 | -,98618 |
| 16 | NIED | 1,31001 | -,29362 |
| 17 | NORW | ,96317 | -,46987 |
| 18 | OEST | -,20396 | -,31971 |
| 19 | POLE | -,65937 | -,92081 |
| 20 | PORT | -1,10510 | 1,59478 |
| 21 | RUMA | -1,32450 | ,09481 |
| 22 | SCHD | 1,22645 | -,20543 |
| 23 | SCHZ | , 56289 | -,45454 |
| 24 | SOWJ | -,67091 | -1,32517 |
| 25 | SPAN | , 83627 | 1,91193 |
| 26 | TSCH | -,59407 | -,40632 |
| 27 | TUER | -,52049 | 1,04424 |
| 28 | UNGA | -,75761 | -,08695 |
| Total N | 28 | 28 | 28 |
Распределим эти 28 стран по кластерам при помощи двух факторов: ожидаемая продолжительность жизни и климат.
| (Порядок агломерации) | ||||||
| Stage (Шаг) | Cluster Combined (Объединение в кластеры) | Coefficients (Коэф-фициенты) | Stage Cluster First Appears (Шаг, на котором кластер появляется впервые) | Next Stage (Следу-ющий шаг) | ||
| Cluster 1 (Кластер 1) | Cluster 2 (Кластер 2) | Cluster 1 (Кластер 1) | Cluster 2 (Кластер 2) | |||
| 1 | 16 | 22 | 1,476 | 0 | 0 | 8 |
| 2 | 2 | 23 | 1,569 | 0 | 0 | 10 |
| 3 | 5 | 6 | 1,803 | 0 | 0 | 5 |
| 4 | 4 | 17 | 5,546 | 0 | 0 | 8 |
| 5 | 5 | 11 | 8,487 | 3 | 0 | 10 |
| 6 | 3 | 18 | 8,617 | 0 | 0 | 12 |
| 7 | 7 | 15 | ,108 | 0 | 0 | 15 |
| 8 | 4 | 16 | ,118 | 4 | 1 | 13 |
| 9 | 26 | 28 | ,129 | 0 | 0 | 12 |
| 10 | 2 | 5 | ,148 | 2 | 5 | 18 |
| 11 | 19 | 24 | ,164 | 0 | 0 | 15 |
| 12 | 3 | 26 | ,183 | 6 | 9 | 20 |
| 13 | 4 | 10 | ,228 | 8 | 0 | 18 |
| 14 | 13 | 25 | ,231 | 0 | 0 | 19 |
| 15 | 7 | 19 | ,254 | 7 | 11 | 20 |
| 16 | 1 | 21 | ,438 | 0 | 0 | 22 |
| 17 | 20 | 27 | ,645 | 0 | 0 | 22 |
| 18 | 2 | 4 | ,648 | 10 | 13 | 21 |
| 19 | 8 | 13 | ,810 | 0 | 14 | 23 |
| 20 | 3 | 7 | ,939 | 12 | 15 | 24 |
| 21 | 2 | 12 | 1,665 | 18 | 0 | 24 |
| 22 | 1 | 20 | 1,793 | 16 | 17 | 25 |
| 23 | 8 | 9 | 1,839 | 19 | 0 | 27 |
| 24 | 2 | 3 | 2,229 | 21 | 20 | 26 |
| 25 | 1 | 14 | 4,220 | 22 | 0 | 26 |
| 26 | 1 | 2 | 5,925 | 25 | 24 | 27 |
| 27 | 1 | 8 | 6,957 | 26 | 23 | 0 |
Принадлежность наблюдений к кластерам можно взять из нижеследующей таблицы, которая содержит также и информацию о принадлежности к кластерам для других вариантов решения (пять, три и два кластера).
Если Вы посмотрите на четырёхкластернное решение на нижеследующей таблице, то заметите, к примеру, что к третьему кластеру относятся следующие страны: Франция, Греция, Италия и Испания. Это страны с высокой продолжительностью жизни и тёплым климатом и поэтому не зря они являются предпочтительными для отдыха.
Cluster Membership (Принадлежность к кластеру)
| Case (Случай) | 5 Clusters (5 кластеров) | 4 Clusters (4 кластера) | 3 Clusters (3 кластера) | 2 Clusters (2 кластера) |
| 1:ALBA | 1 | 1 | 1 | 1 |
| 2:BELG | 2 | 2 | 2 | 1 |
| 3:BULG | 3 | 2 | 2 | 1 |
| 4:DAEN 5:DEUT | 2 | 2 | 2 | 1 |
| 6:DDR | 2 | 2 | 2 | 1 |
| 7:FINN | 3 | 2 | -3 | 2 |
| 8:FRAN | 4 | 3 | -3 | 2 |
| 9:GRIE | 4 | 2 | 2 | 1 |
| 10:iGROS | 2 | | 2 | 1 |
| 11:IRLA | 2 | 2 | 2 | 1 |
| 12:ISLA | 2 | 3 | о | 2 |
| 13:ITAL | 4 | 4 | 1 | 1 |
| 14:JUGO | 5 | 2 | 2 | 1 |
| 1 5:LUXE | 3 | 2 | 2 | 1 |
| 16:NIED | 2 | | 2 | 1 |
| 17:NORW | 2 | 2 | 2 | 1 |
| 18:OEST | 3 | 2 | 2 | 1 |
| 19:POLE | 3 | 2 1 | 1 | 1 |
| 20:PORT | 1 | 1 | 1 | 1 |
| 21:RUMA | 1 | 2 | | 1 |
| 22:SCHD 23:SCHZ | 2 | 2 | 2 | 1 |
| 24:SOWJ | 3 | 1 | i | 2 |
| !25:SPAN | 4 | 1 | | |
| 26:TSCH | 3 | 1 | 1 | 1 |
| 27:TUER 28:UNGA | 1 | 2 | 1 | 1 |
Иерархический кластерный анализ
20.2 Иерархический кластерный анализВ иерархических методах каждое наблюдение образовывает сначала свой отдельный кластер. На первом шаге два соседних кластера объединяются в один; этот процесс может продолжаться до тех пор, пока не останутся только два кластера. В методе, который в SPSS установлен по умолчанию (Between-groups linkage (Связь между группами)), расстояние между кластерами является средним значением всех расстояний между всеми возможными парами точек из обоих кластеров.
Переменные, относящиеся к интервальной шкале (метрические переменные)
20.3.1 Переменные, относящиеся к интервальной шкале (метрические переменные)Для переменных такого рода на выбор предлагается восемь различных мер расстояния и мер сходства, которые мы и рассмотрим далее. Примером расчёта послужат два наблюдения из файла assess.sav (см. гл. 20.3), для которых расстояние и подобие должны быть рассчитаны с использованием переменных t3 и t4:
|
|
t3 |
t4 |
|
Отто P. |
5 |
4 |
|
Эльке М. |
4 |
10 |
Евклидова дистанция между двумя точками х и у — это наименьшее расстояние между ними. В двух- или трёхмерном случае — это прямая, соединяющая данные точки. Общей формулой для n-мерного случая (л переменных) является: 1
Сокращение dist, как и в следующей формуле, соответствует слову дистанция. Для ! приведенного примера получим
Квадрат евклидового расстояния Этот вариант устанавливается по умолчанию. Благодаря возведению в квадрат при расчёте лучше учитываются большие разности. Эта мера должна всегда использоваться при построении кластеров при помощи центроидного и медианного методов, а также метода Варда (Ward-Method) (см. разд. 20.5).
Для приведенного примера имеем cfot=(5-4)2 + (4-10)2 =37 Косинус
Как и для корреляционных коэффициентов Пирсона, область значений этой меры находится между -1 и +1.
Для приведенного примера имеем
Корреляция Пирсона Если кластеризация наблюдений осуществляется только на основании двух переменных, то корреляционный коэффициент Пирсона (см. разд. 15.1) со значениями находящимися в пределах от -1 до +1 не годится для использования в качестве меры подобия; он будет давать только значения -1 или +1.
Чебышев (Chebychev)
Разностью двух наблюдений является абсолютное значение максимальной разности последовательных пар переменных, соответствующих этим наблюдениям.
В приведенном примере абсолютная разность значений первой переменной равна 1, а второй переменной — 6. Поэтому разность Чебышева равна 6.
Блок (Block)
Эта дистанционная мера, называемая также дистанцией Манхэттена или в шутку — дистанцией таксиста, определяется суммой абсолютных разностей пар значений. Для двумерного пространства это не прямолинейное евклидова расстояние между двумя точками, а путь, который должен преодолеть Манхэттенский таксист, чтобы проехать от одного дома к другому по улицам, пересекающимся под прямым углом.
Для нашего примера имеем dfst = |5-4| + |4-10| = 7 Минковский (Minkowski)
Расстояние Минковского равно корню r-ой степени из суммы абсолютных разностей пар значений взятых в r-ой степени:
В SPSS при расчете этого расстояния допускается применение только квадратного корня, в то время как степень разности значений можно выбрать в пределах от 1 до 4. Если эту степень взять равной 2, то получим евклидово расстояние. Пользовательская мера
Это обобщенный вариант расстояния Минковского. Это расстояние, называемое также степенным расстоянием, равно корню r-ой степени из суммы абсолютных разностей пар значений взятой в р-ой степени:
Здесь как для корня, так и для степени суммы можно выбирать значения от 1 до 4. Частоты
20.3.2 ЧастотыВ качестве примера возьмём файл laender.sav, в котором значения переменных отображают частоты. В файле находится текстовая переменная land (федеральная земля) и три переменные cdu, spd и andere (другие). Для шестнадцати земель Федеративной Республики Германия в 1994 году эти переменные отображают количество мест в земельном парламенте, принадлежащих двум основным партиям — CDU и SPD, а также места, относящиеся к другим партиям.
Для того, чтобы найти расстояние между двумя наблюдениями, сравнивают частоты выпадения переменных, относящихся к этим наблюдениям. В качестве примера рассмотрим две федеративные земли: Хессен и Тюринген:
| CDU | SPD | Andere (Другие) | |
| Хессен | 46 | 46 | 18 |
| Тюринген | 43 | 21 | 25 |
В приведенном примере значение хи-квадрат получилось равным 8,447 значит дистанционная мера равна 2,9064.
Мера фи-квадрат
Эта мера представляет собой попытку нормализации меры хи-квадрат. Для этого она делится на квадратный корень общей суммы частот.
В рассматриваемом примере сумма частот для двух земель Хессен и Тюринген равна 199, так что мера фи-квадрат получается равной 0,2060.
Если Вы в качестве дистанционной меры выберите меру хи-квадрат, то получите результат, в котором оптимальным решением окажется решение с пятью кластерами. Два самых больших кластера образовываются землями, в которых CDU или SPD имеют большинство мест, один кластер — землями Бранденбург и Бремен, в управлении которых относительно велико представительство других партий, один кластер образует Бавария, в связи с абсолютно доминирующей ролью CDU и один кластер — Саксония, тоже в связи с доминирующей ролью CDU, но с некоторой долей других партий, которая больше доли SPD.
Бинарные переменные
20.3.3 Бинарные переменныеЗдесь, как правило, речь идёт о переменных, которые указывают на факт осуществления некоторого события или выполнения определённого критерия. В файле данных это обстоятельство должно быть закодировано при помощи двух численных значений, причём в соответствии с установками по умолчанию, SPSS для кодировки осуществления события ожидает цифру 1.
Если сопоставить друг с другом две переменные, то все возможные сочетания наблюдений дают четыре различные частоты, которые называются а, Ь, с, d и имеют следующий смысл:
| Переменная 2 | |||
| сбылось | не сбылось | ||
| Переменная 1 | Сбылось | а | b |
| Не сбылось | с | d |
Квадрат евклидовою расстояния
Бинарное евклидово расстояние, возведенное в квадрат, представляет собой количество наблюдений, для которых, по крайней мере, один из критериев присутствует и один отсутствует. Эта мера является установкой по умолчанию.
dist= b + с
Евклидово расстояние
Бинарное евклидово расстояние представляет собой корень из числа наблюдений, для которых, по крайней мере, один из критериев присутствует и один отсутствует.
Разность длин Эта мера имеет минимальное значение равное 0 и не имеет верхнего придела.
Образцовая разность Образцовая разность может принимать значения от 0 до 1.
Дисперсия Дисперсия имеет минимальное значение равное 0 и не имеет верхнего придела.
Форма У этой дистанционной меры нет ни нижнего ни верхнего предела
Мера Ланса и Уильямса (Lance and Williams) Эта мера может принимать значения от 0 до 1.
Приведенные меры отличаются друг от друга присутствием в соответствующей формуле различных наборов из четырёх частот: а, b, с и d Так, для евклидовой меры в расчёт включают только те наблюдения, для которых имеется один признак и отсутствует другой, а в других дистанционных формулах учитываются все частоты. Исключением является дистанционная мера по Лансу и Уильямсу, в которой в расчет не берутся те наблюдения, для которых отсутствуют оба признака.
На какой мере Вы остановите свой выбор, зависит от того, какую роль вы отводите частотам а, b, с и d.
Меры расстояния и меры сходства
20.3 Меры расстояния и меры сходстваОсновой кластеризации (образования групп) наблюдений является дистанционная матрица и матрица подобия наблюдений. Так как расстояние (дистанция) также применяется и для оценки подобия, то разница между этими двумя матрицами не велика. В зависимости от того, к какой шкале измерений относятся переменные, участвующие в анализе, SPSS предлагает различные дистанционные меры и меры подобия.
Методы объединения
20.4 Методы объединенияSPSS предлагает, в общей сложности, семь методов объединения. Из них метод Связь между группами (Between-groups linkage) устанавливается по умолчанию.
Связь между группами
Дистанция между кластерами равна среднему значению дистанций между всеми возможными парами наблюдений, причём один наблюдения берётся из одного кластера, а другой из другого. Информация, необходимая для расчёта дистанции, находится на основании всех теоретически возможных пар наблюдений. По этой причине данный метод и устанавливается по умолчанию.
Связь внутри групп
Это вариант связи между группами, а именно, здесь дистанция между двумя кластерами рассчитывается на основании всех возможных пар наблюдений, принадлежащих обоим кластеров, причём учитываются также и пары наблюдений, образующиеся внутри кластеров.
Близлежащий сосед
Дистанция между двумя кластерами определяется, как расстояние между парой значений наблюдений, расположенных друг к другу ближе всего, причём каждое наблюдение берётся из своего кластера.
Дальний сосед
Дистанция между двумя кластерами определяется как расстояние между самыми удалёнными друг от друга значениями наблюдений, причём каждое наблюдение берётся из своего кластера.
Центроидная кластеризация
В обоих кластерах рассчитываются средние значения переменных относящихся к ним наблюдений. Затем расстояние между двумя кластерами рассчитывается как дистанция между двумя осредненными наблюдениями.
Медианная кластеризация
Этот метод похож на центроидную кластеризацию. Однако в предидущем методе центроид нового кластера получается как взвешенное среднее центроидов обоих исходных кластеров, причём количества наблюдений исходных кластеров образовывают весовой коэффициент. В медианном же методе оба исходных кластера берутся с одинаковым весом.
Метод Варда (Ward-Method)
Сначала в обоих кластерах для всех имеющихся наблюдений производится расчёт средних значений отдельных переменных. Затем вычисляются квадраты евклидовых расстояний от отдельных наблюдений каждого кластера до этого кластерного среднего значения. Эти дистанции суммируются. Потом в один новый кластер объединяются те кластера, при объединении которых получается наименьший прирост общей суммы дистанций. Так как некоторые из предлагаемых методов имеют явные недостатки (Близлежащий сосед, Дальний сосед), а другие очень мало наглядны и плохо поддаются последующему анализу, рекомендуется применять устанавливаемый по умолчанию и наиболее понятный метод Between-groups linkage (Связь между группами).
Кластерный анализ при большом количестве наблюдений (Кластерный анализ методом к-средних)
20.5 Кластерный анализ при большом количестве наблюдений (Кластерный анализ методом к-средних)Иерархические методы объединения, хотя и точны, но трудоёмки: на каждом шаге необходимо выстраивать дистанционную матрицу для всех текущих кластеров. Расчётное время растёт пропорционально третьей степени количества наблюдений, что при наличии нескольких тысяч наблюдений может утомить и серьёзные вычислительные машины.
Поэтому при наличии большого количества наблюдений применяют другие методы. Недостаток этих методов заключается в том, что здесь необходимо заранее задавать количество кластеров, а не так как в иерархическом анализе, получить это в качестве результата Эту проблему можно преодолеть проведением иерархического анализа со случайно отобранной выборкой наблюдений и, таким образом, определить оптимальное количество кластеров. Если количество кластеров указать предварительно, то появляется следующая проблема: определение начальных значений центров кластеров. Их также можно взять из предварительно проведённого иерархического анализа, в котором для каждого наблюдения рассчитывают средние значения переменных, использовавшихся при анализе, а потом в определённой форме сохраняют их в некотором файле. Этот файл может быть затем прочитан методом, который применяется для обработки больших количеств наблюдений. Если нет желания проходить весь этот длинный путь, то можно воспользоваться методом, предлагаемым для данного наблюдения программой SPSS. Если количество кластеров k, которое необходимо получить в результате объединения, задано заранее, то первые k наблюдений, содержащихся в файле, используются как первые кластеры. На последующих шагах кластерный центр заменяется наблюдением, если наименьшее расстояние от него до кластерного центра больше расстояния между двумя ближайшими кластерами. По этому правилу заменяется тот кластерный центр, который находится ближе всего к данному наблюдению. Таким образом получается новый набор исходных кластерных центров. Для завершения шага процедуры рассчитывается новое положение центров кластеров, а наблюдения перераспределяются между кластерами с изменённым центрами. Этот итерационный процесс продолжается до тех пор, пока кластерные центры не перестанут изменять свое положение или пока не будет достигнуто максимальное число итераций.
В качестве примера расчёта по этому алгоритму, рассмотрим выборку из результатов исследований Института социологии Марбургского Университета им. Филипса, в котором проводился опрос 1000 студентов относительно использования ими компьютера и их отношения к современным информационным и телекоммуникационным технологиям. В разделе "Пользование компьютерными программами" были представлены следующие вопросы с различным количеством подпунктов, на которые необходимо было ответить в соответствии с пятибальной шкалой (от отлично до абсолютно не использую):
1. Насколько свободно вы можете работать в следующих приложениях?
Обработка текста, Графические программы, обработка звука или видео, монтаж Базы данных и табличные расчёты
2. Насколько хорошо вы владеете следующими языками программирования?
BASIC, Paskal ,С, Машинные языки, Программирование для Интернета(к примеру, HTML), Java
3. Насколько хорошо Вы можете работать в следующих операционных системах?
DOS , Windows ,UNIX
4. Насколько хорошо Вы разбираетесь в следующих возможностях Интернета?
E-mail, группы новостей, почтовая рассылка, Путешествие по всемирной сети Интернет, Chat, IRC, ICQ, Предложение собственных услуг(к примеру, домашней страницы)
5. Насколько хорошо Вы разбираетесь в играх?
Как часто Вы играете в компьютерные игры, Насколько хорошо Вы ориентируетесь в сценах компьютерных игр?
Ответы на эти вопросы хранятся в переменных vla-v5b в файле computer.sav. В этом файле также находятся и другие переменные, использовавшиеся при исследовании (пол, возраст, место жительства, профессия). На основании вопросов об использовании программных продуктов попытаемся определить группы (кластеры) пользователей. Для начала рекомендуется сократить количество переменных при помощи факторного анализа, как описано в разделе 20.2.3.
Факторная матрица красноречиво демонстрирует, что отобранные факторы могут быть расположены в следующей смысловой последовательности (по убыванию значимости):
| (Повёрнутая матрица компонентов) | ||||
| | Component (Компонент) | |||
| 1 | 2 | 3 | 4 | |
| Textverarbeitung (Обработка текста) | ,848 | | | |
| Windows | ,840 | | | |
| DOS | ,653 | | | |
| WWW | ,619 | | | |
| Datenbanken (Базы данных и табличные расчёты) | ,611 | | | |
| Multimedia (Мультимедиа) | ,535 | | | |
| С | | ,771 | | |
| Maschinensprache (Машинные языки) | | ,741 | | |
| PASCAL | | ,729 | | |
| BASIC | | ,612 | | |
| Java | | ,606 | ,474 | |
| UNIX | | ,587 | ,504 | |
| Chat | | | ,699 | |
| eigene Dienste (Предложение собственных услуг ) | | | ,696 | |
| Internetsprachen (Программирование для Интернет) | | ,468 | ,670 | |
| Email | ,584 | | ,609 | |
| ICQ | | | ,601 | |
| Szene (Сцены компьютерных игр) | | | | ,881 |
| Intensitaet (Интенсивность) | | | | ,850 |
Rotation Method: Varimax with Kaiser Normalization (Метод вращения: варимакс с нормализацией Кайзера).
a. Rotation converged in 11 iterations (Вращение осуществлено за 11 итераций).
Теперь используем сохранённые нами значения этих четырёх факторов для проведения кластерного анализа для студентов. Так как количество наблюдений равное 1085 слишком велико для иерархического кластерного анализа, выберем метод анализа кластерных центров.
Данные файла bier.sav в редакторе данных
Данные файла bier.sav в редакторе данных
Переменная herkunft (производитель) указывает на страну-производителя пива, где США закодированы с помощью единицы. Расходы (kosten) приведены в долларах США для ёмкости равной 12 унциям для жидкости (примерно одна треть литра); калорийность указана для одинакового количества пива. Содержание алкоголя приводится в процентах.
Возьмём переменные kalorien (калории) и kosten (расходы) и представим их при помощи простой диаграммы рассеяния.
Вы увидите четыре отдельных отчётливых группировки точек, три из них в нижней половине диаграммы и одну в верхнем правом углу. Следовательно, переменные kalorien (калории) и kosten (расходы), явно распадаются на четыре различных кластера по сортам пива.
Сорта пива, которые по значениям двух рассмотренных переменных похожи друг на друга, принадлежат к одному кластеру; сорта пива, находящиеся в различных кластерах, не похожи друг на друга. Решающим критерием для определения схожести и различия двух сортов пива является расстояние между точками на диаграмме рассеяния, соответствующими этим сортам.
Самой распространенной мерой для определения расстояния между двумя точками на плоскости, образованной координатными осями х и у, является евклидова мера:
Диаграмма рассеяния переменных kalorien (калории) и kosten (расходы)
Диаграмма рассеяния переменных kalorien (калории) и kosten (расходы)
В соответствии с этой формулой расстояние между сортами пива Budweisei Heineken составляет:
Это расстояние лишь незначительно превосходит то, которое получилось бы, если бы для расчета была взята только одна переменная — kalorien (калории): |144 - 152 | = 8
Данный эффект можно объяснить тем, что уровни значений переменных kalorien (калории) и kosten (расходы) очень сильно отличаются друг от друга: у переменной kosten (расходы) значения меньше 1, а у переменной kalorien (калории) больше 100. Согласно формуле евклидовой меры, переменная, имеющая большие значения, практически полностью доминирует над переменной с малыми значениями.
Решением этой проблемы является рассмотренное в главе 19.1 z-преобразование (стандартизация) значений переменных. Стандартизация приводит значения всех преобразованных переменных к единому диапазону значений, а именно от —3 до +3.
Если Вы произведёте такое преобразование для переменных kalorien (калории) и kosten (расходы), то для пива Budweiser получите стандартизованные значения равные 0,400 и —0,469 соответственно, а для пива Heineken стандартизированные значения 0,649 и 1,848 соответственно.
Тогда расстояние между двумя сортами пива получится равным
Таким образом, при помощи диаграммы рассеяния для двух переменных: kalorien (калории) и kosten (расходы), мы провели самый простой кластерный анализ. Мы выбрали такой вид графического представления, с помощью которого можно было бы отчётливо распознать группирование в кластеры (четыре в нашем случае). К сожалению, столь отчётливая картина отношений между переменными, как в приведенном примере, встречается очень редко. Во-первых, структуры кластеров, если вообще таковые имеются, не так чётко разделены, особенно при наличии большого количества наблюдений. Скорее наоборот, кластеры размыты и даже проникают друг в друга. Во-вторых, как правило, кластерный анализ проводится не с двумя, а с намного большим количеством переменных.
При кластерном анализе с тремя переменными можно ввести ещё одну ось — ось z и рассматривать размещение наблюдений, а также проводить расчёт расстояния по формуле евклидовой меры в трёхмерном пространстве.
При наличии более трёх переменных определение расстояния между двумя точками х и у в любом n-мерном пространстве для математиков не представляет особого труда. Формула Евклида в таких случаях приобретает следующий вид:
Наряду с евклидовой мерой расстояния, SPSS предлагает и другие дистанционные меры, а также меры подобия. Так что кластерный анализ можно проводить не только с переменными, относящимися к интервальной шкале, как в приведенном случае, но и с дихотомическими переменными, к примеру. В таком ситуации применяется уже другие дистанционные меры и меры подобия (см. разд. 20.3). При проведении кластерного анализа отдельные кластеры могут формироваться при помощи пошагового слияния, для которого существует ряд различных методов (см. разд. 20.4). Важную роль играют иерархические и партиционные методы, причём последние применяются в подавляющем большинстве случаев. Оба эти метода можно задействовать, если пройти через меню Analyze (Анализ) Classify (Классифицировать)
Они помещены в этом меню под именами Hierarchical Cluster... (Иерархический кластер) и K-Means Cluster... (Кластерный анализ методом к-средних).
Рассмотрим сначала иерархический кластерный анализ, причём начнём с простого примера с 17 сортами пива.
Диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ)
Диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ)
Дистанционные меры и меры подобия зависят от вида переменных, участвующих в анализе, то есть выбор меры зависит от типа переменной и шкалы, к которой она относится: интервальная переменная, частоты или бинарные (дихотомические) данные. В рассматриваемом примере фигурируют данные, относящиеся к интервальной шкале, для которых по умолчанию в качестве дистанционной меры устанавливается квадрат евклидового расстояния (Squared Euclidean distance). Некоторые дистанционные меры и меры подобия будут рассмотрены в главе 20.3.
Agglomeration Schedule
| (Порядок агломерации) | ||||||
| Stage (Шаг) | Cluster Combined (Объединение в кластеры) | Coefficients (Коэффициенты) | Stage Cluster First Appears (Шаг, на котором кластер появляется впервые) | Next Stage (Следу-ющий шаг) | ||
| Cluster 1 (Кластер 1 ) | Cluster 2 (Кластер 2) | Cluster 1 (Кластер 1 ) | Cluster 2 (Кластер 2) | |||
| 1 | 5 | 12 | 8.508Е-03 | 0 | 0 | 9 |
| 2 | 10 | 17 | 2.880Е-02 | 0 | 0 | 4 |
| 3 | 2 | 3 | 4.273Е-02 | 0 | 0 | 13 |
| 4 | 8 | 10 | 6.432Е-02 | 0 | 2 | 7 |
| 5 | 7 | 13 | 8.040Е-02 | 0 | 0 | 8 |
| 6 | 1 | 15 | ,117 | 0 | 0 | 8 |
| 7 | 8 | 9 | ,206 | 4 | 0 | 14 |
| 8 | 1 | 7 | ,219 | 6 | 5 | 12 |
| 9 | 5 | 11 | ,233 | 1 | 0 | 11 |
| 10 | 14 | 16 | ,313 | 0 | 0 | 14 |
| 11 | 4 | 5 | ,487 | 0 | 9 | 16 |
| 12 | 1 | 6 | ,534 | 8 | 0 | 13 |
| 13 | 1 | 2 | ,820 | 12 | 3 | 15 |
| 14 | 8 | 14 | 1,205 | 7 | 70 | 15 |
| 15 | 1 | 8 | 4,017 | 13 | 14 | 16 |
| 16 | 1 | 4 | 6,753 | 15 | 11 | 0 |
В приведенном примере — это скачок с 1,205 до 4,017. Это означает, что после образования трёх кластеров мы больше не должны производить никаких последующих объединений, а результат с тремя кластерами является оптимальным. Визуально же мы ожидали результат с четырьмя кластерами. Оптимальным считается число кластеров равное разности количества наблюдений (здесь: 17) и количества шагов, после которого коэффициент увеличивается скачкообразно (здесь: 14).
В пояснении нуждаются ещё и три последние колонки вышеприведенной таблицы, отражающей порядок агломерации; для этого в качестве примера мы рассмотрим строку, соответствующую 14 шагу. Здесь объединяются кластеры 8 и 14. Перед этим кластер 8 уже участвовал в объединениях на шагах 4 и 7, последний раз, стало быть, на шаге 7. Строго говоря, название колонки Stage Cluster First Appears (Шаг, на котором кластер появляется впервые) можно считать ошибочным и вместо этого её следовало назвать Cluster Last Appears (Последнее появление кластера). Кластер 14 последний раз участвовал в объединении кластеров на шаге 10. Новый кластер 8 затем примет участие в объединении кластеров на шаге 15 (колонка: Next Stage (Следующий шаг)).
Далее по отдельности для результатов расчёта содержащих 5, 4, 3 и 2 кластеров, приводится таблица с информацией о принадлежности каждого наблюдения к кластеру.
Cluster Membership (Принадлежность к кластеру)
| Case (Случай) | 5 Clusters (5 кластеров) | 4 Clusters (4 кластера) | 3 Clusters (3 кластера) | 2 Clusters (2 кластера) |
| 1:Budweiser | 1 | 1 | 1 | 1 |
| 2:Lowenbrau | 2 | 1 | 1 | 1 |
| 3:Michelob | 2 | 1 | 1 | 1 |
| 4:Kronenbourg | 3 | 2 | 2 | 2 |
| 5:Heineken | 3 | 2 | 2 | 2 |
| 6:Schmidts | 1 | 1 | 1 | 1 |
| 7:Pabst Blue Ribbon | 1 | 1 | 1 | 1 |
| 8:Miller Light | 4 | 3 | 3 | 1 |
| 9:Budweiser Light | 4 | 3 | 3 | 1 |
| 10:Coors Light | 4 | 3 | 3 | 1 |
| 11:Dos Equis | 3 | 2 | 2 | 2 |
| 12:Becks | 3 | 2 | 2 | 2 |
| 13:Rolling Rock | 1 | 1 | 1 | 1 |
| 14:Pabst Extra Light | 5 | 4 | 3 | 1 |
| 15:Tuborg | 1 | 1 | 1 | 1 |
| 16:OlympiaGold Light | 5 | 4 | 3 | 1 |
| 17:Schlitz Light | 4 | 3 | 3 | 1 |
В заключение приводится затребованная нами дендрограмма, которая визуализирует процесс слияния, приведенный в обзорной таблице порядка агломерации. Она идентифицирует объединённые кластеры и значения коэффициентов на каждом шаге. При этом отображаются не исходные значения коэффициентов, а значения приведенные к шкале от 0 до 25. Кластеры, получающиеся в результате слияния, отображаются горизонтальными пунктирными линиями.
| ******HIERARCHICAL CLUSTER ANALYSIS*** Dendrogram usinc ( Average Linkage (Between Groups) | |
| Rescaled Distantce | Cluster Combine |
| CASE | 0 5 10 15 20 25 |
| Label | Hum +---- + ---- + ---- + _--_-- + ------ + |
| Heineken | 5 |
| Becks | 12 - - |
| Dos Equis | 11--------------------------------- |
| Krcnenbourg | 4 -- |
| LcMBribrau | 2 ---- |
| Michelcb | 3 - - |
| Pabst Blue Ribbon | 7 ------------------------------ |
| Rolling Rode | 13 -- - |
| Budweiser | 4 --------------- |
| Tuborg | 15 - - |
| Schmdts | 6 ---------------------- |
| Coors Light | 10 - |
| Schlitz Light | 17 - |
| Miller Light | 8 - - - - - |
| Budweiser Light | 9 ------------------- |
| Pabst Extra Light | 14 ------------------- |
| Olynpia Gold Light | 16 - ------------------- |
Для вводного рассмотрения мы выбрали довольно простой пример, включающий только две переменных. В этом случае конфигурация кластеров поддается представлению в графическом виде.
Диалоговое окно K-Means Cluster Analysis (Анализ кластерных центров)
Диалоговое окно K-Means Cluster Analysis (Анализ кластерных центров)
Final Cluster Centers
| (Кластерные центры окончательного решения) | ||||
| | Cluster (Кластер) | |||
| 1 | 2 | 3 | 4 | |
| Приложение | -,15219 | -,62362 | -,23459 | 1,16856 |
| Программирование | -2,91321 | ,232223 | ,23371 | ,05918 |
| Использование Интернет | -1,71057 | ,7232 | -.02994 | ,25268 |
| Игры | ,04717 | ,51053 | -1,51014 | ,26081 |
Если учесть всё вышесказанное, то наши четыре кластера можно интерпретировать следующим образом:
Кластер1: Программисты, Интернет-эксперты
Кластер2: Пользователи стандартного программного обеспечения
КластерЗ: Игроки
Кластер4: Начинающие пользователи
В заключение выводятся показатели количества наблюдений, относящихся к каждому из кластеров. Группа пользователей (кластер 2) наиболее многочисленна.
Number of Cases in each Cluster
| (Количество наблюдений в каждом кластере) | ||
| Cluster (Кластер) | 1 | 63,000 |
| 2 | 488,000 | |
| 3 | 221,000 | |
| 4 | 313,000 | |
| Valid (Действительные) | | 1085,000 |
| Missing (Отсутствующие) | ,000 |
Наряду с количеством кластеров можно так же, как было упомянуто в начале главы, задать и первичные кластерные центры. Для этого их необходимо определённым образом ввести в файл данных SPSS. Изучим процесс создания такого файла на рассмотренном примере,
Диалоговое окно K-Means Cluster Analysis (Анализ кластерных центров)
Диалоговое окно K-Means Cluster Analysis (Анализ кластерных центров)
Файл с первичными кластерными центрами
Файл с первичными кластерными центрами
Мы надеемся, что при помощи приведенных примеров нам удалось пробудить у Вас интерес к кластерному анализу и облегчить понимание интереснейших статистических методов.
Кластерный анализ
Кластерный анализВ результате кластерного анализа при помощи предварительно заданных переменных формируются группы наблюдений. Под наблюдениями здесь понимаются отдельные личности (респонденты) или любые другие объекты. Члены одной группы (одного кластера) должны обладать схожими проявлениями переменных, а члены разных групп различными.
Наряду с кластеризацией наблюдений в SPSS предусмотрена кластеризация переменных. Здесь на основе заданных наблюдений образовываются группы переменных. Так как в принципе то же самое делает и факторный анализ (см. гл. 19), то в этой главе мы ограничимся рассмотрением только кластеризации наблюдений.
Задачи статистики в пакете SPSS
Задания типа верно — не верно
21.1 Задания типа верно — не верноВ качестве примера, который мы хотим обработать при помощи SPSS, рассмотрим личностный тест, с помощью которого определяется степень любопытства опрашиваемых.
|
№ |
Вопрос |
Правильный ответ |
|
1 |
У Вас много книг? |
Да |
|
2 |
Ходите ли Вы за покупками всё время в одни и те же магазины? |
Нет |
|
3 |
Считаете ли Вы, что космонавтику развивать необходимо? |
Да |
|
4 |
Вас не интересует, почему на вашего соседа одели наручники? |
Нет |
|
5 |
Можете ли Вы долго заниматься чем-нибудь одним? |
Да |
|
6 |
Регулярно ли Вы смотрите новости? |
Да |
|
7 |
Знаете ли Вы, сколько человек живёт в городе, в котором проживаете Вы? |
Да |
|
8 |
Ходите ли Вы на работу всегда одной и той же дорогой? |
Нет |
|
9 |
Становится ли Вам иногда скучно? |
Нет |
|
10 |
Хотели бы Вы полететь на Луну? |
Да |
|
11 |
Читаете ли Вы ежедневные газеты регулярно? |
Да |
|
12 |
Спрашивали ли Вы уже себя, как будет выглядеть мир через сто лет? |
Да |
|
13 |
Замечаете ли вы иногда, что недовольны тем, что Вы можете и знаете? |
Да |
|
14 |
Предоставите ли Вы себя для научных экспериментов? |
Да |
|
15 |
Интересует ли Вас, сколько зарабатывает ваш сосед? |
Да |
|
16 |
Бездельничаете ли Вы во время отпуска? |
Нет |
|
17 |
Приятней ли Вам находиться в кругу большого количества друзей, нежели с одним другом? |
Да |
|
18 |
Случается ли с вами часто так, что Вы не знаете с чего начать? |
Да |
Если следовать Линерту, то для оценки пригодности отдельных пунктов следует применять нижеследующие два критерия:
Индекс сложности
В простейшем случае он представляет собой долю правильных ответов на данный вопрос, взятую в процентах от общего количества ответов. Для вопросов с несколькими возможными ответами и ступенчатыми ответами существуют модифицированные формулы. Удивительно, но для сложных вопросов индекс сложности принимает малые значения, а для лёгких большие. Вопросы с низким и высоким индексом сложности считаются не желательными.
Коэффициент избирательности
Коэффициентом избирательности, который является важным критерием для оценки применимости вопроса, служит корреляционный коэффициент между ответом на вопрос и суммарным показателем теста. В качестве суммарного показателя теста берётся сумма всех ответов. Это означает, что все правильные ответы должны иметь одинаковый знак! К сожалению, этому важному обстоятельству в справочниках уделяется не достаточно внимания. Для приведенного примера это означает, что пункты 2, 4, 8, 9 и 16 перед анализом должны быть подвергнуты перекодировке.
Для определения корреляционного коэффициента Линерт предлагает различные варианты, так, к примеру, двухрядная поточечная корреляция между заданием с ответом верно — не верно и значением масштаба или ранговая корреляция между заданием со ступенчатым ответом и значением масштаба. Как ни странно: SPSS всегда использует коэффициенты Пирсона.
Непригодные для применения пункты обычно отбираются посредством сравнения индексов сложности и избирательности. Самым простым способом является отбор сначала тех вопросов, которые обладают индексом сложности ниже 20 или выше 80, а затем из списка оставшихся вопросов исключаются те, которые имеют самые низкие коэффициенты избирательности. Линерт предлагает рассчитывать ещё и дополнительные показатели вопросов, такие как: индекс однородности, индекс пригодности, селекционный показатель и (если имеется так называемый внешний критерий) коэффициенты действительности.
Коэффициент пригодности
Коэффициент пригодности является важным критерием для оценки результата теста. Он является мерой точности, с которой проводится тестирование некоторого признака. SPSS предлагает для этой цели множество методов; по умолчанию устанавливается альфа Кронбаха (Cronbach's Alpha) со значением, модуль которого находится между 0 и 1. Обработаем наш пример при помощи SPSS.
RECODE item2, item4, item8, item9, item16 (1=2) (2=1). EXECUTE.
Задания со ступенчатыми ответами
21.2 Задания со ступенчатыми ответамиВ разделе 19.3 была представлена анкета исследования Фрайбургского университета, посвященного отношению респондентов к болезни. Эта анкета охватывает в общей сложности 35 пунктов, отображающих при помощи кодировок 1 = "абсолютно нет" до 5 = "очень сильно" ситуацию, характеризующую то, как пациенты склонны бороться с поразившим их недугом. Пункты были подвергнуты факторному анализу; один из пяти результирующих факторов мы назвали: "Активное действие, направленное на решение проблемы".
В этот фактор вошли следующие переменные:
|
11 |
Искать информацию о заболевании и лечении |
|
17 |
Предпринимать активные действия для решения проблемы |
|
f8 |
Составить план лечения и затем приступить к его реализации |
|
f13 |
Больше себе позволять |
|
f14 |
Пытаться интенсивней жить |
|
f15 |
Решиться на борьбу с болезнью |
|
f17 |
Подбадривать себя |
|
f18 |
Пытаться достичь успеха и самоутверждения |
|
f19 |
Пытаться отвлечься |
|
110 |
Искать уединения |
|
RELIABILITY ANALYSIS-SCALE (ALPHA) | |||
|
Item-total | Statistics | ||
|
Scale Scale Mean Variance if Item if Item Deleted Deleted |
Corrected Item-Total Correlation |
Alpha if Item Deleted | |
|
F1 30,2750 45,5214 |
,4514 |
,8059 | |
|
F7 30,3937 43,9761 |
,5534 |
,7944 | |
|
F8 31,0812 43,8990 |
,5453 |
,7953 | |
|
F13 31,1125 46,1885 |
,4592 |
,8046 | |
|
F14 30,4250 45,8057 |
,4857 |
,8019 | |
|
F15 30,2937 45,1899 |
,4351 |
,8084 | |
|
F17 30,4312 43,4418 |
,6558 |
,7840 | |
|
F18 30,7000 44,3245 |
,5701 |
,7929 | |
|
F19 30,5750 46,7491 |
,4632 |
,8042 | |
|
F20 30,7687 48,2166 |
,3679 |
,8131 | |
|
Reliability Coefficients |
|
| |
|
N of Cases = 160,0 |
N of Items =10 | ||
|
Alpha = ,8170 | |||
Пригодность всех пунктов не является сюрпризом, т.к., за исключением пункта 20 (который к тому же имеет и наименьшую избирательность), все пункты обладают достаточными факторными нагрузками (> 0,4). Как показывает нижеследующая таблица, большие факторные нагрузки говорят о высоких коэффициентах избирательности.
|
Избирательность |
Факторная нагрузка | |
|
f1 |
0,6558 |
0,654 |
|
f7 |
0,5701 |
0,589 |
|
f8 |
0,5534 |
0,710 |
|
f13 |
0,5453 |
0,690 |
|
f14 |
0,4857 |
0,621 |
|
f15 |
0,4632 |
0,572 |
|
f17 |
0,4592 |
0,510 |
|
f18 |
0,4514 |
0,563 |
|
f19 |
0,4351 |
0,597 |
|
f20 |
0,3679 |
<0,400 |
Анализ пригодности
Анализ пригодностиАнализ пригодности (а также: анализ вопросов или анализ заданий) помогает подбирать вопросы (задания) для тестов. При помощи разнообразных критериев а результате такого такой анализа устанавливается, какие задания подходят для определённого теста, а какие нет.
Для этой цели некоторой совокупности (выборке) респондентов предлагают предварительный вариант теста со всеми предполагаемыми заданиями и проводят анализ этих заданий. При помощи этого анализа исключают неподходящие задания, а оставшиеся включают в итоговую форму теста. Тест составленный таким образом должен рассматриваться не как статистический проверочный метод (к примеру, t-тест или U-тест), а как метод исследования личностных признаков.
Более подробную информацию о построении и анализе тестов Вы сможете найти в книге Линерта (Lienert) (см. список литературы). Линерт подразделяет тесты в зависимости от вида исследуемого личностного признака, а именно выделяются тест уровня образованности, тест способностей и личностный тест. Тестовое задание состоит преимущественно из двух частей: проблемы или вопроса и варианта решения проблемы или ответа.
Следует понимать разницу между заданиями, для которых считается правильным только один ответ, а другие — неправильными, и заданиями со ступенчатым ответом. Примерами пунктов, построенными по принципу верно — не верно могут служить следующие пункты:
Диалоговое окно Reliability Analysis (Анализ пригодности)
Диалоговое окно Reliability Analysis (Анализ пригодности)
Диалоговое окно Reliability Analysis'.Statistics (Анализ пригодности: Статистики)
Диалоговое окно Reliability Analysis'.Statistics (Анализ пригодности: Статистики)
Scale if item deleted (Масштабировать, если пункт удалён): Когда при расчёте значения масштаба этот пункт (вопрос) не учитывается, для каждого такого Пункта (ответа на вопрос анкеты), выводятся: среднее значение и дисперсия значения шкалы, корреляция пункта со значением масштаба (то есть избирательность) и альфа Кохрана.
Variances (Дисперсия): Различные виды статистик для дисперсий пунктов
Covariances (Ковариации): Различные виды статистик для ковариаций между пунктами
Correlations (Корреляции): Различные виды статистик для корреляций между пунктами.
Cochran chi-square (Хи-квадрат Кохрана): Q Кохрана (при наличии дихотомических переменных).
Далее ещё имеются:
|
RЕLIАВILIТУ ANALYSIS SCALE (ALPHA) | ||||
|
Item-total |
Statistics |
|
|
|
|
|
Scale Mean if Item Deleted |
Scale Variance if Item Deleted |
Corrected Item-Total Correlation |
Alpha if Item Deleted |
|
ITEM1 |
24,9333 |
13,5126 |
,5410 |
,7664 |
|
ITEM2 |
25,0667 |
14,4092 |
,2679 |
,7862 |
|
ITEM3 |
25,1000 |
13,5414 |
,5097 |
,7684 |
|
ITEM4 |
25,4333 |
16,0471 - |
-,1676 |
,8052 |
|
ITEMS |
25,2000 |
13,6828 |
,4907 |
,7701 |
|
ITEM6 |
25,1667 |
14,5575 |
,2358 |
,7883 |
|
ITEM7 |
25,5000 |
15,2931 |
,1738 |
,7887 |
|
ITEMS |
24,8000 |
15,1310 |
,1154 |
,7942 |
|
ITEM9 |
25,2000 |
13,8897 |
,4304 |
,7745 |
|
ITEM10 |
24,8667 |
13,8437 |
,4732 |
,7717 |
|
ITEM11 |
25,3667 |
14,2402 |
,4223 |
,7760 |
|
ITEM12 |
25,0667 |
13,3057 |
,5763 |
,7633 |
|
ITEM13 |
25,0000 |
13,2414 |
,6017 |
,7615 |
|
ITEM14 |
24,9667 |
13,8954 |
,4196 |
,7752 |
|
ITEM15 |
25,0000 |
13,3103 |
,5813 |
,7630 |
|
ITEM16 |
25,0333 |
14,0333 |
,3713 |
,7787 |
|
ITEM17 |
24,9667 |
15,3437 |
,0283 |
,8023 |
|
ITEM18 |
24,9667 |
13,9644 |
,4000 |
,7766 |
|
Reliability Coefficients | ||||
|
N of Cases =30,0 |
N of Items= 18 | |||
|
Alpha =,7887 | ||||
|
Пункт |
Индекс сложности |
Пункт |
Индекс сложности |
|
1 |
36,7 |
10 |
30,0 |
|
2 |
50,0 |
11 |
80,0 |
|
3 |
53,3 |
12 |
50,0 |
|
4 |
86,7 |
13 |
43,3 |
|
5 |
63,3 |
14 |
40,0 |
|
6 |
60,0 |
15 |
43,3 |
|
7 |
93,3 |
16 |
46,7 |
|
8 |
23,3 |
17 |
40,0 |
|
9 |
63,3 |
18 |
40,0 |
Если вновь провести анализ пунктов с оставшимися четырнадцатью пунктами, то коэффициент пригодности получится равным 0,8297. Благодаря исключению неподходящих пунктов он стал ещё выше.
Задачи статистики в пакете SPSS
Диаграммы Парето
22.10 Диаграммы ПаретоДиаграмма Парето представляет собой столбчатую диаграмму, в которой столбцы располагаются в порядке убывания, а дополнительная кривая может указывать на совокупную частоту для представленных категорий. При этом при суммировании отдельных столбцов по заданному правилу должна получаться некоторая итоговая величина, имеющая определенный смысл.
Вы можете построить простую или состыкованную диаграмму Парето, причём и здесь существует три варианта представления данных.
Для иллюстрации процесса построения этих диаграмм достаточно одного примера. В следующей таблице приведены данные текущих расходов семей западной Германии в 1992 году.
Контрольные карты
22.11 Контрольные картыС помощью построения контрольных карт при наличии временной зависимости Вы можете проверить, лежат ли средние значения переменных в пределах области рассеяния, объясняемой действием случайных факторов, или же они выходят за пределы этой области. В общем случае подразделение данных может происходить не только по временным интервалам, а и посредством других подгрупп.
Диаграммы нормального распределения
22.12 Диаграммы нормального распределенияПри проведении практически всех статистических тестов важную роль играет вопрос, подчиняются ли анализируемые данные нормальному распределению (для сравнения см. разд. 5.1.2). Проверку нормального распределения можно производить визуально, при помощи гистограммы (для пояснения см. разд. 22.9), однако лучше это осуществлять с использованием специального статистического теста, к примеру, теста Колмогорова-Смирнова (для получения подробной информации см. разд. 14.5). Ещё одну возможность анализа нормального распределения предоставляют диаграммы нормального распределения, которые в SPSS подразделяются на два вида:
Построение диаграмм нормального распределения типа Q-Q можно производить и в рамках предварительного исследования данных. В таком варианте они уже были рассмотрены ранее (для получения подробной информации см. разд. 10.4.1). Поэтому здесь мы приведём пример, касающийся только диаграммы нормального распределения типа Р-Р.
Кривые ROC
22.13 Кривые ROCПонятие кривых ROC (Receiver Operating Characteristic — функциональные характеристики приемника) взято из методологии анализа качества приёма сигнала (Signal Detection Analysis). Теория, стоящая за этим анализом, Theorie of Signal Detectability (TSD — "Теория определимости сигнала"), хотя и происходит первоначально из электроники и электротехники, но может также быть применена в области медицины, для анализа взаимодействия чувствительности и представительности диагностического теста. Поясним это при помощи примера.
В разделе 16.4 (Бинарная логистическая регрессия) было показано, каким образом при помощи переменных, соответствующих результатам Т-типизации клеток, которые относятся к интервальной шкале, может быть спрогнозировано появление карциномы мочевого пузыря. Если вы посмотрите на обе группы (больных и здоровых), то заметите, что здоровые демонстрируют более высокие значения Т-типизации ячеек, а больные скорее более низкие значения. Поэтому можно попытаться найти граничное значение Т-типизации ячеек, которое будет чётко разделять обе группы больных и здоровых.
Это и было достигнуто при помощи метода бинарной логистической регрессии. Пройдём ещё раз тот путь, который мы проходили в главе 16.4.
GRUPPE * Predicted group Crosstabulation
| (GRUPPE * Прогнозируемая группа таблица сопряженности) | ||||
| Count (Количество) | ||||
| | Predicted group (Прогнозируемая группа) | Total (Сумма) | ||
| krank (Болен) | gesund (Здоров) | |||
| GRUPPE | krank (Болен) | 18 | 6 | 24 |
| gesund (Здоров) | 4 | 17 | 21 | |
| Total (Сумма) | | 22 | 23 | 45 |
В качестве чувствительности теста выступает доля верно положительных предсказаний в суммарном количестве больных.
Временные диаграммы и графики последовательностей
22.14 Временные диаграммы и графики последовательностейОсновы редактирования графиков
22.15 Основы редактирования графиковДля того, чтобы разобраться во всех возможностях, которые SPSS для Windows предоставляет для редактирования графиков, наверняка потребуется некоторое время.
Построение графиков происходит при помощи большого количества процедур меню статистик и из меню графиков. Все графики, построенные таким образом, попадают сразу в окно просмотра. Отсутствует промежуточное сохранение, существовавшее вплоть до 6-ой версии SPSS.
Даже при построении Ваших первых графиков (теперь в SPSS они, как правило, называются диаграммами) можно не беспокоиться об их внешнем виде, поскольку в силу вступают соответствующие установки по умолчанию. Если Вы к тому же добавили некоторые наименования (заголовок, подзаголовок, сноски), то такой вид уже будет вполне достаточен для того, чтобы графики можно было использовать в большинстве практических ситуаций.
Если Вы хотите придать графикам более наглядный и презентабельный вид или же существует необходимость произвести определённые корректировки (к примеру, если метки переменных слишком длинны), то график следует перенести в редактор диаграмм. Для этого в окне просмотра дважды щёлкните в любом месте в области диаграммы.
В редакторе диаграмм Вы сможете производить над графиком следующие действия:
Редактор диаграмм
22.16 Редактор диаграммДля того, чтобы график можно было изменить (доработать, редактировать), он должен быть помещён в редактор диаграмм. Это происходит после двойного щелчка на какой-либо точке в области диаграммы, находящейся в окне просмотра. Тогда редактор диаграмм будет выглядеть так, как на рис. 22.67.
В верху редактора диаграмм присутствуют меню и две панели инструментов. Если Вы пройдётесь курсором по кнопкам панелей инструментов, не нажимая их, то сможете увидеть краткое описание кнопок. При помощи кнопок верхней панели инструментов, Вы можете получить информацию о диалоговых полях, которые Вы заполняли в последних построенных диаграммах, перейти в редактор данных, в нём перейти к нужному Вам наблюдению; а также получить информацию об отдельных переменных.
Кнопки, стоящие во второй панели инструментов, преимущественно служат для вызова форматирующих меню и будут рассмотрены в соответствующем разделе. Статистические, графические меню и меню помощи уже известны, и поэтому здесь они рассматриваться не будут.
Пример первый: изменение наименования осей
22.17.1 Пример первый: изменение наименования осейПример второй: редактирование круговой диаграммы
22.17.2 Пример второй: редактирование круговой диаграммыЗдесь Вам предоставляется возможность указать место нахождения численного значения переменной.
Пример третий: нанесение регрессионных линий
22.17.3 Пример третий: нанесение регрессионных линийПримеры редактирования графиков
22.17 Примеры редактирования графиковНекоторые примеры редактирования графиков уже приводились в главах 4, 6 и 11. В этой главе мы рассмотрим ещё три дополнительных примера.
Простые столбчатые диаграммы
22.1.1 Простые столбчатые диаграммыКластеризованные столбчатые диаграммы
22.1.2 Кластеризованные столбчатые диаграммыТеперь в целях обработки данных, полученных в ходе исследования гипертонии (файл hyper.sav), отдельно для двух методик лечения (переменная med с двумя своими значениями, равными 1 и 2) в графическом виде должны быть представлены частотные показатели четырёх возрастных групп (переменная ak) в процентном выражении.
Состыкованные диаграммы
22.1.3 Состыкованные диаграммыКак правило, состыкованная столбчатая диаграмма применяется тогда, когда столбцы отражают частоты, которые должны быть разделены при помощи некоторой внешней переменной. В таком случае, и обзор суммарных частот предоставляется пользователю иначе, нежели в виде кластеризованной столбчатой диаграммы.
Столбчатые диаграммы
22.1 Столбчатые диаграммыСтолбчатые диаграммы применяются, как правило, в следующих ситуациях:
Простые линейчатые диаграммы
22.2.1 Простые линейчатые диаграммыВ файле buecher.sav хранится информация о развитии книгопечатания в Германии с 1962 по 1991 год.
Сложные линейчатые диаграммы
22.2.2 Сложные линейчатые диаграммыСледующая таблица демонстрирует тенденцию нарушения законов по охране окружающей среды в Западной Германии с 1985 по 1992 год:
| Гол | Нарушения | ||
| UA | CV | UB | |
| 1985 | 2.750 | 8.562 | 901 |
| 1986 | 3.682 | 9.294 | 1.161 |
| 1987 | 5.390 | 10.529 | 1.311 |
| 1988 | 6.748 | 1 1 .968 | 1.671 |
| 1989 | 8.559 | 1 1 .827 | 1.590 |
| 1990 | 8.157 | 9.942 | 1.525 |
| 1991 | 9.724 | 9.601 | 1.457 |
| 1992 | 12.453 | 8.687 | 1.573 |
UA — Переработка мусора, наносящая вред окружающей среде
GV — Загрязнение воды
UB — Использование запрещённого промышленного оборудования
Эти данные построчно сохранены в переменных jahr (год), ua, gv и ub в файле umwelt.sav.
Связанные линейчатые диаграммы
22.2.3 Связанные линейчатые диаграммыЭто разновидность сложной линейчатой диаграммы, в котором точки данных обозначены разными символами и соединены вертикальной связью.
Линейчатые диаграммы
22.2 Линейчатые диаграммыЛинейчатую диаграмму вместо столбчатой следует выбирать тогда, когда необходимо отобразить большое количество столбцов, а также тогда, когда столбцы располагаются в определённой последовательности. Как правило, это временная последовательность.
Простая диаграмма с областями
22.3.1 Простая диаграмма с областямиСледующая таблица содержит информацию о производстве велосипедов с 1986 по 1992 год. Производственные показатели разбиты дополнительно на сбыт внутри страны и экспорт.
| Год | Штук (млн.) | ||
| Производство | Внутри страны | Экспорт | |
| 1986 | 4,00 | 3,14 | 0,86 |
| 1987 | 3,74 | 3,01 | 0,73 |
| 1988 | 3,88 | 3,14 | 0,74 |
| 1989 | 4,40 | 3,67 | 0,73 |
| 1990 | 4,81 | 4,08 | 0,73 |
| 1991 | 4,91 | 4,35 | 0,56 |
| 1992 | 4,55 | 4,10 | 0,45 |
Состыкованные диаграммы с областями
22.3.2 Состыкованные диаграммы с областямиЭтот вид диаграмм следует применять только тогда, когда штабелируемые области дают не лишенный смысла эффект суммирования. Мы ещё раз обратимся к примеру, рассмотренному в предыдущем разделе, но теперь совокупную производительность разделим на продукцию, реализуемую внутри страны и экспорт.
Диаграммы с областями
22.3 Диаграммы с областямиДиаграммы с областями являются разновидностью линейчатой диаграммы, в которой области, находящиеся под линиями, закрашиваются благодаря чему график выглядит более наглядным.
Круговые диаграммы
22.4 Круговые диаграммыПредставление данных в виде круговых диаграмм стоит выбирать тогда, когда частоты или значения переменных можно, не нарушая здравого смысла, сложить вместе и эта сумма будет соответствовать ста процентам.
Отобразим при помощи круговой диаграммы частоты категорий переменной psyche (психологическое состояние студентов) из файла studium.sav.
Простые биржевые диаграммы - потолок-пол-закрытие
22.5.1 Простые биржевые диаграммы - потолок-пол-закрытиеПредположите, что вы располагаете некоторыми акциями и фиксировали их котировки в течение десяти дней:
Кластеризованные диаграммы - максимум-минимум-закрытие
22.5.2 Кластеризованные диаграммы - максимум-минимум-закрытиеПри помощи этого метода осуществляется возможность представить несколько процессов потолок-пол-закрытие в одной диаграмме. Для реализации этой возможности в диалоговом окне High-Low Charts (Диаграммы максимума-минимума) щёлкните на области Clustered high-low-close (Кластеризованная диаграмма — максимум-минимум-закрытие).
Линейчатые диаграммы разностей
22.5.3 Линейчатые диаграммы разностейПри помощи этой диаграммы может быть представлено взаимное изменение значений двух переменных, причём обе результирующие кривые могут пересекаться. Это пересечение как раз и может быть очень наглядно представлено с помощью линейчатых диаграмм разностей.
Нижеследующая таблица содержит данные о развитии рынка образования в Германии с 1985 по 1992 год.
|
Год |
Количество учебных мест | |
| Предложение | Спрос | |
|
1985 |
719.110 |
755.994 |
|
1986 |
715.880 |
730.980 |
|
1987 |
690.287 |
679.622 |
|
1988 |
665.964 |
628.793 |
|
1989 |
668.649 |
602.014 |
|
1990 |
659.435 |
559.531 |
|
1991 |
668.000 |
550.671 |
|
1992 |
721.756 |
608.121 |
Простые интервальные столбцы
22.5.4 Простые интервальные столбцыЭтот вид диаграммы является разновидностью простой диаграммы — потолок-пол-закрытие, в которой, однако, отображается только максимальное и минимальное значения, а окончательное отсутствует.
В качестве примера рассмотрим ситуацию, когда Вы, предположим, на протяжении десяти дней фиксировали свою максимальную и минимальную температуры:
| День | Температура(°С) | |
| Минимум | Максимум | |
| 14 марта 1994 | 2,4 | 11,3 |
| 15 марта 1994 | 2,6 | 11,5 |
| 16 марта 1994 | 3,7 | 12,4 |
| 17 марта 1994 | 6,2 | 14,8 |
| 18 марта 1994 | 6,2 | 14,8 |
| 19 марта 1994 | 1,9 | 9,7 |
| 20 марта 1994 | 4,3 | 11,3 |
| 21 марта 1994 | 7,6 | 13,4 |
| 22 марта 1994 | 7,0 | 12,9 |
| 23 марта 1994 | 6,3 | 11,0 |
Кластеризованные интервальные столбцы
22.5.5 Кластеризованные интервальные столбцыВ одной диаграмме при помощи интервальных столбцов могут быть представлены и изменения нескольких переменных.
Диаграммы максимальных и минимальных значений
22.5 Диаграммы максимальных и минимальных значенийЕсли вы посмотрите на поведение биржевых котировок акций, то заметите, что для фиксированного промежутка времени, к примеру, для одного дня, существует три важнейших характеристики: максимальное и минимальное значения, а также значение в конце промежутка, при закрытии биржи. Такой и подобные ему процессы могут быть представлены при помощи диаграммы максимальных и минимальных значений, которая на биржевом сленге иногда называется потолок-пол-закрытие.
Существует пять видов диаграмм максимума-минимума, данные для которых, как и для предыдущих графиков, могут интерпретироваться тремя различными способами.
Простые коробчатые диаграммы
22.6.1 Простые коробчатые диаграммыВ рамках исследования гипертонии (файл hyper.sav) мы хотим для четырёх разных возрастных категорий (переменная ak) отобразить исходные показатели систолического кровяного давления (переменная rrs0).
Кластеризованные коробчатые диаграммы
22.6.2 Кластеризованные коробчатые диаграммыВы можете использовать в данной диаграмме ещё одну переменную, тогда коробчатые диаграммы будут сгруппированы по категориям этой переменной.
Коробчатые диаграммы
22.6 Коробчатые диаграммыМетод, при помощи которого, можно отобразить медиану и оба квартиля, минимальные и максимальные значения, а также пропущенные и экстремальные значения, уже рассматривался в главе 10.4.1. Эти диаграммы могут быть построены в ходе предварительного исследования данных или через меню графиков.
Простая диаграмма величины ошибки
22.7.1 Простая диаграмма величины ошибкиВ рамках исследования гипертонии (файл hyper.sav) для четырёх разных возрастных категорий (переменная ak) мы хотим отобразить исходные показатели уровня холестерина (переменная chol0).
Кластеризованная величина ошибки
22.7.2 Кластеризованная величина ошибкиДиаграммы величины ошибки можно объединять в группы при помощи дополнительных переменных.
Столбики ошибок
22.7 Столбики ошибокЕсли при помощи коробчатой диаграммы представляются медиана и оба квартиля, то диаграмма столбцов по величинам ошибки служит для отображения средних значений и характеристик рассеяния (стандартное отклонение, стандартная ошибка или доверительный интервал — по выбору).
Также как и для коробчатых диаграмм, Вы можете выбрать простую или кластеризованную диаграмму столбцов по величинам ошибки, причём данные могут быть представлены в виде отдельных категорий одной переменной или в виде разных переменных.
Простая диаграмма рассеяния
22.8.1 Простая диаграмма рассеянияМатричные диаграммы рассеяния
22.8.2 Матричные диаграммы рассеянияЭтот метод применяется для отображения нескольких диаграмм рассеяния на одном графике.
Наложенные диаграммы рассеяния
22.8.3 Наложенные диаграммы рассеянияВ одном графике можно представить несколько диаграмм рассеяния.
Этот метод имеет смысл применять только тогда, когда речь идёт о переменных с одними и теми же областями значений.
Трёхмерные диаграммы рассеяния
22.8.4 Трёхмерные диаграммы рассеянияЭти диаграммы строятся на основании значений трёх переменных и поэтому включают три оси.
По оси у откладывается высоту положения точки
По оси х откладывается горизонтальное положение каждой точки
По оси z откладывается глубина положения каждой точки.
Отобразим переменную lem (средняя ожидаемая продолжительность жизни мужчин) на оси у, переменную sb (процентный показатель городского населения) на оси х и переменную so (количество часов солнечной погоды в году) на оси г.
Диаграмма рассеяния
22.8 Диаграмма рассеянияДиаграмма рассеяния в графическом виде отображает отношения между двумя переменными, которые как минимум относятся к интервальной шкале. Пример диаграммы рассеяния уже был представлен в главе 15.
Имеются различные возможности построения диаграмм рассеяния. Для нижеследующих примеров взят файл europa.sav (можно сравнить с гл. 20), который содержит данные некоторых признаков для 28 европейских стран.
Гистограммы
22.9 ГистограммыГистограмма уже несколько раз рассматривалась в предыдущих главах.
С помощью гистограммы можно наглядно отобразить распределение переменных, относящихся по меньшей мере к интервальной шкале.
Диалоговое окно Bar Charts (Столбчатые диаграммы)
Диалоговое окно Bar Charts (Столбчатые диаграммы)
Диалоговое окно Define Simple...
Диалоговое окно Define Simple Bar: Summaries for groups of cases (Простая столбчатая диаграмма: Обработка категорий одной переменной)
Будет построен график, показанный на рисунке 22.4.
Теперь представим в графическом виде изменение среднего значения уровня сахара в крови (переменные bz0, bz1, bz6 и bz12), взятого из того же файла (hyper.sav).
Диалоговое окно Define Simple...
Диалоговое окно Define Simple Bar: Summaries of separate variables (Построение простой столбчатой диаграммы: Обработка отдельных переменных)
Это диалоговое окно появляется только для столбчатой, линейной, круговой диаграмм и диаграммы с областями, причём не каждая из находящихся здесь функций пригодна для всех видов диаграмм. Если для имеющихся данных Вы хотите отобразить медианы или другие процентили (сравните с гл. 6), то активируйте опцию Values are grouped midpoints (Значения являются сгруппированными средними точками).
В следующем примере рассматривается вопрос отображения готовых данных. Допустим, Вы взяли из некоторой газеты данные по 1993 году о добыче нефти в семи странах, входящих в ОРЕС и являющихся ведущими в этой отрасли.
Диалоговое окно Define Simple...
Диалоговое окно Define Simple Bar: Values of individual cases (Построение простой столбчатой диаграммы: Значения отдельных случаев)
Диалоговое окно Summary Function (Обрабатывающая функция).
Диалоговое окно Summary Function (Обрабатывающая функция).
Меню с вариантами графиков
Меню с вариантами графиков
Вы можете выбрать между простой, кластеризованной (кластерной) и состыкованной столбчатыми диаграммами. Данные, отображаемые в этих диаграммах, могут быть заданы как категории одной переменной, как разные переменные или как значения отдельных наблюдений.
Простая столбчатая диаграмма (Категории одной переменной)
Простая столбчатая диаграмма (Категории одной переменной)
Будет построен график, приведенный на рисунке 22.6.
Следует отметить тот недостаток, что в этой диаграмме не полностью приведены метки значений и на вертикальной оси показана только ограниченная область от 103,5 до 106,0, из-за чего по ошибке можно сделать неверное заключение о сильном изменении уровня сахара. Вы можете подкорректировать эти ошибки в редакторе диаграмм.
Простая столбчатая диаграмма (Отдельные переменные)
Простая столбчатая диаграмма (Отдельные переменные)
|
Страна |
Млн.баррель/день |
|
Саудовская- Аравия |
8,0 |
|
Иран |
3,3 |
|
Венесуэла |
2,3 |
|
Объединённые Арабские Эмираты |
2,2 |
|
Нигерия |
1,8 |
|
Кувейт |
1,6 |
|
Ливия |
1,4 |
Простая столбчатая диаграмма (Значения отдельных случаев)
Простая столбчатая диаграмма (Значения отдельных случаев)
Диалоговое окно Define...
Рис. 22.10: Диалоговое окно Define Clustered Bar: Summaries for groups of cases (Построение группированной диаграммы: Обработка категорий одной переменной)
| Изготовитель | Доля рынка, % | |
| 1991 | 1992 | |
| IBM | 16,3 | 12,4 |
| Apple | 11,2 | 11,9 |
| Compaq | 6,0 | 6,6 |
| NEC | 6,4 | 5,1 |
| Dell | 1,7 | 3,5 |
Группированная столбчатая диаграмма
Рис. 22.11: Группированная столбчатая диаграмма
Группированная столбчатая диаграмма
Рис. 22,12: Группированная столбчатая диаграмма
Диалоговое окно Define...
Рис. 22.13: Диалоговое окно Define Stacked Bar: Summaries for groups of cases (Построение штабельной диаграммы: Обработка категорий одной переменной)
Штабельная столбчатая диаграмма
Рис. 22.14: Штабельная столбчатая диаграмма
| Гол | Количество | |
| Запал | Восток | |
| 1985 | 586.155 | 227.648 |
| 1986 | 635.963 | 222.229 |
| 1987 | 642.010 | 225.959 |
| 1988 | 677.259 | 215.734 |
| 1989 | 681.537 | 198.922 |
| 1990 | 727.199 | 178.476 |
| 1991 | 722.250 | 107.769 |
| 1992 | 718.730 | 87.030 |
Штабельная столбчатая диаграмма
Рис. 22.15: Штабельная столбчатая диаграмма
Вы можете построить простую, сложную и связанную линейные диаграммы. Как и для столбчатых диаграмм данные, отображаемые в этих диаграммах, могут быть заданы как категории одной переменной, как разные переменные или как значения отдельных наблюдений.
Диалоговое окно Line Charts (Линейчатые диаграммы)
Рис. 22.16: Диалоговое окно Line Charts (Линейчатые диаграммы)
Диалоговое окно Define...
Рис. 22.17: Диалоговое окно Define Simple Line: Summaries for Groups of Cases (Построение простой линейчатой диаграммы: Обработка категорий одной переменной)
Линейчатая диаграмма
Рис. 22.18: Линейчатая диаграмма
Диалоговое окно Define...
Рис. 22.19: Диалоговое окно Define Multiple Line: Summaries of Separate Variables (Построение сложной линейчатой диаграммы: Обработка отдельных переменных)
Сложная линейчатая диаграмма
Рис. 22.20: Сложная линейчатая диаграмма
Построенная нами диаграмма будет соответствовать приведенной на рисунке 22.21.
Связанная линейчатая диаграмма
Рис. 22.21: Связанная линейчатая диаграмма
Диалоговое окно Area Charts (Диаграммы с областями)
Рис. 22.22: Диалоговое окно Area Charts (Диаграммы с областями)
Диалоговое окно Define...
Рис. 22.23: Диалоговое окно Define Simple Area: Summaries for Groups of Cases (Построение простой диаграммы с областями: Обработка категорий одной переменной)
Диаграмма с областями
Рис. 22.24: Диаграмма с областями
Следует отметить то, что начальной точкой отсчёта вертикальной оси является не ноль, а значение 3,6.
Диалоговое окно Define...
Рис. 22.25: Диалоговое окно Define Stacked Area: Summaries of Separate Variables (Построение штабельной диаграммы с областями: Обработка отдельных переменных)
Штабельная диаграмма с областями.
Рис. 22.26: Штабельная диаграмма с областями.
Диалоговое окно пе Charts (Круговые диаграммы)
Рис. 22.27: Диалоговое окно пе Charts (Круговые диаграммы)
Диалоговое окно Define...
Рис. 22.28: Диалоговое окно Define Pie: Summaries for Groups of Cases (Построение круговой диаграммы: Обработка категорий одной переменной)
На местных выборах земли Гессен в 1993 году получилось следующее распределение голосов в процентах:
|
Партия |
ДОЛЯ ГОЛОСОВ (%) |
|
SPD |
36,4 |
|
CDU |
32,0 |
|
Gruene (Зелёные) |
11,0 |
|
Republikaner (Республиканцы) |
8,3 |
|
FPD |
5,1 |
|
Прочие |
7,2 |
Круговая диаграмма
Рис. 22.29: Круговая диаграмма
Круговая диаграмма
Рис. 22.30: Круговая диаграмма
Диалоговое окно Higli-Low Charts (Диаграммы максимума-минимума)
Рис. 22.31: Диалоговое окно Higli-Low Charts (Диаграммы максимума-минимума)
|
День |
Максимальная котировка |
Минимальная котировка |
Окончательная котировка |
|
1 |
164,35 |
161,48 |
162,33 |
|
2 |
166,12 |
163,03 |
164,12 |
|
3 |
167,84 |
164,75 |
165,97 |
|
4 |
167,79 |
163,93 |
166,13 |
|
5 |
171,14 |
/ 168,04 |
170,94 |
|
6 |
175,33 |
171,44 |
171,99 |
|
7 |
174,88 |
172,93 |
173,01 |
|
8 |
173,20 |
170,50 |
171,82 |
|
9 |
169,54 |
166,43 |
167,28 |
|
10 |
168,24 |
165,14 |
166,43 |
Диалоговое окно Define...
Рис. 22.32: Диалоговое окно Define Simple High-Low-Close: Summaries of Separate Variables (Построение простой диаграммы — потолок-пол-закрытие: Обработка отдельных переменных)
Простая диаграмма — потолок-пол-закрытие
Рис. 22.33: Простая диаграмма — потолок-пол-закрытие
Диалоговое окно Define...
Рис. 22.34: Диалоговое окно Define Difference Line: Summaries of Separate Variables (Построение линейчатой диаграммы разностей: Обработка отдельных переменных).
Линейчатая диаграмма разностей
Рис. 22.35: Линейчатая диаграмма разностей
Диалоговое окно Define...
Рис. 22.36: Диалоговое окно Define Simple Range Bar: Summaries of Separate Variables (Построение диаграммы с простыми интервальными столбцами: Обработка отдельных переменных)
Простые интервальные столбцы
Рис. 22.37: Простые интервальные столбцы
Диалоговое окно Boxplot (Коробчатая диаграмма)
Рис. 22.38: Диалоговое окно Boxplot (Коробчатая диаграмма)
Коробчатая диаграмма (категории одной переменной)
Рис. 22.39: Коробчатая диаграмма (категории одной переменной)
Коробчатая диаграмма (разные переменные)
Рис. 22.40: Коробчатая диаграмма (разные переменные)
Диалоговое окно Error Bar (Столбцы по величинам ошибки)
Рис. 22.41: Диалоговое окно Error Bar (Столбцы по величинам ошибки)
Диалоговое окно Define...
Рис. 22.42: Диалоговое окно Define Simple Error Bar: Summaries for Groups of Cases (Построение простой диаграммы величины ошибки: Обработка категорий одной переменной)
Простая диаграмма величины ошибки (категории одной переменной)
Рис. 22.43: Простая диаграмма величины ошибки (категории одной переменной)
Простая диаграмма величины ошибки (разные переменные)
Рис. 22.44: Простая диаграмма величины ошибки (разные переменные)
Метки значений на горизонтальной оси необходимо будет ещё подкорректировать.
Диалоговое окно Scatterplot (Диаграмма рассеяния)
Рис. 22.45: Диалоговое окно Scatterplot (Диаграмма рассеяния)
Диалоговое окно Simple Scatterplot (Простая диаграмма рассеяния)
Рис. 22.46: Диалоговое окно Simple Scatterplot (Простая диаграмма рассеяния)
Простая диаграмма рассеяния с метками случаев
Рис. 22.47: Простая диаграмма рассеяния с метками случаев
Большое количество меток наблюдений приводит к снижению наглядности графика, поэтому можно рекомендовать оставить их только для избранных точек.
В качестве альтернативы на вооружение можно взять обозначение метками только наиболее характерных точек.
Простая диаграмма зассеяния с выборочными метками случаев
Рис. 22.48: Простая диаграмма зассеяния с выборочными метками случаев
Численные показатели для любой точки, находящейся на диаграмме рассеяния также можно просмотреть в редакторе данных .

В главе 22.17 мы покажем, как на одной диаграмме рассеяния можно отобразить четыре разных регрессионных линии (к примеру, регрессионные прямые).
Диалоговое окно Scatterplot Matrix (Матричная диаграмма рассеяния)
Рис. 22.49: Диалоговое окно Scatterplot Matrix (Матричная диаграмма рассеяния)
Матричная диаграмма рассеяния
Рис. 22.50: Матричная диаграмма рассеяния
Первая диагональная ячейка содержит метку переменной km. Это означает, что для всех диаграмм первой строки эта переменная находится со стороны вертикальной оси (оси Y). Какая из переменных при этом откладывается по горизонтальной оси (ось X), следует узнавать из следующих диагональных ячеек. Такие же правила справедливы и для последующих строк.
К примеру, в центральном поле первой строки представлена взаимосвязь средней ожидаемой продолжительности жизни (по вертикали) и количества часов солнечной погоды (по горизонтали). Явно заметна обратная зависимость.
И в матричных диаграммах рассеяния можно задать маркировку для некоторой переменной, организовать вывод меток наблюдений, а также отображение любой другой необходимой информации; можно так же организовать построение различных линий регрессии (для сравнения см. разд. 22.17).
Диалоговое окно 3-D Scanerplot ( Трёхмерная диаграмма рассеяния)
Рис. 22.51: Диалоговое окно 3-D Scanerplot ( Трёхмерная диаграмма рассеяния)
Очень длинные наименования осей при построении рисунка 22.52 были откорректированы.
И здесь Вы бы могли отметить маркировкой значения одной из переменных, а также указать наименования наблюдений и при помощи выключателя Titles... (Заголовок) дать диаграмме подходящее название.
Трёхмерная диаграмма рассеяния
Рис. 22.52: Трёхмерная диаграмма рассеяния
Диалоговое окно Histogram (Гистограмма)
Рис. 22.53: Диалоговое окно Histogram (Гистограмма)
Гистограмма с кривой нормального распределения
Рис. 22.54: Гистограмма с кривой нормального распределения
Чтобы выяснить, значимо ли отличается получившееся распределение от нормального, Вы не должны полагаться только на внешний вид гистограммы, а проверить его при помощи специального статистического теста. Для этого в SPSS реализован тест Колмогорова-Смирнова (см. разд. 14.5), который в данном случае указывает на незначимое отклонение от нормального распределения (значение р = 0,616).
Диалоговое окно Pareto Charts (Диаграммы Парето)
Рис. 22.55: Диалоговое окно Pareto Charts (Диаграммы Парето)
|
Статья расходов |
Расколы (/миллиарды DM) |
|
Квартира |
302,5 |
|
Одежда |
116,2 |
|
Аренда |
247,7 |
|
Электричество |
55,6 |
|
Бытовые расходы |
137,4 |
|
Здоровье |
78,8 |
|
Проезд |
253,5 |
|
Отдых |
147,9 |
|
Прочее |
108,5 |
Диалоговое окно Define...
Рис. 22.56: Диалоговое окно Define Simple Pareto: Counts or Sums for Groups of Cases (Построение простой диаграммы Парето: Частоты или суммы категорий одной переменной)
Диаграмма Парето (с кумулятивной кривой)
Рис. 22.57: Диаграмма Парето (с кумулятивной кривой)
Диаграмма Парето (без совокупной кривой)
Рис. 22.58: Диаграмма Парето (без совокупной кривой)
Существует четыре разновидности контрольных карт и две возможности представления данных. Поэтому число возможных контрольных карт довольно велико и не может быть полностью рассмотрено в рамках этой книги. С одной стороны речь идёт об анализе средних значений, а с другой об анализе относительных частот переменных, относящихся к номинальной шкале.
Для рассмотрения этих диаграмм нам будет достаточно одного типичного примера. В этом примере необходимо проверить качество изделий, которые были произведены шестью станками за определённый промежуток времени. К примеру, необходимо произвести контроль длины этих изделий. Измерения длины изделий (в см) были произведены на шести станках для двенадцати промежутков времени и помещены в следующую сводную таблицу.
Диалоговое окно Control Charts (Контрольные карты)
Рис. 22.59: Диалоговое окно Control Charts (Контрольные карты)
|
Интервал |
Станок 1 |
Станок 2 |
Станок 3 |
Станок 4 |
Станок 5 |
Станок 6 |
|
1 |
24,07 |
24,11 |
24,17 |
24,02 |
24,07 |
23,95 |
|
2 |
23,98 |
24,09 |
24,03 |
24,18 |
24,10 |
24,20 |
|
3 |
24,14 |
23,99 |
23,93 |
24,06 |
24,04 |
24,10 |
|
4 |
23,96 |
24,10 |
23,97 |
23,90 |
24,00 |
23,91 |
|
5 |
23,98 |
24,02 |
24,00 |
24,05 |
23,84 |
23,95 |
|
6 |
24,01 |
23,95 |
23,97 |
23,83 |
24,12 |
24,02 |
|
7 |
23,98 |
24,05 |
24,16 |
24,07 |
23,90 |
24,00 |
|
8 |
24,07 |
24,12 |
24,07 |
24,14 |
23,99 |
23,96 |
|
9 |
24,11 |
24,16 |
24,22 |
24,12 |
24,00 |
24,05 |
|
10 |
24,05 |
24,04 |
23,90 |
24,10 |
24,10 |
23,97 |
|
11 |
24,00 |
24,08 |
23,97 |
23,87 |
23,92 |
24,06 |
|
12 |
24,07 |
24,01 |
23,89 |
24,04 |
23,92 |
24,09 |
Диалоговое окно X-Bar...
Рис. 22.60: Диалоговое окно X-Bar, R, s: Cases Are Subgroups (Х-горизонталь, R, s: Случаи в качестве подгрупп)
Контрольная карта
Рис. 22.61: Контрольная карта
Диалоговое окно Р-Р Plots (Р-Р-диаграммы)
Рис. 22.62: Диалоговое окно Р-Р Plots (Р-Р-диаграммы)
Вы видите, что тест на нормальное распределение устанавливается по умолчанию. Наряду с этим Вы можете производить тестирование на предмет наличия ещё двенадцати видов распределения, к примеру, на наличие распределения Вайбула (Weibull), Лапласа (Laplace), Хи-квадрат (%2) и /-распределения Стьюдента (Student). Вы можете просмотреть все предлагаемые типы распределений в ниспадающем меню.
Для подсчёта ожидаемых значений, подчиняющихся нормальному распределению, на выбор предлагаются четыре различных метода. Если количество значений, полученных в результате наблюдений, обозначить буквой п, а ранговые показатели этих значений буквой г (г = 1, ..., п), то формулы, соответствующие указанным методам, будут выглядеть следующим образом:
|
Blom (Блом): |
(r-3/8) / (n+1/4) |
|
Rankit (Ранговое преобразование): |
(r-1/2) / n |
|
Tukey (Тьюки): |
(r-1/З) / (n+1/З) |
|
Van der Waerden (Ван дер Верден): |
r / (n+1) |
|
Среднее значение: |
Равным значениям присваивается средний ранг |
|
Максимум: |
Равным значениям присваивается ранг, высший из двух |
|
Минимум: |
Равным значениям присваивается ранг, низший из двух |
|
Связи разрывать произвольно |
Если в первых трёх методах для дельнейшего анализа используется только один элемент данных, то в этом методе может использоваться столько элементов, сколько значений имеется в наличии. |
Диаграмма нормального распределения типа Р-Р
Рис. 22.63: Диаграмма нормального распределения типа Р-Р
Диаграмма нормального распределения типа Р-Р с исключённым трендом
Рис. 22.64: Диаграмма нормального распределения типа Р-Р с исключённым трендом
Диалоговое окно ROC Curve (Кривая ROC)
Рис. 22.65: Диалоговое окно ROC Curve (Кривая ROC)
Диалоговое окно ROC Curve: Options (Кривая ROC: Опции)
Рис. 22.66: Диалоговое окно ROC Curve: Options (Кривая ROC: Опции)
Area Under the Curve (Площадь под кривой)
| Test Result Variable(s): TZELL (Переменная(ые) результата теста: TZELL) | ||||
| Area (Площадь) | Std. Error (Стандартная ошибка) | Asymptotic Sig.a (Асимптотическ ая значимость) | Asymptotic 95% Confidence Interval (Асимптотический 95 % доверительный интервал) | |
| Lower Bound (Нижняя граница) | Upper Bound (Верхняя граница) | |||
| ,849 | ,059 | ,000 | ,734 | ,964 |
a. Under the nonparametric assumption (В соответствии с непараметрическим предположением)
b. Null hypothesis: true area = 0.5 (Нулевая гипотеза: истинное значение площади = 0,5)
Coordinates of the Curve (Координаты кривой)
Test Result Variable(s): TZELL (Результирующая переменная(ые) теста: TZELL)
| Positive if Less Than or Equal Toa (Положительно, если меньше или равно) | Sensitivity (Чувствительность) | 1 - Specificity (1-Представительность) |
| 47,5000 | ,000 | ,000 |
| 52,0000 | ,042 | ,000 |
| 56,5000 | ,083 | ,000 |
| 58,0000 | ,125 | ,000 |
| 59,7500 | ,167 | ,000 |
| 61,0500 | ,208 | ,000 |
| 61,3000 | ,208 | ,048 |
| 61,7500 | ,292 | ,048 |
| 62,2500 | ,417 | ,048 |
| 62,0000 | ,458 | ,095 |
| 63,7500 | ,500 | ,095 |
| 64,7500 | ,542 | ,143 |
| 64,5000 | ,542 | ,190 |
| 65,7500 | ,625 | ,190 |
| 67,2500 | ,750 | ,190 |
| 68,7500 | ,792 | ,190 |
| 69,2500 | ,833 | ,190 |
| 69,7500 | ,833 | ,238 |
| 70,5000 | ,833 | ,333 |
| 71,2500 | ,958 | ,381 |
| 71,7500 | ,958 | ,476 |
| 72,2500 | ,958 | ,524 |
| 72,7500 | ,958 | ,571 |
| 73,2500 | ,958 | ,667 |
| 73,7500 | 1,000 | ,714 |
| 74,5000 | 1,000 | ,762 |
| 75,5000 | 1,000 | ,810 |
| 76,5000 | 1,000 | ,857 |
| 77,7500 | 1,000 | ,952 |
| 79,5000 | 1,000 | 1,000 |
a. The smallest cutoff value is the minimum observed test value minus 1, and the largest cutoff value is the maximum observed test value plus 1. All the other cutoff values are the averages of two consecutive ordered observed test values.(Минимальное разделяющее значение равно минимальному наблюдаемому значению теста минус 1, максимальное разделительное значение равно максимальному наблюдаемому значению теста плюс 1. Все остальные разделительные значения являются средними значениями двух соседних наблюдаемых значений теста.)
С помощью кривой ROC чувствительность и комплиментарное значения представительности приводятся к единице. Диагностируемое значение с нулевой степенью прогнозирования изображается здесь линией, наклоненной под углом 45 градусов (диагональю). Чем больше выгнута кривая ROC, тем более точным является прогнозирование результатов теста. Индикатором этого свойства служит площадь под кривой ROC, которая для теста с нулевой степенью прогнозирования равна 0,5, а для случая с максимальной степенью прогнозирования — 1. Для рассматриваемого примера получилось значение равное 0,849, причём 95 % доверительный интервал соответствует значениям площади, принадлежащим диапазону от 0,734 до 0,964.
В следующей таблице Вы можете увидеть чувствительность и представительность для различных граничных значений. Для граничного значения 67,5 Вы вновь встретите уже рассчитанные нами показатели.
Редактор диаграмм
Рис. 22.67: Редактор диаграмм
Меню Format (Формат)
Рис. 22.68: Меню Format (Формат)
Для изменения цвета объекта графика (элемента представления данных или текста) выделите данный объект и выберите этот пункт меню. Откроется палитра с шестнадцатью различными цветами. Кому этого не достаточно, может открыть ещё одну дополнительную значительно более обширную палитру. Выбором опций Fill (Заливка) и Border (Рамка) происходит переключение между возможностью изменить цвет объекта или рамки (контура) выделенного объекта.
Выберите одну из двух имеющихся опций. При помощи Apply (Применить) цвет будет перенесён на выделенный объект.
Чтобы расширить имеющуюся палитру цветов, щёлкните на кнопке Edit (Правка); после этого Вы сможете создать дополнительные или пользовательские цвета.
Если текущей палитре должен быть присвоен статус палитры по умолчанию, то щёлкните на выключателе Save as Default (Сохранить как палитру по умолчанию).
Эта кнопка открывает палитру из 28-ми различных маркеров для обозначения положения точки данных на линейчатых диаграммах, диаграммах с областями и диаграммах рассеяния. Вы можете также установить один из четырёх предустановленных размеров маркеров. Для изменения вида представления точек или рядов данных выделите сначала нужный элемент при помощи щелчка на графике. После этого на выделенном объекте появятся чёрные маркеры коррекции.
В группе Style (Стиль) выберите необходимую маркировку.
В группе Size (Размер) активируйте одну из опций предустановленных размеров маркеров. На экране разница между размерами отображаемых маркеров не значительна, но при печати она будет довольно хорошо заметна.
При помощи Apply (Применить) присвойте выделенному ряду данных маркеры с выбранными свойствами. Если Вы нажмёте кнопку Apply All (Применить для всех), то выбранный тип маркировки будет присвоен всем последовательностям данных.
Если изменения должны коснуться только размера маркеров, но не стиля маркировки, то следует деактивировать опцию Apply style (Применить стиль).
Если изменения должны коснуться только стиля представления маркеров, но не размера, то следует деактивировать опцию Apply size (Применить размер).
Маркеры на линейчатых диаграммах и диаграммах с областями становятся видимыми только в том случае, если их вывод будет задан в диалоговом окне Interpolation (Интерполяция). Это диалоговое окно вызывается из меню Format (Формат). Маркеры не могут быть заданы для изображения точек гистограмм и столбчатых диаграмм.
Здесь на выбор предлагаются четыре типа линий и четыре предустановленные толщины для этих линий. На графике щелчком необходимо выделить линию, которую необходимо изменить. После этого на объекте появятся маркеры коррекции.
В группе Style (Стиль) выберите тип линии.
В группе Weight (Толщина) присвойте необходим} ю то.глину выбранному типу линии.
После щелчка на кнопке Apply (Применить) выбранная конфигурация линии будет присвоена активному объекту. Эта кнопка остаётся неактивной, если выделены данные, которые не могут быть представлены на графике при помощи линии или элемента, содержащего линии (рамки, оси).
Эта опция служит для изменения представления столбцов в графиках, содержащих столбцы. Некоторые типы столбцов не могут применяться для гистограмм. Программа предлагает в Ваше распоряжение несколько типов столбцов. Если выбраны столбцы с тенью (Drop shadow) или с ЗD-эффектами (3D-effect), то для этих типов столбцов дополнительно ещё может устанавливаться и толщина (Depth). Эта опция управляет толщиной сторон и верхнего торца столбца. Толщина при этом указывается в процентах от ширины столбца. При положительных значениях параметра Depth (Толщина) эффект строится начиная с правой стороны столбца, как показано на рисунках соответствующих опций, а при отрицательных значениях — с левой стороны столбца.
Если Вы нажмёте кнопку Apply All (Применить для всех), то установленные свойства будут применены ко всем столбцам. Эта кнопка становится активной только тогда, когда в редакторе диаграмм находится столбчатая диаграмма или интервальная столбчатая диаграмма.
Программа предлагает три варианта идентификации столбцов при помощи числовых значений. Если выбран один из стилей оформления числового значения (кроме None), то на каждом столбце появляется числовое значение, соответствующее высоте этого столбца. Для столбчатой диаграммы с областями метки столбцов указываются сверху и снизу каждого столбца. Три опции представленные в диалоговом окне Bar Label Styles (Метки столбцов) определяют внешний вид метки на столбце. Если Вы применяете тёмные цвета или узоры, в таком случае рекомендуется выбирать опцию Framed (В рамке), числовое значение в рамке будет лучше читаться.
Если Вы нажмёте кнопку Apply All (Применить для всех), то установленные свойства метки будут применены ко всем столбцам. Эта кнопка становится активной только тогда, когда в редакторе диаграмм находится столбчатая диаграмма, интервальная столбчатая диаграмма или гистограмма.
В данном диалоговом окне задаются различные возможности и методы для соединения точек данных. Эта опция может применяться для диаграмм с областями, линейчатых диаграмм, линейчатых диаграмм разностей, для последовательностей средних значений в диаграммах величины ошибки, для заключительных показателей на диаграммах максимальных и минимальных значений, а также в диаграммах рассеяния (исключая 3D-диаграммы рассеяния).
На графике щелчком выделите линию или последовательность данных. После этого на каждом объекте появятся маркеры коррекции.
В группе Line Interpolation (Вид интерполяционной линии) выберите один из методов соединения точек при помощи некоторой кривой. Если SPSS должна рассчитать регрессионную прямую для диаграммы рассеяния, выберите в меню Chart (Диаграммы) пункт Options (Параметры).
Если Вы нажмёте кнопку Apply All (Применить для всех), интерполяция будет применена ко всем последовательностям данных. При помощи Apply (Применить) интерполяция будет применена только к объектам, выделенным в данный момент. Если Вы выделили данные, которые не могут быть отображены на графике при помощи линии, кнопка Apply (Применить) становится неактивной.
Если активировать опцию Display markers (показать маркеры), то для каждой точки выделенной кривой будет отображена маркировка. Тип маркера может быть выбран при помощи опции Marker (Маркер), находящейся в меню Format (Формат).
Существуют следующие виды интерполяции:
— при выборе опции 3rd-order Lagrange (Лагранж 3-го порядка) осуществляется интерполяция, при которой кривая аппроксимируется полиномом третье! о порядка, который строится на основе четырёх последовательных точек данных.
— при выборе опции 5rd-order Lagrange (Лагранж 5-го порядка) осуществляется интерполяция, при которой кривая аппроксимируется полиномом пятого порядка, который строится на основе шести последовательных точек данных.
Эта опция предоставляет возможность изменить шрифт и размер текстовых элементов. Сначала одним щелчком выделяют текст на графике. После этого на тексте появляются метки коррекции.
В группе Font (Шрифт) выбирают необходимый тип шрифта, а в группе Size (Размер) необходимый размер. Размер шрифта (кегль) выражается в точках.
После щелчка на кнопке Apply (Применить) выбранные свойства будут перенесены на выделенный объект. Эта кнопка становится активной только тогда, когда выделен текстовый объект.
Это один из двух методов, с использованием которых можно вращать ЗD-диаграмму рассеяния. При помощи переключателей на левой стороне диалогового окна диаграмму можно вращать вперёд или назад относительно осей X, Y и Z. Рисунки на переключателях указывают на ось и направление вращения. Вы можете вращать систему координат при помощи коротких щелчков на соответствующих переключателях или удерживая нажатой кнопку мыши. Вращение, задаваемое таким образом, отображается на упрощенной схеме, где изображены три оси; эта схема находится в центре диалогового окна.
Если активирована опция Show tripod (Показать треножник), то будет показан треножник, линии которого проходят через центр области построения диаграммы параллельно осям. Активирование треножника особенно рекомендуется тогда, когда необходимо проследить вращение осей при выключенном обрамлении трехмерного графика.
Вращение выделенной диаграммы происходит при помощи кнопки Apply (Применить).
График будет повёрнут только тогда, когда к нему будет применено заданное вращение. В течении операции вращения применение каких-либо других команд становится невозможным.
При помощи этой опции в двумерном графике можно поменять местами вертикальную и горизонтальную оси.
Чтобы выдвинуть сегмент круговой диаграммы, выделите его и нажмите эту кнопку.
Разрыв линии на линейной диаграмме при наличии отсутствующего значения.
Здесь Вам предлагается выбор дополнительных параметров для столбчатых и линейчатых диаграмм, а также диаграмм с областями. В случае линейчатых диаграмм, Вы также можете разделить линии по категориям. При активировании опции Change scale to 100 % (Перевести масштаб в проценты) точки данных столбчатых диаграмм и частотных диаграмм с областями переводятся в процентные показатели и отображаются как процентные доли. Если редактируемая диаграмма является столбчатой, то столбцы будут автоматически штабелированы. Если на редактируемой диаграмме столбец или область отображает только один ряд данных, то эта опция остаётся недосягаемой. Эта опция также неприменима в случае, если диаграмма отображает функцию накопительной суммы.
В группе Line Options (Параметры линии) предлагаются ещё две возможности обработки линейных диаграмм.
И эта кнопка делает возможным непосредственное вращение ЗD-диаграммы рассеяния в окне редактора диаграмм; но здесь в процессе вращения диаграмма претерпевает некоторые упрощения. Вращать диаграмму вперёд и назад относительно осей X, Y и Z можно при помощи кнопок с соответствующими символами в левой части диалогового окна.
Символы на клопах вращения указывают на оси и направление вращения. Вы можете вращать область координат пошагово при помощи коротких щелчков или беспрерывно, удерживая кнопку мыши нажатой. Производимое таким образом вращение, отображается при помощи системы трех осей в центре окна редактора диаграмм.
Диалоговое окно Pie Options (Параметры круговой диаграммы)
Рис. 22.69: Диалоговое окно Pie Options (Параметры круговой диаграммы)
Диалоговое окно Pie Options: Label Format (Параметры круговой диаграммы: Формат метки)
Рис. 22.70: Диалоговое окно Pie Options: Label Format (Параметры круговой диаграммы: Формат метки)
Результаты голосования на местных выборах в земле Гессен 1993.
Рис. 22.71: Результаты голосования на местных выборах в земле Гессен 1993.
Откроется диалоговое окно Scatterplot Options (Параметры диаграммы рассеяния) (см. рис. 22.72).
Диалоговое окно Scatterplot Options (Параметры диаграммы рассеяния)
Рис. 22.72: Диалоговое окно Scatterplot Options (Параметры диаграммы рассеяния)
Диалоговое окно Scatterplot...
Рис. 22.73: Диалоговое окно Scatterplot Options: Fit Line (Параметры диаграммы рассеяния: Приближённая линия)
В корректировке нуждаются ещё названия переменных.
Матричная диаграмма рассеяния с регрессионными прямыми и доверительными интервалами
Рис. 22.74: Матричная диаграмма рассеяния с регрессионными прямыми и доверительными интервалами
Стандартные графики
Стандартные графикиОдним из достоинств SPSS для Windows является наличие большого количества разнообразных графиков, которые могу быть построены как при помощи процедур меню графиков, так и из разнообразных процедур меню статистик. Что касается последнего меню, то для выяснения специальных возможностей графического представления Вы можете обратиться к главам: 6 (частотный анализ), 10 (предварительное исследование данных), И (таблицы сопряженности), 16 (регрессионный анализ), 20 (анализ выживания) и 24 (многомерное масштабирование). В главе 4 (Краткий обзор SPSS для Windows) уже были рассмотрены некоторые вопросы построения и редактирования графиков.
Каждый созданный график появляется в окне просмотра вместе с другими таблицами. Для построения графика, как правило, оказывается достаточным после выбора типа графика указать необходимые переменные, на основании которых он и будет построен по ранее заданной схеме. Если же у Вас появилось желание отредактировать график по своему вкусу, то для этого необходимо дважды щёлкнуть на какой-либо точке в пределах графика. После этого у Вас появится множество возможностей для дополнительного редактирования.
Начиная с 8-ой версии в SPSS наряду с традиционными стандартными графиками существует возможность создавать и интерактивные графики. Стандартные графики строятся при помощи многочисленных процедур статистического меню или меню графиков, составные компоненты которых и соответственно их возможности нисколько не изменились. Однако, в меню графиков добавилась ещё одна позиция — Interactive (Интерактивно), которая открывает ещё одно собственное меню, служащее для построения так называемых интерактивных графиков. Интерактивные графики дают довольно широкую палитру новых возможностей.
Наряду с удобными глобальными возможностями менять отдельные стилевые элементы графиков и преобразовывать переменные, используемые для построении графика, отныне при помощи интерактивных графиков становится также возможным одновременное построение нескольких графиков для отдельных категорий дополнительных переменных.
Чтобы последовательно изложить эти новые возможности интерактивных графиков, процедуры построения графиков в SPSS должны быть рассмотрены в двух отдельных главах. В текущей главе рассматриваются исключительно традиционные стандартные графики; новые интерактивные графики будут представлены в следующей главе (гл. 23). Обратимся теперь к стандартным графикам.
Разобраться в многочисленных графиках, создаваемых при помощи меню графиков составляет трудность пожалуй только для новичка, поэтому мы не будем здесь рассматривать все имеющиеся тонкости. Однако мы попытаемся дать обзор графиков при помощи типичных практических примеров. При этом в окно просмотра будет выводиться установленный по умолчанию базовый вид графиков, правда, с необходимыми для нас заголовками, подзаголовками и сносками. Возможные изменения (штриховки, цвет, виды линий, виды диаграмм, изменение типа и размера шрифта и т.д.) будут рассмотрены в разделе 22.16.
При разработке графического представления диаграмм можно заметить, что в принципе на практике существуют две различные исходные ситуации. Наиболее часто встречается ситуация, когда дополнительно к результатам статистического анализа, хранящимся в файле данных SPSS, необходимо построить и графическое представление этих результатов. К примеру, у Вас появилось желание представить частоты четырёх возрастных групп из исследования гипертонии (файл hyper.sav) в виде линейчатой диаграммы. В этом случае компьютер сам при помощи соответствующих расчётов находит частоты, необходимые для построения столбцов диаграммы.
Совсем другую ситуацию можно наблюдать, если перед нами находятся уже подсчитанные и обработанные данные. Такой случай возникает, если бы, к примеру, Вы взяли из газеты информацию о ежедневной добыче нефти стран, входящих в ОРЕС, и захотели бы представить эти данные в виде линейчатой диаграммы. При наличии таких готовых данных, очень часто приходится поразмыслить над тем, как их представить в файле.
Перед рассмотрением графиков необходимо остановиться ещё раз на одном важном моменте. Установки по умолчанию задают различные цвета, в которые окрашиваются элементов графиков (к примеру, маркеры, сегменты) и линии, что облегчает понимание диаграммы и улучшает презентабельность. Если же Вы хотите напечатать график на принтере или представить его в других формах, то в большинстве подобных случаев использовать цветные графики не рекомендуется. В таких случаях разные поверхности Вы можете обозначить при помощи различных штриховок, а разные линии при помощи различных видов линий.
Задачи статистики в пакете SPSS
Коррекция интерактивных графиков
23.10 Коррекция интерактивных графиковДля того, чтобы получить больше информации об интересующих Вас данных или приукрасить диаграммы перед презентацией, Вы можете их многогранно откорректировать.
Некоторые виды корректировок мы Вам уже представляли. К ним относятся:
Мы объясним ещё нескольких принципиальных моментов на уже рассмотренных нами примерах. Данные для примеров взяты из знакомого уже нам файла pcalltag.sav.
Теперь при помощи правой кнопки мыши вы можете активировать для корректировки любой элемент диаграммы, после чего появляется соответствующее контекстное меню. В этом меню Вам предоставляются обширные возможности для коррекции элементов.
Построение диаграммы по данным сводной таблицы
23.11 Построение диаграммы по данным сводной таблицыДанные, находящиеся в сводной таблице результатов разнообразных статистических расчетов, могут быть непосредственно отображены в графическом виде. Порядок действий рассмотрим на простом примере.
| Frequency (Частота) | Percent (Процент) | Valid Percent (Действи-тельный процент) | Cumulative Percent (Совоку-пный процент) | ||
| Valid (Действитель ные значения) | vormittags (первая половина) | 118 | 9,6, | 11,1 | 11,1 |
| nachmittags (вторая половина) | 331 | 26,9 | 31,3 | 42,4 | |
| abends (вечер) | 524 | 42,6 | 49,5 | 91,9 | |
| nachts (ночь) | 86 | 7,0 | 8,1 | 100,0 | |
| Total (Сумма) | 1059 | 86,2 | 100,0 | ||
| Missing (Отсутству-ющие значения) | Nichtnutzer (Неисполь-зующие) | 65 | 5,3 | ||
| System (Системные значения) | 105 | 8,5 | |||
| Total (Сумма) | 170 | 13,8 | |||
| Total (Сумма) | 1229 | 100,0 |
Простая столбчатая диаграмма: отображение частот
23.1.1 Простая столбчатая диаграмма: отображение частотОдин из вопросов цитируемого исследования звучал так: В какое время суток Вы предпочитаете работать за компьютером? "Частотные показатели" ответов на отдельные категории этого вопроса должны быть представлены в графическом виде.
Это диалоговое окно имеет строение, типичное для диалогов построения интерактивных графиков. Оно разбито на пять регистрационных карт, первая из которых Assign Variables (Присвоить переменные) открывается сразу после открытия окна. Эта карта состоит из списка переменных, пяти полей для ввода переменных, двух кнопок с символами в верхней части регистрационной карты, соответствующих двум возможностям построения диаграммы и трёх выключателей.
В зависимости от установок, активированных на данный момент времени, переменные в списке могут быть отсортированы в алфавитном порядке или по типу переменных. Если Вы хотите изменить этот порядок, щёлкните правой кнопкой мыши на одной из переменных и в появившемся меню выберите желаемый тип сортировки.
В этом же меню Вы можете указать, должны ли переменные в исходном списке быть представлены при помощи своих имён или при помощи меток. Так как метки переменных ввиду своей большой длины, как правило, не могут быть полностью отображены в списке переменных, мы рекомендуем, оставить представление переменных в виде их имён.
Переменные, находящиеся в списке переменных, можно разделить на два типа: категориальные и метрические. Эти два типа переменных идентифицируются при помощи двух разных символов, устанавливаемых в начале имени. Категориальными переменными являются переменные, относящиеся к номинальной или порядковой шкале. После активирования необходимой переменной и щелчка правой кнопкой мыши может быть изменён и её тип.
В данном примере категориальными являются переменные: arbeit (облегчение рабочих процессов), besitz (обладание компьютером), fachgr (группы специальностей), freund (трудность завязывания знакомств), gcsclil (пол), internet (использование Интернета), pczeit (время суток, когда используется компьютер) и uebstaat (пусть компьютерными технологиями занимается государство). К метрическим переменным относятся: compstd (количество часов за компьютером в неделю), interstd (количество часов в Интернете в неделю) и semester (количество семестров). К ним добавляются ещё и системные переменные Scount (частота), Spct (процент) и Scase (наблюдение), которые используются для построения столбчатых диаграмм с абсолютными частотами, процентными показателями или диаграмм для отдельных наблюдений соответственно.
Простая столбчатая диаграмма: характеристики метрической переменной
23.1.2 Простая столбчатая диаграмма: характеристики метрической переменнойПеременная fachgr (труппы специальностей) описывает шесть разных групп специальностей, а переменная compstd (количество часов за компьютером в неделю) количество часов в неделе, которое студенты проводят за компьютером. Мы хотим на простой столбчатой диаграмме отобразить зависимость среднего количества часов, проводимых за компьютером, от профилирующей специальности.
Группированная столбчатая диаграмма
23.1.3 Группированная столбчатая диаграммаРассмотрим теперь как частоты различных ответов на вопрос: "В какое время с; -ток Вы предпочитаете работать за компьютером?" зависят от пола респондентов. Для этого имеются четыре возможности.
Штабельная столбчатая диаграмма
23.1.4 Штабельная столбчатая диаграммаВместо группированной столбчатой диаграммы вы можете построить штабельную столбчатую диаграмму. Для этого переключатель, находящийся рядом с полем Color (Цвет) или Style (Стиль), установите в положение Stack (Штабельная).
Группированная диаграмма с рисунка 23.17 при установке режима Stack (Штабельная) выглядит так, как изображено на рисунке 23.19.
Столбчатые диаграммы
23.1 Столбчатые диаграммыВозможности, которые SPSS предлагает для построения этого вида диаграмм, проиллюстрируем с использованием нескольких переменных, содержащихся в файле pcalltag.sav. В этом файле находятся ограниченный набор из многочисленных переменных, полученных в ходе исследования на тему "Компьютер в повседневной жизни", проведенного в Институте Социологии Магдебургского Университета им. Филиппса.
Простые линейчатые диаграммы
23.2.1 Простые линейчатые диаграммыНемецкие пивовары в последнее время стали жаловаться на снижение уровня потребления пива. Представим развитие потребления пива в графическом виде.
Сложные линейчатые диаграммы
23.2.2 Сложные линейчатые диаграммыСложная диаграмма получается при разбиении одной переменной на категории.
В регистрационной карте Dots and Lines (Точки и линии) Вы можете активировать отображение связывающих линий; тогда на сложной линейчатой диаграмме будут соединены между собой точки с одинаковой координатой х. Построение связывающих линий вы также можете организовать путём выбора меню Graphs (Графики) Interactive (Интерактивно) Drop-Line... (Связывающие линии) Теперь обратимся к диаграммам с областями.
Линейчатые диаграммы
23.2 Линейчатые диаграммыОтображение информации в виде линейчатой диаграммы, как правило, выбирается в том случае, если необходимо отобразить изменение показателей с течением времени. При этом делается различие между отображением одной переменной (простая линейчатая диаграмма) и разбиением одной переменной при помощи некоторой категориальной переменной (сложная линейчатая диаграмма).
Площадные диаграммы
23.3 Площадные диаграммыЕсли области, находящееся под линиями, закрашены, то в таком случае говорят о диаграммах с областями. Как правило, диаграммы такого рода выглядят, показательней.
Для объяснения площадных диаграмм должно быть достаточно одного простого примера. Вернёмся для этого к файлу bierjahr.sav, рассмотренному в разделе 23.2.1, который содержит данные о потреблении пива с 1970 по 1997 годы.
Простые круговые диаграммы
23.4.1 Простые круговые диаграммыВ главе 23.1.1 был представлен файл pcalltag.sav. содержащий некоторые переменные из исследования на тему Компьютер в повседневной жизни. Представим переменную pczeit (В какое время суток Вы предпочитаете работать за компьютером?) в виде круговой диаграммы.
Штабельные круговые диаграммы
23.4.2 Штабельные круговые диаграммыПри помощи штабельной диаграммы отображение некоторой категориальной переменной может производиться по группам, обусловленным некоторой дополнительной переменной.
Рассыпанная круговая диаграмма (рассыпанные круги)
23.4.3 Рассыпанная круговая диаграмма (рассыпанные круги)Круговые диаграммы могут быть разложены в двумерной х-у системе координат, по осям которой будут отображаться две дополнительные категориальные переменные. При активировании соответствующего символа можно добавить и третью переменную (r), что приведёт к построению трёхмерной диаграммы.
Мы хотим при помощи такой диаграммы представить реакцию на положение: "Я тяжело вхожу в дружеские отношения" (переменная freund) в зависимости от пола и использования сети Интернет (да — нет).
Круговые диаграммы
23.4 Круговые диаграммыКруговая диаграмма, как самый излюбленный способ представления категориальных переменных, выбирается тогда, кода количество категорий не велико. При помощи диаграмм этого вида можно отобразить абсолютные или процентные показатели частот категориальных переменных или слагаемые некоторой метрической переменной, если их можно с учётом категорий представить в виде некоторой общей суммы, имеющей определенный смысл, которая будет соответствовать ста процентам. В рамках интерактивных графиков SPSS предлагает простые, штабельные и разложенные круговые диаграммы.
Коробчатые диаграммы
23.5 Коробчатые диаграммыТак называемые коробчатые диаграммы являются самыми удобными для отображения медианы, первого и третьего квартилей, минимального и максимального значений, а также аномальных и экстремальных значений.
В файле klin.sav хранятся некоторые медицинские показатели, описывающие состояние 981 пациента некоторой клиники. Постоим сначала две отдельные диаграммы уровня сахара в крови, разделённые по половому признаку.
Столбчатые диаграммы величины ошибки
23.6 Столбчатые диаграммы величины ошибкиЕсли коробчатые диаграммы служат для графического представления показателей переменных, которые не подчиняются нормальному распределению (медиана, квартили), то диаграммы величины ошибки служат для отображения значений нормально распределённых переменных (среднее значение, стандартное отклонение, стандартная ошибка). Похожие столбцы, применяемые для отображения ошибок уже были рассмотрены в разделе 23.1 (см. рис. 23.10). Там они рассматривались при объяснении построения столбчатых диаграмм.
Для объяснения примера построения интерактивной диаграммы величины ошибки возьмём файл klin.sav, упоминавшийся в разделе 23.5. В этом файле среди множества переменных, описывающих состояние довольно большого коллектива пациентов, хранятся переменные gr (рост) и alterk (шесть возрастных групп). Мы хотим построить график среднего значения и стандартного отклонения роста в зависимости от этих возрастных групп.
Гистограммы
23.7 ГистограммыГистограммы отображают распределение переменных, принадлежащих к интервальной шкале. При таком отображении значения переменной разделяются на интервалы, производится подсчёт частот попадания отдельных значений переменных в эти интервалы и после этого полученные показатели представляются в форме столбцов, расположенных в непосредственной близости друг к другу. В соответствии с установками по умолчанию, количество и ширина интервалов выбирается программой автоматически; при желании эти величины могут быть установлены пользователем.
Отобразим при помощи гистограммы распределение показателей роста (переменная gr) группы пациентов из файла klin.sav.
Диаграммы рассеяния
23.8 Диаграммы рассеянияПри помощи диаграмм рассеяния описываются отношения между двумя интервальными переменными, которые представляются в форме скопления точек. Возможны также и трёхмерные диаграммы рассеяния, но их, как правило, довольно тяжело интерпретировать.
В файле welt.sav сохранены несколько переменных, характеризующие 109 стран, к ним относятся: название страны, код региона, средняя ожидаемая продолжительность жизни мужчин и женщин, а также ежедневное потребление калорий.
Отобразим зависимость ожидаемой продолжительности жизни мужчин от ежедневного количества потребления калорий.
Интерактивные режимы работы с графиками
23.9 Интерактивные режимы работы с графикамиК построению интерактивных графиков можно подойти и с принципиально другой стороны. Мы покажем Вам этот отличительно другой принцип действий на примере и предоставим Вам возможность самостоятельно решать, нравится он вам или нет.
Построим простую столбчатую диаграмму для переменной pczeit (время суток) из файла pcalltag.sav (см. рис. 23.6).
Диалоговое окно Create Bar Chart (Создание столбчатой диаграммы)
Диалоговое окно Create Bar Chart (Создание столбчатой диаграммы)
Горизонтальная, простая столбчатая диаграмма
Горизонтальная, простая столбчатая диаграмма
Интерактивные графики
Интерактивные графикиНачиная с 8-ой версии, SPSS предоставляет в распоряжение пользователя так называемые интерактивные графики, которые располагают множеством новых возможностей по сравнению с прежними графиками, теперь уже получившими название стандартных.
Диаграммы, которые можно построить с помощью интерактивного графического интерфейса, включают следующие виды:
Меню диалогового окна Create Bar Chart (Создание столбчатой диаграммы)
Меню диалогового окна Create Bar Chart (Создание столбчатой диаграммы)
Первые два из пяти имеющихся полей расположены в виде схематичной х-у-системы координат, причём в поле оси у сразу по умолчанию внесена системная переменная Scount (частота). Это означает, что если Вы оставите эту предварительную установку, то будет построена столбчатая диаграмма, отображающая абсолютные частоты. Обрабатываемая переменная должна быть помещена в поле оси х.
Во всех диалоговых окнах, рассмотренных нами ранее, для перемещения переменной из поля исходных переменных в какое-либо поле тестируемых переменных необходимо было выделить её щелчком мыши и воспользоваться кнопкой со стрелкой, указывающей направление перемещения. В диалоговых окнах для построения интерактивных графиков перенос переменной осуществляется при помощи техники перетаскивания. Если вы расположите указатель мыши над одной из переменных, он примет вид руки. Теперь удерживая нажатой кнопку мыши, перенесите эту переменную в необходимое поле.
Престал столбчатая диаграмма с абсолютными частотами
Престал столбчатая диаграмма с абсолютными частотами
Простая столбчатая диаграмма средних значений
Простая столбчатая диаграмма средних значений
Займёмся теперь расшифровкой отдельных элементов регистрационных карт.
Существует три формы столбцов ошибок и четыре различных направления прорисовки этих столбцов.
Простая столбчатая диаграмма с отключенной подсказкой
Простая столбчатая диаграмма с отключенной подсказкой
Для этого перетащите в поле оси у системную переменную $pct (процент) и вновь активируйте вывод вертикальной столбчатой диаграммы.
После рассмотрения представления абсолютных частот и процентных показателей при помощи простой столбчатой диаграммы, необходимо обратить внимание на то, как могут быть отображены средние значения, к примеру, медианы или другие показатели одной переменной в зависимости от другой, категориальной переменной.
Простая столбчатая диаграмма с процентными показателями
Простая столбчатая диаграмма с процентными показателями
Регистрационная карта Bar Chart Options (Параметры столбчатой диаграммы)
Регистрационная карта Bar Chart Options (Параметры столбчатой диаграммы)
Регистрационная карта Error Bars (Столбцы по величинам ошибки)
Рис. 23.10: Регистрационная карта Error Bars (Столбцы по величинам ошибки)
Столбчатая диаграмма с указанием стандартной ошибки
Рис. 23.11: Столбчатая диаграмма с указанием стандартной ошибки
К сожалению, в данной диаграмме респонденты, полностью разделяющие левые политические взгляды, изображаются самым коротким столбцом, что может быть объявлено кодировкой (1 = согласен).
Диалоговое окно Scale Axis (Масштабировать ось)
Рис. 23.12: Диалоговое окно Scale Axis (Масштабировать ось)
Простая столбчатая диаграмма с коррекцией оси
Рис. 23.13: Простая столбчатая диаграмма с коррекцией оси
Следующие два варианта построения диаграммы получаются благодаря введению легенды, отражающей принадлежность столбцов при помощи цвета и узора.
Диалоговое окно построения столбчатой диаграммы в трёхмерной системе координат
Рис. 23.14: Диалоговое окно построения столбчатой диаграммы в трёхмерной системе координат
Группированная столбчатая диаграмма в трёхмерной системе координат
Рис. 23.15: Группированная столбчатая диаграмма в трёхмерной системе координат
Группированная столбчатая диаграмма с переменной в качестве легенды (различные цвета)
Рис. 23.16: Группированная столбчатая диаграмма с переменной в качестве легенды (различные цвета)
Группированная столбчатая...
Рис. 23.17: Группированная столбчатая диаграмма с переменной в качестве легенды (различная штриховка)
Столбчатая диаграмма, группированная при помощи полевой переменной
Рис. 23.18: Столбчатая диаграмма, группированная при помощи полевой переменной
Штабельная столбчатая диаграмма (различная штриховка)
Рис. 23.19: Штабельная столбчатая диаграмма (различная штриховка)
Имейте в виду, что в данном примере каждому году соответствует только одно значение зависимой переменной (bier (пиво)); в общем случае же каждому значению независимых переменных Вы можете поставить в соответствие сколько угодно значений зависимых переменных, которые затем обрабатываются, например, вычисляется среднее значение. Это значение и отображается на диаграмме. Подобный пример будет рассматриваться дальше.
Диалоговое окно Create Line (Создание линейчатой диаграммы)
Рис. 23.20: Диалоговое окно Create Line (Создание линейчатой диаграммы)
Обратите внимание на то, что шкала потребления пива начинается не с нулевой отметки, из-за чего снижение потребления очень сильно бросается в глаза. Для большей наглядности Вы можете дополнительно отметить маркерами значения, соответствующие отдельно взятым годам.
Простая линейчатаядиаграмма
Рис. 23.21: Простая линейчатаядиаграмма
Кривую на диаграмме вы можете представить и в виде ленты.
Простая линейчатая диаграмма с отображением отдельных точек
Рис. 23.22: Простая линейчатая диаграмма с отображением отдельных точек
Простая линейчатая диаграмма с 3-D эффектом (лента)
Рис. 23.23: Простая линейчатая диаграмма с 3-D эффектом (лента)
В заключении обзора линейчатых диаграмм мы приведём пример, в котором для диаграммы будут рассчитаны средние значения нескольких показателей. Некоторая фирма, занимающаяся производством минеральной воды, утверждает, что регулярное употребление воды производства этой фирмы ведёт к снижению уровня холестерина в крови. Для того, чтобы это доказать на протяжении 12 недель проводилось наблюдение за 18 добровольцами.
Простая линейчатая диаграмма с доверительным интервалом
Рис. 23.24: Простая линейчатая диаграмма с доверительным интервалом
Сложная линейчатая диаграмма с 3D эффектом
Рис. 23.25: Сложная линейчатая диаграмма с 3D эффектом
диалоговое окно Create Area Chart (Создание диаграммы с областями)
Рис. 23.26: диалоговое окно Create Area Chart (Создание диаграммы с областями)
Простая площадная диаграмма
Рис. 23.27: Простая площадная диаграмма
Диалоговое окно Create Simple Pie Chart (Создание простой круговой диаграммы)
Рис. 23.28: Диалоговое окно Create Simple Pie Chart (Создание простой круговой диаграммы)
Если вы будете использовать диаграмму для экранной презентации или печатать на цветном принтере, присвойте каждому сегменту свой цвет; если же Вы будете печатать диаграмму в чёрно-белых тонах, то лучше применить различные виды штриховок.
Вы можете построить одновременно несколько диаграмм, находящихся рядом друг с другом или друг над другом, если зададите несколько полевых переменных. Мы хотим отобразить зависимость переменной polgrund (Политическая позиция) от переменных geschl (пол) и internet (Использование Интернета: да или нет).
Простая круговая диаграмма
Рис. 23.29: Простая круговая диаграмма
Для круговых диаграмм тоже можно применить трёхмерный эффект.
Простые круговые диаграммы с влиянием полевых переменных
Рис. 23.30: Простые круговые диаграммы с влиянием полевых переменных
В результате этих действий Вы получите круговую диаграмму с трёхмерным эффектом. В качестве примера ещё одного способа обработки круговой диаграммы рассмотрим отделение сегмента, а именно, сегмента, соответствующего доле учащихся, которые специализируются в естественных науках.
Круговая диаграмма в трёхмерном исполнении с отделённым сектором
Рис. 23.31: Круговая диаграмма в трёхмерном исполнении с отделённым сектором
Последним примером простой круговой диаграммы будет отображение сумм некоторой метрической переменной в зависимости от категорий зависимой переменной.
Простая круговая диаграмма с представлением суммы
Рис. 23.32: Простая круговая диаграмма с представлением суммы
Из диаграммы можно сделать вывод о том, что студенты работают на компьютере в основном по вечерам и намного реже в первой половине дня и ночью.
Группированная круговая диаграмма
Рис. 23.33: Группированная круговая диаграмма
Эта диаграмма представляется не очень наглядной, поэтому для её изучения мы ограничимся приведенным примером.
Разделённая круговая диаграмма
Рис. 23.34: Разделённая круговая диаграмма
Трёхмерный вариант диаграммы с использованием ЗD-эффектов, который строится путём установки соответствующего выключателя в положение 3D Coordinate (Трехмерные координаты), будет не столь показательным и поэтому не рекомендуется для применения.
Диалоговое окно Create Boxplot (Создание коробчатой диаграммы)
Рис. 23.35: Диалоговое окно Create Boxplot (Создание коробчатой диаграммы)
Коробчатая диаграмма с аномальными и экстремальными значениями
Рис. 23.36: Коробчатая диаграмма с аномальными и экстремальными значениями
В коробчатых диаграммах аномальные значения обозначаются кружками, а экстремальные звёздочками. Аномальными считаются те значения, которые находятся за пределами коробки между отметками полуторной и тройной высоты этой коробки. Если маркировки аномальных и экстремальных значений Вам мешают и Вы захотите от них избавиться, то поступите следующим образом:
Коробчатая диаграмма...
Рис. 23.37: Коробчатая диаграмма с отключённым режимом демонстрации аномальных и экстремальных значений
Коробчатая диаграмма с одной переменной легенды
Рис. 23.38: Коробчатая диаграмма с одной переменной легенды
Ещё одной разновидностью группировки при помощи дополнительной переменной, является группировка при помощи полевой переменной.
Коробчатая диаграмма с одной полевой переменной
Рис. 23.39: Коробчатая диаграмма с одной полевой переменной
Ещё одну возможность добавления дополнительной переменной в диаграмму открывает активирование режима 3D Coordinate (Третья координата). Но этот вариант представления данных является очень непоказательным.
В заключение продемонстрируем ещё коробчатую диаграмму с ЗD-эффектом.
Коробчатая диаграмма с применением трехмерного эффекта и указанием частот
Рис. 23.40: Коробчатая диаграмма с применением трехмерного эффекта и указанием частот
Диалоговое окно Create Error Bar Chart (Создание столбчатой диаграммы величины ошибки)
Рис.23.41: Диалоговое окно Create Error Bar Chart (Создание столбчатой диаграммы величины ошибки)
Диаграмма величины ошибки
Рис. 23.42: Диаграмма величины ошибки
Диаграмма величины ошибки с ЗD-эффектом
Рис. 23.43: Диаграмма величины ошибки с ЗD-эффектом
Группированная диаграмма величины ошибки
Рис. 23.44: Группированная диаграмма величины ошибки
Чтобы столбцы не пересекались, они отображаются с некоторым смещением.
Диалоговое окно Create Histogram (Создание гистограммы)
Рис. 23.45: Диалоговое окно Create Histogram (Создание гистограммы)
В трёхмерной системе координат мы уже видим две гистограммы. Отображение кривой нормального распределения в этом случае невозможно.
Вы можете организовать вывод так называемой кумулятивной гистограммы; интервальные частотные показатели при этом будут суммироваться.
Гистограмма с кривой нормального распределения
Рис. 23.46: Гистограмма с кривой нормального распределения
Группированная гистограмма
Рис.23.47: Группированная гистограмма
Сводная гистограмма
Рис. 23.48: Сводная гистограмма
Для того, чтобы решить, подчиняется ли рассматриваемая переменная нормальному распределению, недостаточно полагаться только на внешний вид гистограммы, а лучше провести более точный статистический тест. SPSS для этого предлагает тест Колмогорова-Смирнова (см. разд. 14.5); для нашего примера этот тест дает результат/> = 0,02, что говорит о значимом отклонении рассматриваемого распределения от нормального.
Диалоговое окно Create Scatterploi (Создание диаграммы рассеяния)
Рис. 23.49: Диалоговое окно Create Scatterploi (Создание диаграммы рассеяния)
Диаграмма рассеяния
Рис. 23.50: Диаграмма рассеяния
Чтобы теперь обозначить отдельные точки, щёлкайте на них правой кнопкой мыши и в появляющемся контекстном меню выбирайте опцию Symbol Label (Метка точки) (см. рис. 23.51). Пользуясь клавишей Shift, Вы можете также сразу выбрать интересующие Вас точки и за один шаг обозначить их меткой.
Страны, представленные в этом файле, разделены на шесть регионов. Теперь при помощи диаграммы рассеяния мы хотим отобразить зависимость продолжительности жизни от потребляемого количества калорий для всех стран, обозначив при этом страны, относящиеся к разным регионам при помощи отличительных маркеров.
Теперь нанесём на диаграмму регрессионную прямую и соответвующий доверительный интервал.
Опция Symbol Label (Метка точки)
Рис. 23.51: Опция Symbol Label (Метка точки)
Диаграмма рассеяния с различными маркерами для обозначения точек
Рис. 23.52: Диаграмма рассеяния с различными маркерами для обозначения точек
На диаграмме теперь присутствуют регрессионная прямая и линии, обозначающие границы доверительного интервала. Слегка мешает описание приведенной на диаграмме линейной регрессии и соответствующей меры определенности.
Диаграмма рассеяния с регрессионной прямой и доверительным интервалом
Рис. 23.53: Диаграмма рассеяния с регрессионной прямой и доверительным интервалом
И в заключение, мы приведём пример построения диаграммы рассеяния в трёхмерном пространстве. В файле wasser.sav в виде переменных х, у и grw приведены данные измерения линии фунтовых вод города Штадталлендорф, находящегося на земле Гессен. Переменные х и у соответствуют координатам области размером 4x4 километра, в пределах которой проводились измерения уровня грунтовых вод (в метрах).
Для трёхмерного режима существует возможность плавного вращения диаграммы. Благодаря такому вращению сглаженную поверхность можно оценить из разных точек просмотра.
Трёхмерная диаграмма рассеяния со сглаживанием
Рис. 23.54: Трёхмерная диаграмма рассеяния со сглаживанием
Повёрнутая трёхмерная диаграмма рассеяния
Рис. 23.55: Повёрнутая трёхмерная диаграмма рассеяния
С этой позиции диаграмма просматривается лучше, чем в предыдущем варианте.
Диалоговое окно Assign Graph Variables (Присвоение переменных для графика)
Рис. 23.56: Диалоговое окно Assign Graph Variables (Присвоение переменных для графика)
Переместите переменную pczeit (время суток) в поле оси х, а системную переменную Spct (процент) в поле оси у. В окне просмотра появится столбчатая диаграмма с соответствующими переменными. Таким же образом Вы можете построить, а затем откорректировать все диаграммы, рассмотренные в разделах с 23.1 по 23.8.
Простая столбчатая диаграмма с заголовком и подсказкой
Рис. 23.57: Простая столбчатая диаграмма с заголовком и подсказкой
Откорректированная простая столбчатая диаграмма
Рис. 23.58: Откорректированная простая столбчатая диаграмма
На диаграмме появится координатная сетка, которая облегчит сопоставление точек построенной кривой цифровыми значениями, откладываемыми по осям.
Теперь добавим в диаграмму текст.
Линейчатая диаграмма с координатной сеткой и дополнительным текстом
Рис. 23.59: Линейчатая диаграмма с координатной сеткой и дополнительным текстом
Остальные возможности модифицирования графиков, испробуйте, пожалуйста, самостоятельно; отправляйтесь в путешествие на поиски открытий!
Столбчатая диаграмма, построенная на основании данных сводной таблицы
Рис. 23.60: Столбчатая диаграмма, построенная на основании данных сводной таблицы
Столбчатая диаграмма с 3D-эффектом и обозначением столбцов
Столбчатая диаграмма с 3D-эффектом и обозначением столбцов
Следующий пример должен помочь нам лучше разобраться в значении различных типов переменных. Переменная polgrund (политическая позиция), к примеру, так же, как и переменная uebstaat (пусть компьютерными технологиями занимается государство) является категориальной. Первая переменная при помощи кодировок 1 = скорее левый, 2 = центрист и 3 = скорее правый указывает на политическую приверженность, а вторая переменная при помощи кодировок от 1 = согласен до 5 = не согласен выражает отношение к позиции: "Пусть компьютерными технологиями занимается государство".
Задачи статистики в пакете SPSS
Обрабатываемая анкета
24.1 Обрабатываемая анкетаОсобенности модуля Tables изучим на примере исследования мнения членов профсоюзов в отношении организации мероприятий, проводимых 1-го Мая. Исследование проводилось в округе Марбург-Биденкопф. Из общей совокупности членов (примерно 27.000) всех профсоюзов, действующих в округе Марбург-Биденкопф, для исследования была произведена случайная выборка из членских карточек отдельных профсоюзных организаций (был взят каждый 56-й адрес членов различных профсоюзов). Таким образом, в общей сложности было отобрано 474 человека. Вернулась 271 заполненная анкета, что соответствует 57.2 % от общего количества.
Рассмотрим выбранную нами часть довольно обширной анкеты:
Институт политологии
Университет Марбург
Проект 1-е Мая
Анкета
|
v1 Как Вы проводите выходные дни? |
|
|
Просмотр телепередач |
[] |
|
Общение с друзьями |
[] |
|
Приглашаю к себе гостей |
[] |
|
Хобби |
[] |
|
Общество по увлечениям |
[] |
|
Семейные заботы |
[] |
|
Слушаю радио/читаю |
[] |
|
Кино/концерты/театр |
[] |
|
То же, что и всегда/то одно то другое |
[] |
|
Выбираюсь на природу/путешествую |
[] |
|
Необходимые дела (дом, квартира, сад) |
[] |
|
Помощь соседям |
[] |
|
Спорт |
[] |
|
Другое <то, чего нет в списке> |
|
|
v2 Пол |
|
|
Мужской |
[] |
|
Женский |
[] |
|
v3 Являетесь ли Вы активным членом какого-либо общества? |
|
|
Спортивное общество (если да: 1) |
[] |
|
Общество любителей животных |
|
|
(голуби/дрессировка собак/верховая езда) (если да: 1) |
[] |
|
Свободное время (культурная направленность) (и т.д.) Другое <указать> |
[] |
|
v4 Если бы Вы могли выбирать, какое из следуюших предложений по проведению 1*го Мая понравилось бы Вам больше всего? <максимально две позиции> |
|
|
Политические выступления |
[] |
|
Шествия |
[] |
|
Финал розыгрыша кубка |
[] |
|
Музыкальные мероприятия/ярмарки |
[] |
|
Просмотр игр высшей лиги по телевизору |
[] |
|
Демонстрации |
[] |
|
Исполнение рабочих обязанностей |
[] |
|
Путешествие/пикник |
[] |
|
Семейный праздник |
[] |
|
Другое: |
|
|
v5 Сохраняется ли еще актуальность 1-го Мая, как АНЯ трудяшихся? |
|
|
Да (1) |
[] |
|
нет (2) |
[] |
|
не знаю (9) |
[] |
|
v6 Можете ли вы припомнить, как в последние голы здесь, на месте, профсоюзами было организовано празднование 7-го Мая? |
|
|
Да (1) |
[] |
|
нет (2) |
[] |
|
не знаю (9) |
[] |
|
v7 Если ля, какое мероприятие Вы можете припомнить? |
|
|
Собрание |
[] |
|
Шествие |
[] |
|
Демонстрация |
[] |
|
Выступления |
[] |
|
Митинг |
[] |
|
Праздник пива |
[] |
|
Праздничные гуляния |
[] |
|
Музыкальные концерты |
[] |
|
Информационные стенды |
[] |
|
Детский праздник |
[] |
|
Другое: <указать> |
|
|
v8 Принимали ли Вы когда-нибудь участие в первомайских мероприятиях? |
|
|
Да (1) | [][] |
|
нет (2) |
[] |
|
данные отсутствуют/не знаю (9) |
[] |
|
v9 Если да, то в каком голу? |
|
|
<Год> |
|
|
19.. |
[] |
|
v10 Как часто в течение последних 70 лег? <пожалуйста, укажите количество> |
|
|
<всегда = 9> |
[] |
|
v11 Что Вам понравилось? <максимально две позиции> |
|
|
Речи (1) |
[] |
|
Встретил много коллег (2) |
[] |
|
Интересная программа (3) |
[] |
|
Не помню (4) |
[] |
|
Другое: <указать> (5) |
[] |
|
v12 Если Вы не принимали участие в первомайских мероприятиях, то почему? |
|
|
<максимально две позиции> |
|
|
Скучные политические выступления (1) |
[] |
|
Слишком много агитации (2) |
[] |
|
Слишком мало общения (3) |
[] |
|
Слишком много речей (4) |
[] |
|
Слишком много общения (5) |
[] |
|
Чувствуется принудительность праздника (6) |
[] |
|
Слишком много традиционных профсоюзных мероприятий (7) |
[] |
|
Не могу вспомнить (8) |
[] |
|
Не знаю/данные отсутствуют (9) |
[] |
|
v13 Считаете ли Вы, что политически важно, чтобы мероприятия 1-го Мая, как дня трудящихся, организовывали именно профсоюзы и этот подход следует сохранить? |
|
|
Да (1) |
[] |
|
нет (2) |
[] |
|
не знаю (9) |
[] |
|
v14 Согласны ли Вы с утверждением, что 1-е Мая главным образом является праздником / высокопоставленных чиновников? |
[] |
|
Да (1) |
[] |
|
нет (2) |
[] |
|
не знаю (9) |
[] |
|
v15 Чем, по Вашему мнению, преимущественно занимаются профсоюзы в наши дни? |
|
|
<максимально две позиции> |
|
|
Ведут переговоры о тарифах (1) |
[] |
|
35-часовая рабочая неделя/сокращение рабочего времени (2) |
[] |
|
Защищают права наёмных рабочих (3) |
[] |
|
Скандалами (4) |
[] |
|
Образовательной работой (5) |
[] |
|
Производственной работой/представляют интересы производства (6) |
[] |
|
Не знаю/данные отсутствуют (7) |
[] |
|
Другое: |
|
|
v16 Чем, по Вашему мнению, в первую очередь должны заниматься профсоюзы в наши дни> <максимально две позиции> |
[] |
|
Вести переговоры о тарифах (1) |
[] |
|
Переходом на 35-часовую рабочую неделю/сокращением рабочего времени (2) |
[] |
|
Защищать права наёмных рабочих (3) |
[] |
|
Скандалами (4) |
[] |
|
Образовательной работой (5) |
[] |
|
Производственной работой (6) |
[] |
|
Обеспечением сохранности рабочих мест (7) |
[] |
|
Сокращением безработицы (8) |
[] |
|
Образованием и защитой рабочих мест в восточной Германии (9) |
[] |
|
Противостоять нарушениям социальной политики (10) |
[] |
|
Заниматься организацией экологически безвредного производства (11) |
[] |
|
Не знаю/данные отсутствуют (99) |
[] |
|
v17 Членом какой профсоюзной организации Вы являетесь? |
|
|
Профсоюз строителей (BSE) (1) |
[] |
|
Профсоюзная организация Deutsche Post (Немецкая почта) (2) |
[] |
|
Профсоюз полицейской службы (GdP) (3) |
[] |
|
Профсоюз сферы образования (GEW) (4) |
[] |
|
Профсоюз железнодорожников Германии (GdED) (5) |
[] |
|
Торговля Банки Страхование (HBV) (6) |
[] |
|
Профсоюз горнодобывающей промышленности (IG Bergbau) (7) |
[] |
|
Профсоюз химической промышленности (IG Chemie Papier Keramik) (8) |
[] |
|
Профсоюз деревообрабатывающей промышленности (IG Holz) (9) |
[] |
|
Профсоюз кожевенной промышленности (IG Leder) (10) | [] |
|
Профсоюз средств массовой информации (IG Medien) (11) | [] |
|
Профсоюз металлургической промышленности (IG Metall) (12) |
[] |
|
Профсоюз пищевой промышленности (NGG) (13) |
[] |
|
Профсоюз сферы услуг (OTV) (14) |
[] |
|
Профсоюз лёгкой промышленности (ТВ) (15) |
[] |
|
Другой: |
|
|
v18 С какого гола Вы являетесь членом профсоюза? | |
|
<19..> |
[] |
|
v19 Ваш гол рождения |
|
|
<19..> |
[] |
|
v20 Какую должность Вы занимаете в данный момент? | |
|
Студент(ка)/Ученик(ца) (1) |
[] |
|
Рабочий(ая) (2) |
[] |
|
Помощник/ученик на производстве (3) |
[] |
|
Мастер (4) |
[] |
|
Служащий(ая) (5) |
[] |
|
Ведущий специалист (6) |
[] |
|
Высокая государственная должность (7) |
[] |
|
Пенсионер(ка) (8) |
[] |
|
Другое (9) |
[] |
|
Безработный(ая) (10) |
[] |
|
v21 Примерно, в каких пределах находится Ваш ежемесячный доход? |
|
|
до 1.000 DM (1) |
[] |
|
до 2.000 DM (2) |
[] |
|
до 3.000 DM (3) |
[] |
|
до 4.000 DM (4) |
[] |
|
до 5.000 DM (5) |
[] |
|
до 6.000 DM (6) |
[] |
|
до 7.000 DM (7) |
[] |
|
свыше 7.000 DM (8) |
[] |
|
нет данных (9) |
[] |
|
v22 Какая из партий в настояшее время наилучшим образом отражает Вашу позицию? | |
|
CDU/CSU (1) |
[] |
|
SPD (2) |
[] |
|
FDP (3) |
[] |
|
Buendnis 90/Die Gruenen (Союз 90/Зепёные) (4) |
[] |
|
Republikaner (Республиканцы) (5) |
[] |
|
PDS/Linke Liste (Левые) (6) |
[] |
|
Другая (7) |
[] |
|
Ни одна из партий (8) |
[] |
|
v23 Известно ли Вам когда и при каких обстоятельствах 1-е Мая стал законным выходным днем |
|
|
Примерно в 1900 (1) |
[] |
|
Введён благодаря социалистическому интернационалу (2) |
[] |
|
После 1-ой Мировой войны (3) |
[] |
|
Примерно в 1919 (4) |
[] |
|
Введён благодаря рабочим (5) |
[] |
|
Учреждён нацистами/Гитлером (6) |
[] |
|
В результате распоряжения нацистов/Гитлера (7) |
[] |
|
Самый трагичный день для профсоюзов (8) |
[] |
|
До 1900 (9) |
[] |
|
Около 1933 (10) |
[] |
|
После 2-ой Мировой войны (11) |
[] |
|
Данные отсутствуют (99) |
[] |
Результаты опроса находятся в файле mai.sav.
Применение нескольких строчных переменных
24.2.1 Применение нескольких строчных переменныхВ Первомайском исследовании ставился так же вопрос о том, членом какого профсоюза является опрашиваемый (v17). Выведем дополнительно в окно просмотра результаты для переменной v!7.
Выберите в меню следующие опции Analyze (Анализ) Custom Tables (Пользовательские таблицы) Basic Tables... (Основные таблицы)
В диалоговом окне Basic Tables (Основные таблицы) поместите переменные v5 и v17 в список строчных переменных (Subgroups/Down).
Активируйте щелчком опцию Each separately (stacked) (Каждая отдельно (с наложением)).
Подтвердите свой выбор нажатием ОК. Вы получите следующие данные:
|
| ||
|
I1st der 1 .Mai als TdA noch zeitgemaess? (Сохраняет ли ещё актуальность 1-е Мая, как день трудящихся? |
fehlende Anqabe (Данные отсутствуют) |
39 |
|
Ja (Да) |
154 | |
|
Nein (Нет) |
59 | |
|
Weiss nicht (He знаю) |
19 | |
|
Gewerkschaftsmitglied in (Член профсоюза): |
fehlende Angabe (Данные отсутствуют) |
6 |
|
Профсоюз строителей (BSE) |
32 | |
|
Профсоюз Deutsche Post (Немецкая почта) |
13 | |
|
Профсоюз полицейской службы (GdP) |
6 | |
|
Профсоюз сферы образования (GEW) |
20 | |
|
Профсоюз железнодорожников Германии (GdED) |
11 | |
|
Торговля Банки Страхование (HBV) |
19 | |
|
Профсоюз химической промышленности (IG Chemie Papier Keramik) |
22 | |
|
Профсоюз деревообрабатывающей промышленности (IG Holz) |
1 | |
|
Профсоюз работников средств массовой информации (IG Medien) |
11 | |
|
Профсоюз металлургической промышленности (IG Metall) |
73 | |
|
Профсоюз пищевой промышленности (NGG) |
1 | |
|
Профсоюз сферы услуг (? TV) |
52 | |
|
Профсоюз лёгкой промышленности |
1 | |
|
Профсоюз Сад Земля Лес (GGLF) |
3 | |
Добавление второго измерения (столбцовые переменные)
24.2.2 Добавление второго измерения (столбцовые переменные)До этого мы создавали только одномерные таблицы. Одномерная таблица отражает только основную информацию, и не даёт никакой информации, к примеру о том. ответили ли члены Профсоюза сферы образования (GEW) на вопрос, сохраняет ли ещё 1-е Мая актуальность, иначе, нежели члены Профсоюза металлургов (IG Metall). Для получения такой информации мы должны добавить к таблице ещё одно измерение. Для этого поступите следующим образом:
| Ist der 1 .Mai als TdA noch zeitgemaess? (Сохраняет ли ещё актуальность 1-е Мая, как день трудящихся?) | |||||
| fehlende Angabe (Данные отсут-ствуют) | Ja (Да) | Nein (Нет) | Weiss nicht (He знаю) | ||
| Gewerkscha-ftsmitglied in (Член профсоюза): | fehlende Angabe (Данные отсутствуют) | 5 | | 1 | |
| Профсоюз строителей (BSE) | 2 | 25 | 3 | 2 | |
| Профсоюз Deutsche Post (Немецкая почта) | 1 | 8 | 2 | 2 | |
| Профсоюз полицейской службы (GdP) | 2 | | 4 | | |
| Профсоюз сферы образования (GEW) | 11 | 5 | 4 | | |
| Профсоюз железно-дорожников Германии (GdED) | 1 | 7 | 3 | | |
| Торговля Банки Страхование (HBV) | 1 | 13 | 5 | | |
| Профсоюз химической промышленности (IG Chemie Papier Keramik) | | 14 | 6 | 2 | |
| Профсоюз дерево-обрабатывающей промышленности (IG Holz) | | 1 | | | |
| Профсоюз работников средств массовой информации (IG Medien) | 2 | 5 | 4 | | |
| Профсоюз метелургической промыш-ленности (IG Metall) | 4 | 44 | 17 | 8 | |
| Профсоюз пищевой промышленности (NGG) | | | 1 | | |
| Профсоюз сферы услуг (? TV) | 10 | 28 | 9 | 5 | |
| Профсоюз лёгкой промышле-нности | | 1 | | | |
| Профсоюз Сад Земля Лес (GGLF) | | 3 | | |
Рассмотрим ещё один пример двумерной таблицы. В исследовании отношения к празднованию 1-го Мая были также заданы вопросы относительно занимаемой должности (v20) и ежемесячного дохода (v20). Мы хотим при помощи двумерной (перекрёстной) таблицы получить информацию о том, существует ли взаимосвязь между занимаемой должностью и доходом. Для этого поступите следующим образом:
| Nettoeinkommen (monatlich) (Чистыйдоход (в месяц)) | |||||||||
| bis 1.000 DM (до 1.000 DM) | bis 2.000 DM (до 2.000 DM) | bis 3.000 DM (до 3.000 DM) | bis 4.000 DM (до 4.000 DM) | bis 5.000 DMfao 5.000 DM) | bis 6.000 DM (до 6.000 DM) | mehr als 7.000 DM (свыше 7.000 DM) | keine-Angaben (Данные отсут-ствуют) | ||
| Berufs-position (Зани-маемая долж-ность) | Auszubil-dende(r)/ Lerting (Студент (ка)/ Ученик (ца)) | 5 | 3 | ||||||
| Arbei-terln (Рабо-чий(ая)) | 3 | 18 | 23 | 3 | |||||
| Fachar-beiterln/ Geselle (Помощ-ник/ ученик на произ-водстве) | 7 | 34 | 4 | 1 | 1 | ||||
| Meister (Мастер) | 3 | 1 | |||||||
| Anges-tellte(r) (Служа- щий(ая)) | 1 | 19 | 27 | 10 | 3 | 1 | 5 | ||
| Leitende(r) Anges-tellte(r) (Ведущий специ-алист) | 2 | 1 | 3 | 1 | 1 | ||||
| Beamte(r) (Государс-венная руково-дящая должность) | 1 | 3 | 6 | 11 | 5 | 3 | 1 | 1 | |
| Rentn-erln/ Pensio- naerln (Пенсио-нер(ка)) | 5 | 20 | 6 | 3 | 1 | 7 | |||
| Hausfrau/ Hausmann (Домо-хозяйка(ин)) | 4 | 1 | 1 | 1 | 2 | ||||
| Eiwerb-sunfeehg (Нетрудо-способен (а)) | 1 | ||||||||
| Arteitslos (Безра-ботный(ая)) | 1 | 4 | 1 | 2 |
Добавление третьего измерения (табличные переменные)
24.2.3 Добавление третьего измерения (табличные переменные)В исследовании отношения к празднованию 1-го Мая был также задан вопрос, как часто за последние десять лет опрашиваемый присутствовал на мероприятиях, посвящённых 1-му Мая, (v10). Эту переменную мы хотим скрестить с переменной v5, содержащей ответы на вопрос Ist der 1.Mai als TdA noch zeitgemaess? (Сохраняет ли ещё актуальность 1-е Мая, как день трудящихся?). В качестве третьего измерения добавим переменную v2 (Geschlecht (Пол)).
Вложенные данные
24.2.4 Вложенные данныеЕсли в табличных измерениях (строки, столбцы, слои) применяется более одной переменной, то переменные могут выводиться с наложением или с вложением. Сравним сначала оба метода при помощи одномерной таблицы. Нам необходимо получить частотные распределения переменных v2 (Пол) и v8 (Принимали ли Вы когда-нибудь участие в первомайских мероприятиях?). Рассмотрим сначала уже знакомую нам штабельную форму вывода информации.
| | ||
| Geschlecht (Пол) | weiblich (женский) | 77 |
| maennlich (мужской) | 194 | |
| Teilnahme an gewerkschaftlichen Mai-Veranstaltung (Участие в Первомайских мероприятиях, организованных профсоюзами) | fehlende Angabe (Данные отсутствуют) | 3 |
| Ja (Да) | 110 | |
| Nein (Нет) | 156 | |
| keine Angabe/weiss nicht (Данные отсутствуют/не знаю) | 2 |
| Geschlecht (Пол) | weiblich (женский) | Teilnahme an gewerkschaftlichen Mai-Veranstaltung (Участие в Первомайских мероприятиях, организованных профсоюзами) | fehlende Angabe (Данные отсутствуют) | 1 |
| Ja (Да) | 36 | |||
| Nein (Нет) | 40 | |||
| keine Angabe/weiss nicht (Данные отсутствуют/не знаю) | 2 | |||
| maennlich (мужской) | Teilnahme an gewerkschaftlichen Mai-Veranstaltung (Участие в Первомайских мероприятиях, организованных профсоюзами) | fehlende Anqabe (Данные отсутствуют) | ||
| Ja (Да) | 74 | |||
| Nein (Нет) | 116 | |||
| keine Angabe/weiss nicht (Данные отсутствуют/не знаю) | 2 |
Рассмотрим теперь оба метода: вложение и наложение для двумерной таблицы. Речь сначала пойдёт о двумерной таблице с двумя строчными переменными.
| Geschlecht (Пол) | |||
| weiblich (женский) | maennlich (мужской) | ||
| Berufs-position (Занимаемая должность) | Auszubildende(r)/Lerlinq (Студент(кa)/ученик(цa)) | 4 | 4 |
| Arbeiterln (Рабочий(ая)) | 12 | 35 | |
| Facharbeiterln/Geselle (Помощник/ученик на производстве) | 2 | 45 | |
| Meister (Мастер) | 4 | ||
| Angestellte(r) (Служащий(ая)) | 35 | 31 | |
| Leitende(r) Anaestellte(r) (Ведущий специалист) | 1 | 7 | |
| Beamte(r) (Государственная руководящая должность) | 10 | 21 | |
| Rentnerln/Pensionaerln (Пенсионер(ка)) | 6 | 36 | |
| Hausfrau/Hausmann Щомохозяйка(ин)) | 3 | 6 | |
| Erwerbsunfaehig (Нетрудоспособен^)) | 1 | ||
| Arbeitslos (Безработный(ая)) | 3 | 5 | |
| Nettoein kommen (monatlich) (Чистый доход (в месяц)) | bis 1.000 DMJflo 1.000 DM) | 11 | 9 |
| bis 2.000 DM (до 2.000 DM) | 33 | 45 | |
| bis 3.000 DM (до 3.000 DM) | 18 | 83 | |
| bis 4.000 DM (до 4.000 DM) | 7 | 26 | |
| bis 5.000 DM (до 5.000 DM) | 1 | 10 | |
| bis 6.000 DM (до 6.000 DM) | 1 | 3 | |
| mehr als 7.000 DM (свыше 7.000 DM) | 2 | ||
| keine Angaben (Данные отсутствуют) | 6 | 16 |
| Geschlecht (Пол) | |||||
| weiblich (женский) | maennlich (мужской) | ||||
| Berufs position (Зани-маемая должность) | Auszubi ldende(r)/ Lerling (Студент(ка)/ Ученик(ца)) | Nettoein kommen (monatlich) (Чистый доход (в месяц)) | bis 1.000 DM (до 1.000 DM) | 2 | 3 |
| bis 2.000 DM (до 2.000 DM) | 2 | 1 | |||
| Arbeiterln (Рабо-чий(ая)) | Nettoein kommen (monatlich) (Чистый доход (в месяц)) | bis 1.000 DM (до 1.000 DM) | 3 | ||
| bis 2.000 DM (до 2.000 DM) | 7 | 11 | |||
| bis 3.000 DM (до 3.000 DM) | 2 | 21 | |||
| keine Angaben (Данные отсутствуют) | 3 | ||||
| Facharbe iterln/G eselle (Помощник/ учен ик на произво-дстве) | Nettoein kommen (monatlich) (Чистый доход (в месяц)) | bis 2.000 DM (до 2.000 DM) | 11 | 6 | |
| bis 3.000 DM (до 3.000 DM) | 33 | ||||
| bis 4.000 DM (до 4.000 DM) | 4 | ||||
| bis 5.000 DM (до 5.000 DM) | 1 | ||||
| keine Angaben (Данные отсутствуют) | 1 | ||||
| Meister (Мастер) | Nettoein kommen (monatlich) (Чистый доход (в месяц)) | bis 3.000 DM (до 3.000 DM) | 3 | ||
| bis 4.000 DM (до 4.000 DM) | 1 | ||||
| Angestellte(r) (Служа-щий(ая)) | Nettoein kommen (monatlich) (Чистый доход (в месяц)) | bis 1.000 DM (до 1.000 DM) | 1 | ||
| bis 2.000 DM (до 2.000 DM) | 15 | 4 | |||
| bis 3.000 DM (до 3.000 DM) | 12 | 15 | |||
| bis 4.000 DM (до 4.000 DM) | 4 | 6 | |||
| bis 5.000 DM (до 5.000 DM) | 3 | ||||
| bis 6.000 DM (до 6.000 DM) | 1 | ||||
| keine Angaben (Данные отсутствуют) | 3 | 2 | |||
| Leitende(r) Angestellte(r) (Ведущий специалист) | Nettoein kommen (monatlich) (Чистый доход (в месяц)) | bis 2.000 DM (до 2.000 DM) | 1 | 1 | |
| bis 3.000 DM (до 3.000 DM) | 1 | ||||
| bis 4.000 DM (до 4.000 DM) | 3 | ||||
| mehr als 7.000 DM (свыше 7.000 DM) | 1 | ||||
| keine Anqaben (Данные отсутствуют) | 1 |
| Beamte(r) (Государственная руководящая должность) | Nettoeinkommen (monatlich) (Чистый доход (в месяц)) | bis 1 .000 DM (до 1 .000 DM) | 1 | |
| bis 2.000 DM (до 2.000 DMJ | 2 | 1 | ||
| bis 3.000 DM (до 3.000 DM) | 2 | 4 | ||
| bis 4.000 DM (до 4.000 DMJ | 3 | 8 | ||
| bis 5.000 DM (до 5.000 DM) | 1 | 4 | ||
| bis 6.000 DM (до 6.000 DM) | 1 | 2 | ||
| mehr als 7.000 DM (свыше 7.000 DM) | 1 | |||
| keine Angaben (Данные отсутствуют) | 1 | |||
| Rentnerln/ Pensionaerln (Пенсионер(ка)) | Nettoeinkommen (monatlich) (Чистый доход (в месяц)) | bis 1.000 DM (до 1.000 DM) | 3 | 2 |
| bis 2.000 DM (до 2.000 DM) | 3 | 17 | ||
| bis 3.000 DM (до 3.000 DM) | 6 | |||
| bis 4.000 DM (до 4.000 DM) | 3 | |||
| bis 5.000 DM (до 5.000 DM) | 1 | |||
| keine Angaben (Данные отсутствуют) | 7 | |||
| Hausfrau/ Hausmann (Домохозяй-ка(ин)) | Nettoeinkommen (monatlich) (Чистый доход (в месяц)) | bis 1.000 DM (до 1.000 DMJ | 1 | 3 |
| bis 2.000 DM (до 2.000 DM) | 1 | |||
| bis 4.000 DM (до 4.000 DM) | 1 | |||
| bis 5.000 DM (до 5.000 DM) | 1 | |||
| keine Anqaben (Данные отсутствуют) | 2 | |||
| Erwerbsunfaehig (Нетрудо-способен(а)) | Nettoeinkommen (monatlich) (Чистый доход (в месяц)) | bis 2.000 DM (до 2.000 DM) | 1 | |
| Arbeitslos (Безработный(ая)) | Nettoeinkommen (monatlich) (Чистый доход (в месяц)) | bis 1.000 DM (до 1.000 DM) | 1 | |
| bis 2.000 DM (до 2.000 DM) | 1 | 3 | ||
| bis 3.000 DM (до 3.000 DM) | 1 | |||
| keine Angaben (Данные отсутствуют) | 1 | 1 |
Рассмотрим теперь ещё несколько вариантов представления данных нашего примера. Теперь речь пойдёт о двумерной таблице с двумя столбцовыми переменными. Сначала изучим штабельный вариант.
| Nettoeinkommen (monatlich) (Чистый доход (в месяц)) | Geschlecht (Пол) | ||||||||||
| bis 1.000 DM (до 1.000 DM) | bis 2.000 DM (до 2.000 DM) | bis 3.000 DM (до 3.000 DM) | bis 4.000 DM (до 4.000 DM) | bis 5.000 DM (до 5.000 DM) | bis 6.000 DM (до 6.000 DM) | mehr als 7.000 DM (свыше 7.000 DM) | keine Angaben (Данные отсут ствуют) | weib-lich (жен-ский) | maen-nlich (муж-ской) | ||
| Benjfs-position (Зани-маемая долж ность) | Auszubi-ldende(r)/ Lerling (Студент (ка)/ Учени-к(ца)) | 5 | 3 | 4 | 4 | ||||||
| Arbe-iterln (Рабочий (ая)) | 3 | 18 | 23 | 3 | 12 | 35 | |||||
| Fachar-beiterln/ Geselle (Помо-щник/ ученик на произ-водстве) | 7 | 34 | 4 | 1 | 1 | 2 | 45 | ||||
| Meister (Мастер) | 3 | 1 | 4 | ||||||||
| Anges-tellte(r) (Служа-щий (ая)) | 1 | 19 | 27 | 10 | 3 | 1 | 5 | 35 | 31 | ||
| Leite-nde(r) Anges-tellte(r) (Ведущий специа-лист) | 2 | 1 | 3 | 1 | 1 | 1 | 7 | ||||
| Beamte(r) (Государ-ственная руково-дящая долж-ность) | 1 | 3 | 6 | 11 | 5 | 3 | 1 | 1 | 10 | 21 | |
| Rentnerln/ Pensi-onaerln (Пенсио-нер(ка)) | 5 | 20 | 6 | 3 | 1 | 7 | 6 | 36 | |||
| Hau-sfrau/ Haus-mann (Домо-хозяйка(ин)) | 4 | 1 | 1 | 1 | 2 | 3 | 6 | ||||
| Erwerb-sunfaehig (Нетрудо-спосо-бен(а)) | 1 | 1 | |||||||||
| Arbeitslos (Без-работный (ая)) | 1 | 4 | 1 | 2 | 3 | 5 |
| Nettoeinkommen (monatlich) (Чистый доход (в месяц)) | ||||||||||||||||
| bis 1.000 DM (до 1.000 DM) | bis 2.000 DM (до 2.000 DM) | bis 3.000 DM (до 3.000 DM) | bis 4.000 DM (до 4.000 DM) | bis 5.000 DM (до 5.000 DM) | bis 6.000 DM (до 6.000 DM) | mehr als 7.000 DM (свыше 7.000 DM) | keine Angaben (Данные отсут-ствуют) | |||||||||
| (Поп) | (Пол) | (Пол) | (Пол) | (Пол) | (Пол) | (Пол) | (Пол) | |||||||||
| ж | м | ж | м | ж | м | ж | м | ж | м | ж | м | ж | м | м | ||
| Beruf-sposi-tion (Зани-маемая долж-ность) | Auszu-bildende (r)/ Lerling (Студент (ка)/ Ученик (ца)) | 2 | 3 | 2 | 1 | |||||||||||
| Arbeiterln (Рабочий (ая) | 3 | 7 | 11 | 2 | 21 | 3 | ||||||||||
| Fachar-beiterln /Geselle (Помо-щник /ученик на произ-водстве) | 1 | 6 | 1 | 33 | 4 | 1 | 1 | |||||||||
| Meister (Мастер) | 3 | 1 | ||||||||||||||
| Anges-tellte(r) (Служащий (ая)) | 1 | 15 | 4 | 12 | 15 | 4 | 6 | 3 | 1 | 3 | 2 | |||||
| Leite-nde(r) Ange-stellte(r) (Ведущий специ-алист) | 1 | 1 | 1 | 3 | 1 | 1 | ||||||||||
| Beamte(r) (Государ-ственная руково-дящая должность) | 1 | 2 | 1 | 2 | 4 | 3 | 8 | 1 | 4 | 1 | 2 | 1 | 1 | |||
| Rent-nerln/ Pensio -naerln (Пенси онер (ка)) | 3 | 2 | 3 | 17 | 6 | 3 | 1 | 7 | ||||||||
| Haus-frau/ Haus-mann (Дом-охозяйка (ин)) | 1 | 3 | 1 | 1 | 1 | 2 | ||||||||||
| Erwe-rbsunfa-ehig (Нетрудо-спос-обен) | 1 | |||||||||||||||
| Arbe-itslos (Безра-ботный)) | 1 | 1 | 3 | 1 | 1 | 1 |
В целях экономии места мы откажемся от рассмотрения примеров трёхмерных таблиц. Если у Вас есть желание, то используя файл mai.sav, Вы можете поупражняться самостоятельно.
Зависимые и независимые переменные
Какие переменные использовать в качестве строчных, а какие в качестве столбцовых. Вы должны решать самостоятельно. Жёстких правил для этого не существует. Обычно независимую переменную используют в качестве столбцовой, а зависимую в качестве строчной переменной. Если же вы используете вложение при отображении данных, то зависимую переменную, как правило, следует располагать под независимыми.
Процентные показатели
24.2.5 Процентные показателиКак вы наверняка заметили, в простых таблицах обычно приводятся только абсолютные показатели. Но в связи с тем, что зачастую бывает проще сравнивать данные, представленные в процентной форме, рассмотрим теперь возможность отображения процентных показателей.
Процентные показатели по столбцам
Представим сначала в процентной форме ответы на вопрос, является ли ещё 1-е Мая, как день трудящихся, актуальным праздником.
Суммарные значения
24.2.6 Суммарные значенияПри помощи опции подсчета суммарных значений можно составить объединённые показатели некоторого количества ячеек. Разберем сначала следующий пример: партийные предпочтения опрашиваемых (v22) необходимо представить в табличной форме с сортировкой по убыванию и учётом общего количества опрашиваемых.
Средние значения и другие итоговые статистики
24.2.7 Средние значения и другие итоговые статистикиОрганизуем вывод итоговых статистик, таких как среднее значение и стандартное отклонение для переменных v)8 (С какого года Вы являетесь членом профсоюза? <19..>) и v!9 (Ваш год рождения? <19..>). Поскольку в опросе 1993 года относительно организации празднования 1-го Мая не были заданы вопросы: "Сколько лет вы уже являетесь членом профсоюза?" и "Сколько Вам лет?", мы сначала вычислим эти значения исходя их значений переменных v18 и v19. Для этого поступим следующим образом:
Возможности форматирования
24.2.8 Возможности форматированияОтдельно для мужчин и женщин проанализируем членство в отдельно взятых профсоюзных организациях и продемонстрируем возможности переключателей Format... (Формат) и Titles... (Заголовки).
Основные таблицы
24.2 Основные таблицыОдин из вопросов анкеты относительно праздника 1-го Мая звучал следующим образом: Сохраняется ли ещё актуальность 1-го Мая, как дня трудящихся? (v5). Сравним для начала вид стандартных частотных таблиц, которые рассматривались ранее, с видом таблиц, которые строятся при помощи модуля Tables.
Ist der 1.Mai als TdA noch zeitgemaess?
(Сохраняется ли ещё актуальность 1-го Мая, как дня трудящихся)
|
|
Frequericy (Частота) |
Percent (Процент) |
Valid Percent (Действи-тельный процент) |
Cumu-lative Percent (Сово-купный процент) | |
|
Valid (Действи-тельные значения) |
fehlende Angabe (Данные отсут-ствуют) |
39 |
14,4 |
14,4 |
14,4 |
|
Ja (Да) |
152 |
56,8 |
56,8 |
71,2 | |
|
Nein (Нет) |
59 |
21,8 |
21,8 |
93,0 | |
|
Weiss nicht (He знаю) |
19 |
7,0 |
7,0 |
100,0 | |
|
|
Total (Сумма) |
271 |
100,0 |
100,0 |
|
|
|
| |
|
1st der 1 .Mai als TdA noch zeitgemaess? (Сохраняет ли ещё актуальность 1-е Мая, как день трудящихся?) |
fehlende Anqabe (Данные отсутствуют) |
39 |
|
Ja (Да) |
154 | |
|
Nein (Нет) |
59 | |
|
Weiss nicht (He знаю) |
19 | |
Пакетированные и вложенные переменные
24.3.1 Пакетированные и вложенные переменныеМы хотим проверить, зависит ли в отношение к актуальности 1-го Мая, как дня трудящихся, от участия в профсоюзных первомайских мероприятиях и от мнения, что 1-е Мая является праздником только для высокопоставленных функционеров. Проверка будет происходить с разделением по половому признаку. Поступите следующим образом:
Статистики в ячейках
24.3.2 Статистики в ячейкахВ отличие от простых таблиц, в общих таблицах вывод статистик в ячейках можно организовывать отдельно для каждой переменной.
Для демонстрации этой возможности приведём следующий пример:
Суммарные показатели
24.3.3 Суммарные показателиВ общих таблицах, также как и в простых таблицах, Вы можете организовывать вывод суммарных статистик для переменных. Для этого необходимо выделить интересующую переменную и активировать опцию Is summarized (Подвести итог).
Организуем вывод итоговых статистик для переменных alter (возраст) и mitglied (членство) (см. гл. 24.2.7). Для этого поступите следующим образом:
|
mitqlied (членство) |
18,42 |
|
alter (возраст) |
44,17 |
Общие таблицы
24.3 Общие таблицыВспомогательное меню General Tables... (Общие таблицы) предоставляет разнообразные возможности для компоновки таблиц. Если, например, в одной таблице необходимо отобразить различные статистики для нескольких переменных, то для этого имеется специальная опция. Изучим сначала построение общей таблицы на простом примере.
Дихотомический метод
24.4.1 Дихотомический методДля изучения этого метода возьмём вопрос: "Как Вы проводите выходные дни?" Переменные via no vlq представляют ответы на вопрос v1 (via соответствует ответу Просмотр телепередач, vlb Общение с друзьями и т.д.). Переменные при этом являются дихотомическими, то есть они могут иметь только два возможных значения: 1 соответствует ответу "Да", а 0 ответу "Нет/нет данных". Чтобы переменную vl обработать в табличной форме, необходимо сначала определить набор множественных ответов.
Категориальный метод
24.4.2 Категориальный методВ категориальном методе при кодировке сначала определяется максимальное количество ответов. Затем образовывается такое же количество переменных.
С целью изучения особенностей этого метода, мы рассмотрим следующий пример: закодируем вопрос vl: "Как Вы проводите выходные дни?" не дихотомически, а категориально. В этом случае мы сначала подсчитываем максимальное количество отмеченных ответов. Мы исходим, например, из того, что каждый из респондентов отметил не более шести предлагаемых вариантов ответа. Тогда мы образовываем шесть переменных. Эти переменные имеют следующие метки значений: 1 — Просмотр телепередач, 2 — Общение с друзьями, 3 — Приглашаю к себе гостей, 4 — Хобби и т.д. В отличие от дихотомического метода мы обойдёмся меньшим количеством переменных, хотя они и не дихотомические, а имеют более двух категорий. Категориальный метод кодировки применяется прежде всего тогда, когда заранее задано максимальное число возможных ответов, как это было сделано при формулировке вопросов v4, vll, v!2 v!5 и vl6. При кодировке анкеты эти переменные были закодированы категориально. И в категориальном методе необходимо сначала определить набор множественных ответов. Для объяснения категориального метода на примере возьмём переменную v11: "Что Вам понравилось?"
| Gefallen (Одобрение) | es wurde eine ansprecende Rede qehalten (была произнесена интересная речь) | 20 |
| ich konnte viele Kolleqinnen und Kolleqen treffen (я встретил много коллег) | 26 | |
| lebendiqe Proqrammqestaltunq (интересная программа) | 19 | |
| weiss nicht mehr (уже не помню) | 14 | |
| anderes (другое) | 3 | |
| Geselligkeit, Gemeinschaftsqefuehl (общение, чувство сплочённости) | 7 | |
| Solidaritaetskundgebunq (манифестация солидарности) | 4 | |
| Darstellung von und Engagement fuer Arbeiterrechte (изложение прав трудящихся и помощь по защите этих прав) | 5 | |
| Diskussionen, Gespraeche, Meinungsaustausch (дискуссии, беседы, обмен мнениями) | 6 | |
| Kultur, Musik (культурные мероприятия, музыка) | 2 | |
| Feiem, Essen, Trinken (праздничное застолье) | 3 | |
| nichts besonderes (ничего особенного) | 6 | |
| Familie dabei (прогулка с семьёй) | 2 | |
| lokaler Bezugsrahmen/aktuelle Themen (обсуждение местных проблем/актуальные темы) | 3 |
Переменные наборов могут обрабатываться как обычные переменные. Выведем, к примеру, отдельно для каждого пола данные по переменной, которая характеризует варианты проведения свободного времени (переменная набора $frei).
| | | Geschlecht (Пол) | |
| weiblich (женский) | maennlich (мужской) | ||
| Free time (Свободное время) | Femsehen (Просмотр телепередач) | 1 | 8 |
| Geselliqkeit (Общение с друзьями) | 21 | 31 | |
| Stammtisch (Приглашаю к себе гостей) | | 2 | |
| Hobbies (Хобби) | 4 | 22 | |
| Verein (Общество по увлечениям) | 4 | 14 | |
| Familienleben (Семейные заботы) | 2 | 2 | |
| Radio hoeren/Lesen (Слушаю радио/читаю) | | 3 | |
| Kino/Konzerte/Th eater (Кино/концерты/театр) | 6 | 8 | |
| das uebliche/dies und das (To же, что и всегда/то одно то другое) | 51 | 112 | |
| Ausflueg/Wanderung machen (Выбираюсь на природу/путешествую) | 16 | 36 | |
| wichtige Arbeiten verrichten (Необходимые дела (дом, квартира, сад) | | 2 | |
| Nachbarschaftshilfe (Помощь соседям) | | | |
| Sport (Спорт) | 10 | 25 | |
| Anderes 1 . Antwort (Другое 1 . ответ) | 3 | 11 |
На один вопрос с множественными ответами каждый опрашиваемый может дать несколько ответов. Как правило, общее количество ответов больше, нежели количество наблюдений (количество опрашиваемых). Вы можете выбрать, какой из этих показателей — количество наблюдений или количество ответов — будет далее использоваться в качестве основы расчётов. Поясним это на примере переменной $frei (Как Вы проводите выходные дни?).
| Free time (Свободное время) | Femsehen (Просмотр телепередач) | Count (Количество) | 9 |
| Col % (Столбцовый %) | 3,5 | ||
| Geselligkeit (Общение с друзьями) | Count (Количество) | 52 | |
| Col % (Столбцовый %) | 20,3 | ||
| Stammtisch (Приглашаю к себе гостей) | Count (Количество) | 2 | |
| Col % (Столбцовый %) | ,8 | ||
| Hobbies (Хобби) | Count (Количество) | 26 | |
| Col % (Столбцовый %) | 10,2 | ||
| Verein (Общество по увлечениям) | Count (Количество) | 18 | |
| Col % (Столбцовый %) | 7,0 | ||
| Familienleben (Семейные заботы) | Count (Количество) | 105 | |
| Col % (Столбцовый %) | 41,0 | ||
| Radio hoeren/Lesen (Слушаю радио/читаю) | Count (Количество) | 4 | |
| Col % (Столбцовый %) | 1,6 | ||
| Kino/Konzerte/Th eater (Кино/концерты/театр) | Count (Количество) | 3 | |
| Col % (Столбцовый %) | 1,2 | ||
| das uebliche/dies und das (To же, что и всегда/то одно то другое) | Count (Количество) | 14 | |
| Col % (Столбцовый %) | 5,5 | ||
| Ausflueg/Wanderung machen (Выбираюсь на природу/путешествую) | Count (Количество) | 163 | |
| Col % (Столбцовый %) | 63,7 | ||
| wichtige Arbeiten verrichten (Необходимые дела (дом, квартира, сад) | Count (Количество) | 52 | |
| Col % (Столбцовый %) | 20,3 | ||
| Nachbarschaftshilfe (Помощь соседям) | Count (Количество) | 2 | |
| Col % (Столбцовый %) | ,8 | ||
| Sport (Спорт) | Count (Количество) | 35 | |
| Col % (Столбцовый %) | 13,7 | ||
| Anderes 1. Antwort (Другое 1-й ответ) | Count (Количество) | 14 | |
| Col % (Столбцовый %) | 5,5 | ||
| Anderes 2. Antwort (Другое 2-й ответ) | Count (Количество) | 2 | |
| Col % (Столбцовый %) | ,8 | ||
| Total (Сумма) | | Count (Количество) | 256 |
| Col % (Столбцовый %) | 100,0 |
Обработка множественных ответов
24.4 Обработка множественных ответовВ анкете относительно организации празднования 1-го Мая имеются вопросы с множественными ответами. К примеру возможно несколько вариантов ответов на вопрос: "Как Вы проводите выходные дни?" Здесь опрашиваемый может отметить более одного ответа, например, "Просмотр телепередач" и "Хобби". Для обработки множественных ответов в модуле Tables так же, как и в базовом модуле (см. гл. 12), существует два метода: метод множественных дихотомий и метод множественных категорий.
Примеры таблиц частотных показателей
24.5.1 Примеры таблиц частотных показателейРассмотрим для начала простейший случай частотной таблицы. Для этого Отразим частоты категорий переменной v5 (1st der l.Mai als TdA noch zeitgemaess? (Сохраняет ли ещё актуальность 1-е Мая, как день трудящихся?)).
Процентные показатели суммарных значений
24.5.2 Процентные показатели суммарных значенийПроцентные показатели суммарных значений могут выводиться и в частотных таблицах. Рассмотрим следующий пример: нам необходимо получить абсолютные значения, процентные показатели и суммарные значения переменных v8, v13 и v14.
Работа с подгруппами
24.5.3 Работа с подгруппамиПрименение подгрупп возможно и в частотных таблицах. Для изучения этой возможности рассмотрим следующий пример: для каждого пола нам необходимо вывести данные по переменным v8 (Teilnahme an gewerkschaftlichen Mai-Veranstaltung (Участие в первомайских мероприятиях, организованных профсоюзами)) и v6 (Erinnerung an 1. Mai Feier im Ort (Воспоминания о праздновании 1-го Мая по месту жительства)).
Таблицы частотных показателей
24.5 Таблицы частотных показателейТаблицы частотных показателей имеет смысл применять в том случае, когда для большого количества вопросов одного исследования допускается использование одинаковых вариантов ответов. В опросе относительно организации празднования 1-го Мая таким свойством обладают переменные v5, v6, v8, v!3 и v!4. На вопросы, обуславливающие значения данных переменных, можно ответить да, нет и не знаю.
Диалоговое окно Basic Tables: Format (Основные таблицы: Формат)
Диалоговое окно Basic Tables: Format (Основные таблицы: Формат)
Те, кто работал с более ранними версиями программы, заметят, что диалоговое окно сильно уменьшилось в размерах. В нём остались только опции отображения пустых ячеек и отсутствующих данных. В прежних версиях можно было повлиять на вид рамок, ширину столбцов и поля.
Диалоговое окно Basic Tables: Layout (Основные таблицы: Компоновка)
Диалоговое окно Basic Tables: Layout (Основные таблицы: Компоновка)
| Geschlecht (Пол) | |||||
| weiblich (женский) | maennlich (мужской) | ||||
| Count (Коли-чество) | Layer % (Посло-йный %) | Count (Коли-чество) | Layer % (Посло-йный %) | ||
| Teilnahme an gewerkschaftlichen Mai-Veranstaltung (Участие в Первомайских мероприятиях, организованных профсоюзами) | fehlende Angabe (Данные отсутствуют) | 1 | 1,3% | 2 | 1,0% |
| Ja (Да) | 36 | 46,8% | 74 | 38,1% | |
| Nein (Нет) | 40 | 51,9% | 116 | 59,8% | |
| Keine Angabe/weiss nicht (Данные отсутствуют/не знаю) | 2 | 1,0% |
Табличные проценты
Проверим, существуют ли различия между полами (v2) в отношении ответа на вопрос v14 (Согласны ли Вы с утверждением, что 1-е Мая является праздником главным образом для высокопоставленных чиновников?).
| Geschlecht weiblich (Женщины) | ||||
| | Count (Коли-чество) | Layer % (Посло-йный %) | Table % (Табли-чный %) | |
| 1 . Mai = Fest fuer hauptamt. Funktionaere? (1-е Мая = праздник для высокопоставленных чиновников?) | fehlende Angabe (Данные отсутствуют) | 15 | 19,5% | 5,5% |
| Ja (Да) | 17 | 22,1% | 6,3% | |
| Nein (Нет) | 37 | 48,1% | 13,7% | |
| Weiss nicht (He знаю) | 8 | 10,4% | 3,0% |
| Geschlecht maenlich (Мужчины) | ||||
| | Count (Коли-чество) | Layer % (Посло-йный %) | Table % (Табли-чный %) | |
| 1 . Mai = Fest fuer hauptamt. Funktionaere? (1-е Мая = праздник для высокопоставленных чиновников?) | fehlende Angabe (Данные отсутствуют) | 25 | 12,9% | 9,2% |
| Ja (Да) | 42 | 21 ,6% | 15,5% | |
| Nein (Нет) | 110 | 56,7% | 40,6% | |
| Weiss nicht (He знаю) | 17 | 8,8% | 6,3% |
Диалоговое окно Basic Tables (Основные таблицы)
Диалоговое окно Basic Tables (Основные таблицы)
Диалоговое окно Basic Tables: Statistics (Основные таблицы: Статистики)
Диалоговое окно Basic Tables: Statistics (Основные таблицы: Статистики)
|
|
Mean (Среднее значение) |
Minimum (Минимум) |
Maximum (Максимум) |
Std Deviation (Стандартное отклонение) |
|
alter (возраст) |
44,17 |
18,00 |
90,00 |
14,42 |
|
mitglied (членство) |
18,42 |
1,00 |
63,00 |
13,00 |
Подгруппы и итоговые статистики
Организуем вывод итоговых показателей переменных alter (возраст) и mitglied (членство) отдельно для каждого пола. В поле Summaries (Итоги) диалогового окна Basic Tables (Основные таблицы) должны теперь стоять переменные alter (возраст) и mitglied (членство).
|
| ||
|
Geschlecht (Пол) |
weiblich (женский) |
alter (возраст) |
|
mitglied (членство) | ||
|
maennlich (мужской) |
alter (возраст) | |
|
mitglied (членство) | ||
Диалоговое окно Basic Tables: Statistics (Основные таблицы: Статистики)
Диалоговое окно Basic Tables: Statistics (Основные таблицы: Статистики)
|
|
Count (Количество) |
Col % (Столбцовый %) | |
|
1st der 1 .Mai als TdA noch zeitgemaess? (Сохраняет ли ещё актуальность 1-е Мая, как день трудящихся?) |
fehlende Angabe (Данные отсутствуют) |
39 |
14,4% |
|
Ja (Да) |
154 |
56,8% | |
|
Nein (Нет) |
59 |
21,8% | |
|
Weiss nicht (He знаю) |
19 |
7,0% | |
Приведём ещё один пример: мы хотим проверить, связан ли ответ на вопрос о том что, организация первомайских мероприятий профсоюзами является политически важным аспектом, который следует сохранить (v!3), с партийной ориентацией опрошенных (v22).
Приведём ещё один пример: в данном случае должны быть отображены показатели членства в профсоюзных организациях (v!7), причём в порядке снижения частот.
Перенесите переменную v17 в список строчных переменных.
Диалоговое окно Basic Tables: Statistics (Основные таблицы: Статистики)
Диалоговое окно Basic Tables: Statistics (Основные таблицы: Статистики)
Результаты опроса будут выглядеть следующим образом:
| | Count (Коли-чество) | Col % (Столб-цовый %) | |
| Gewerkschaftsm itglied in (Член профсоюза): | Профсоюз металлургической промышленности (IG Metall) | 73 | 26,9% |
| Профсоюз сферы услуг (? TV) | 52 | 19,2% | |
| Профсоюз строителей (BSE) | 32 | 11,8% | |
| Профсоюз химической промышленности (IG Chemie Papier Keramik) | 22 | 8,1% | |
| Профсоюз сферы образования (GEW) | 20 | 7,4% | |
| Торговля Банки Страхование (HBV) | 19 | 7,0% | |
| Профсоюз Deutsche Post (Немецкая почта) | 13 | 4,8% | |
| Профсоюз железнодорожников Германии (GdED) | 11 | 4,1% | |
| Профсоюз работников средств массовой информации (IG Medien) | 11 | 4,1% | |
| fehlende Anqabe (Данные отсутствуют) | 6 | 2,2% | |
| Профсоюз полицейской службы (GdP) | 6 | 2,2% | |
| Профсоюз Сад Земля Лес (GGLF) | 3 | 1,1% | |
| Профсоюз деревообрабатывающей промышленности (IG Holz) | 1 | ,4% | |
| Профсоюз пищевой промышленности (NGG) | 1 | ,4% | |
| Профсоюз лёгкой промышленности | 1 | .4% |
Теперь, чтобы получить информацию о зависимости социального положения опрашиваемых от их пола, представим в перекрёстной таблице переменные v2 (Пол) v20 (Социальное положение).
| Geschlecht maenlich (Мужчины) | |||
| | Count (Коли-чество) | Col % (Столб-цовый % ! | |
| Berufsposition (Занимаемая должность) | Auszubildende(r)/Lerlinq (Студент(ка)/Ученик(ца)) | 31 | 16,0% |
| Arbeiterln (Рабочий(ая)) | 35 | 18,0% | |
| Facharbeiterln/Geselle (Помощник/ученик на производстве) | 45 | 23,2% | |
| Meister (Мастер) | 36 | 18,6% | |
| Angestellte(r) (Служащий(ая)) | 21 | 10,8% | |
| Leitende(r) Angestellte(r) (Ведущий специалист) | 6 | 3,1% | |
| Beamte(r) (Государственная руководящая должность) | 4 | 2,1% | |
| Rentnerln/Pensionaerln (Пенсионер(ка)) | 7 | 3,6% | |
| Hausfrau/Hausmann (Домохозяйка(ин)) | 5 | 2,6% | |
| Erwerbsunfaehig (Нетрудоспособен(а)) | 4 | 2,1% | |
| Arbeitslos (Безработный(ая)) | | |
| Geschlecht weiblich (Женщины) | |||
| | Count (Коли-чество) | Col % (Столб-цовый %) | |
| Berufsposition (Занимаемая должность) | Auszubildende(r)/Lerlinq (Студент(ка)/Ученик(ца)) | 35 | 45,5% |
| Arbeiterln (Рабочий(ая)) | 12 | 15,6% | |
| Facharbeiterln/Geselle (Помощник/ученик на производстве) | 2 | 2,6% | |
| Meister (Мастер) | 6 | 7,8% | |
| Angestellte(r) (Служащий(ая)) | 10 | 13,0% | |
| Leitende(r) Angestellte(r) (Ведущий специалист) | 3 | 3,9% | |
| Beamte(r) (Государственная руководящая должность) | 4 | 5,2% | |
| Rentnerln/Pensionaerln (Пенсионер(ка)) | 1 | 1,3% | |
| Hausfrau/Hausmann (Домохозяйка(ин)) | 3 | 3,9% | |
| Erwerbsunfaehig (Нетрудоспособен(а)) | | | |
| Arbeitslos (Безработный(ая)) | 1 | 1,3% |
(Рабочая) и Facharbeiterln/Geselle (Помощница/ученик на производстве)) это только 2 человека.
Строчные проценты
Создадим перекрёстную таблицу для переменных v!7 (Gewerkschaftsmitglied in (Член профсоюза)) и v2 (Geschlecht (Пол)), чтобы посмотреть какие из профсоюзных организаций привлекают женщин, а какие мужчин.
| Geschlecht (Пол) | |||||||
| maennlich (мужской) | weiblich (женский) | ||||||
| Count (Коли-чество) | Col % (Стол-цовый %) | Row % (Стро-чный %) | Count (Коли-чество) | Col % (Столб-цовый %) | Row % (Стро-чный %) | ||
| Gewerksch aftsmitglied in (Член профсоюза): | Профсоюз металлургической промышленности (IG Metall) | 63 | 32,5% | 86,3% | 10 | 13,0% | 13,7% |
| Профсоюз сферы услуг (OTV) | 26 | 18,6% | 69,2% | 16 | 20,8% | 30,8% | |
| Профсоюз строителей (BSE) | 29 | 14,9% | 90,6% | 3 | 3,9% | 9,4% | |
| Профсоюз химической промышленности (IG Chemie Papier Keramik) | 13 | 6,7% | 59,1% | 9 | 11,7% | 40,9% | |
| Профсоюз сферы образования (GEW) | 13 | 6,7% | 65,0% | 7 | 9,1% | 35,0% | |
| Торговля Банки Страхование (HBV) | 5 | 2,6% | 26,3% | 14 | 18,2% | 73,7% | |
| Профсоюз Deutsche Post (Немецкая почта) | 7 | 3,6% | 53,8% | 6 | 7,8% | 46,2% | |
| Профсоюз железнодорожников Германии (GdED) | 9 | 4,6% | 81,8% | 2 | 2,6% | 18,2% | |
| Профсоюз работников средств массовой информации (IG Medien) | 7 | 3,6% | 63,6% | 4 | 5,2% | 36,4% | |
| fehlende Angabe (Данные отсутствуют) | 3 | 1 ,5% | 50,0% | 3 | 3,9% | 50,0% | |
| Профсоюз полицейской службы (GdP) | 4 | 2,1% | 66,7% | 2 | 2,6% | 33,0% | |
| Профсоюз Сад Земля Лес (GGLF) | 3 | 1 ,5% | 100,0% | ||||
| Профсоюз деревообрабатывающей промышленности (IG Holz) | 1 | ,5% | 100,0% | 1 | 1,3% | 100,0% | |
| Профсоюз пищевой промышленности (NGG) | |||||||
| Профсоюз лёгкой промышленности | 1 | ,5% | 100,0% |
Послойные проценты
Мы хотим проверить, существуют ли различия между полами (v2) в отношении ответа на вопрос Принимали ли Вы когда-нибудь участие в Первомайских мероприятиях? (v8).
Диалоговое окно Basic Tables: Totals (Основные таблицы: Суммы)
Диалоговое окно Basic Tables: Totals (Основные таблицы: Суммы)
Если активирована опция Totals over each group variable (Суммы для каждой групповой переменной), для каждой групповой переменной будут выводиться суммарные значения всех статистик активированных через выключатель Statistics... (Статистики); если активирована опция Table-margin totals (Суммарные показатели таблицы), то суммарные значения активированных статистик будут рассчитываться и для всей таблицы.
|
|
Count (Коли-чество) |
Col % (Столб-цовый %) | |
|
Parteipraeferenz (Предпочитаемая партия) |
SPD |
91 |
33,6% |
|
keine (Ни одна из партий) |
77 |
28,4% | |
|
fehlende Angabe (Данные отсутствуют) |
46 |
17,0% | |
|
Buendbis 90/Die Gruenen (Союз 90/Зелёные) |
22 |
8,1% | |
|
CDU/CSU |
18 |
6,6% | |
|
Republikaner (Республиканцы) |
9 |
3,3% | |
|
Andere (Другая) |
4 |
1,5% | |
|
FDP |
2 |
,7% | |
|
PDS/Linke Liste (Левые) |
2 |
,7% | |
|
Table-margin total (Суммарный показатель таблицы) |
|
271 |
100,0% |
На втором этапе представим партийные предпочтения (v22) отдельно для каждого пола (v2). Вывод данных должен происходить с сортировкой частот по убыванию. И организуем так же вывод суммарных показателей для групповых переменных.
|
Geschlecnt maenlich (Мужчины) | |||
|
|
Count (Коли-чество) |
Со! % (Столб-цовый %) | |
|
Parteipraeferenz (Предпочитаемая партия) |
SPD |
73 |
37,6% |
|
keine (Ни одна из партий) |
51 |
26,3% | |
|
fenlende Angabe (Данные отсутствуют) |
30 |
15,5% | |
|
Buendbis 90/Die Gruenen (Союз 90/Зепёные) |
13 |
6,7% | |
|
CDU/CSU |
16 |
8,2% | |
|
Republikaner (Республиканцы) |
7 |
3,6% | |
|
andere (Другая) |
2 |
1,0% | |
|
FDP |
2 |
1,0% | |
|
PDS/Linke Liste (Левые) |
|
| |
|
Group Total (Суммарный показатель группы) |
|
194 |
100,0% |
|
Geschlecht weiblich (Женщины) | |||
|
|
Count (Коли-чество) |
Col % (Столб-цовый %) | |
|
Parteipraeferenz (Предпочитаемая партия) |
SPD |
18 |
23,4% |
|
keine (Ни одна из партий) |
26 |
33,8% | |
|
fenlende Angabe (Данные отсутствуют) |
16 |
20,8% | |
|
Buendbis 90/Die Gruenen (Союз 90/Зелёные) |
9 |
1 1 ,7% | |
|
CDU/CSU |
2 |
2,6% | |
|
Republikaner (Республиканцы) |
2 |
2,6% | |
|
andere (Другая) |
|
2,6% | |
|
FDP |
|
| |
|
PDS/Linke Liste (Левые) |
2 |
2,6% | |
|
Group Total (Суммарный показатель группы) |
|
77 |
100,0% |
|
Group total (Суммарный показатель группы) | |||
|
|
Count (Коли-чество) |
Col % (Столб-цовый %) | |
|
Parteipraeferenz (Предпочитаемая партия) |
SPD |
91 |
33,6% |
|
keine (Ни одна из партий) |
77 |
28,4% | |
|
fehlende Angabe (Данные отсутствуют) |
46 |
17,0% | |
|
Buendbis 90/Die Gruenen (Союз 90/Зелёные) |
22 |
8,1% | |
|
CDU/CSU |
18 |
6,6% | |
|
Republikaner (Республиканцы) |
9 |
3,3% | |
|
andere (Другая) |
4 |
1,5% | |
|
FDP |
2 |
,7% | |
|
PDS/Linke Liste (Левые) |
2 |
,7% | |
|
Group Total (Суммарный показатель группы) |
|
271 |
100,0% |
Из 194 мужчин 73 полагают, что их интересы лучше всего выражает SPD, это 37,6 %; среди 77 женщин сторонниками SPD чувствуют себя только 18 человек, что соответствует 23,4 %. Явно видно, что в процентном выражении значительно большее количество мужчин, чем женщин, ощущает, что их интересы представляет именно Социал-демократическая партия. Среди женщин же доля тех, кто в настоящее время не чувствует, что их интересы представляет хотя бы одна из партий, значительно выше, нежели среди мужчин (33,8 % против 26,3 %). Следует также отметить, что вообще довольно значительная доля опрошенных не ощущает, что их интересы представляет какая-либо из партий, это свидетельствует о неудовлетворённости работой партий.
Суммарные показатели пакетированных переменных
Рассмотрим на примере, как ведут себя суммарные показатели пакетированных или штабельных переменных.
|
|
Count (Коли-чество) |
Col % (Стол-бцовый %) | |
|
Geschlecht (Пол) |
weiblich (женский) |
77 |
28,4% |
|
maennlich (мужской) |
194 |
71 ,6% | |
|
Group Total (Суммарный показатель группы) |
|
271 |
100,0% |
|
Erinnerung an 1 . Mai -feier im Ort (Воспоминания о местных мероприятиях, посвящённых 1-му Мая) |
fehlende Angabe (Данные отсутствуют) |
48 |
17,7% |
|
Ja (Да) |
67 |
24,7% | |
|
Nein (Нет) |
143 |
52,8% | |
|
Weiss nicht (He знаю) |
13 |
4,8% | |
|
Group Total (Суммарный показатель группы) |
|
271 |
100,0% |
Суммарные показатели вложенных переменных
Рассмотрим вышеприведенный пример с учётом вложения переменных.
|
Count (Коли-чество) |
Col % (Стол-бцовый %) | ||||
|
Gesc-hlecht (Пол) |
Weib-lich (жен-ский) |
Erinnerung an 1 . Mai -feier im Ort (Воспоми-нания о местных меро-приятиях, посвящённых 1-му Мая) |
fehlende Angabe (Данные отсут-ствуют) |
18 |
6,6 |
|
Ja (Да) |
19 |
7,0% | |||
|
Nein (Нет) |
33 |
12,2% | |||
|
Weiss nicht (He знаю) |
7 |
2,6% | |||
|
Group Total (Сум-марный показатель группы) |
|
77 |
18,4% | ||
|
maen-nlich (муж-ской) |
Erinnerung an 1 . Mai -feier im Ort (Воспоми-нания о местных меро-приятиях, посвящённых 1-му Мая) |
fehlende Angabe (Данные отсут-ствуют) |
30 |
11,1% | |
|
Ja (Да) |
48 |
17,7% | |||
|
Nein (Нет) |
110 |
40,6% | |||
|
Weiss nicht (He знаю) |
6 |
2,2% | |||
|
Group Total (Суммарный показатель группы) |
|
194 |
71 ,6% | ||
|
Table-margin total (Сум-марный показатель таблицы) |
|
|
|
271 |
100,0% |
Диалоговое окно Compute Variable (Вычисление переменной)
Диалоговое окно Compute Variable (Вычисление переменной)
|
|
|
|
alter (возраст) |
44,17 |
|
|
|
|
alter (возраст) |
44,17 |
|
mitglied (членство) |
18,42 |
Добавление третьего измерения
Добавление третьего измерения
| Geschlecht weiblich (Женщины) | |||||
| | Ist der 1.Mai als TdA noch zeitgemaess? (Сохраняет ли ещё актуальность 1-е Мая, как день трудящихся?) | ||||
| fehlende Angabe (Данные отсутствуют) | Ja (Да) | Nein (Нет) | Weiss nicht (He знаю) | ||
| Wie oft in letzten 10 Jahren? (Как часто за последние десять лет?) (v8) | 0 | 1 | 19 | 13 | 6 |
| 1 | | 5 | 1 | | |
| 2 | | | 1 | | |
| 3 | | 1 | 2 | | |
| 4 | | 3 | | | |
| 5 | | 1 | | | |
| 6 | | 1 | | | |
| 7 | | 2 | 1 | | |
| 8 | | 1 | | | |
| всегда | | 5 | | |
| Geschlecht maenlich (Мужчины) | |||||
| | | Ist der 1 .Mai als TdA noch zeitgemaess? (Сохраняет ли ещё актуальность 1-е Мая, как день трудящихся?) | |||
| fehlende Angabe (Данные отсутствуют) | Ja (Да) | Nein (Нет) | Weiss nicht (He знаю) | ||
| Wie oft in letzten 10 Jahren? (Как часто за последние десять лет?) (v8) | 0 | | 83 | . 32 | 12 |
| 1 | | 4 | 3 | 1 | |
| 2 | | 6 | | | |
| 3 | | 6 | 1 | | |
| 4 | | 3 | | | |
| 5 | | 1 | | | |
| 6 | | 4 | 3 | | |
| 7 | | 1 | | | |
| 8 | | 3 | | | |
| всегда | | 5 | 2 | |
Модуль Tables
Модуль TablesМодуль Tables служит для создания таблиц, готовых к презентации. По сравнению с режимом построения частотных таблиц и таблиц сопряженности, а также таблиц средних значений, в этом модуле пользователю предоставляются более широкие возможности. После вызова меню Analyze (Анализ) Custom Tables (Настраиваемые таблицы) На выбор Вам будут предложены четыре вспомогательных меню:
Диалоговое окно Basic Tables: Titles (Основные таблицы: Заголовки)
Рис. 24.10: Диалоговое окно Basic Tables: Titles (Основные таблицы: Заголовки)
Здесь в полях Title (Заголовок), Caption (Примечание) и Corner (Угол) Вы можете набрать любой текст. Заголовок будет центрирован по таблице, а примечание с выравниванием по левому краю будет приведено под таблицей. Текст, указанный в поле Corner (Угол), появится в верхнем левом углу таблицы; однако авторы этого нововведения вряд ли смогут похвастаться его успешностью.
| Geschlecht (Пол) | |||||
| maennlich (мужской) | weiblich (женский) | ||||
| Count (Коли-чество) | Col % (Стол-бцовый %) | Count (Коли-чество) | Col % (Стол-бцовый %) | ||
| Gewe-rkschaf tsmitglied in (Член проф-союза): | fehlende Angabe (Данные отсутствуют) | 3 | 3,9 | 3 | 1,5 |
| Профсоюз строителей (BSE) | 3 | 3,9 | 29 | 14,9 | |
| Профсоюз Deutsche Post (Немецкая почта) | 6 | 7,8 | 7 | 3,6 | |
| Профсоюз полицейской службы (GdP) | 2 | 2,6 | 4 | 2,1 | |
| Профсоюз сферы образования (GEW) | 7 | 9,1 | 13 | 6,7 | |
| Профсоюз железно-дорожников Германии (GdED) | 2 | 2,6 | 9 | 4,6 | |
| Торговля Банки Страхование (HBV) | 14 | 18,2 | 5 | 2,6 | |
| Профсоюз химической промышленности (IG Chemie Papier Keramik) | 9 | 11,7 | 13 | 6,7 | |
| Профсоюз дерево-обрабатывающей промышленности (IG Holz) | 4 | 5,2 | 1 | ,5 | |
| Профсоюз работников средств массовой информации (IG Medien) | 10 | 13,0 | 7 | 3,6 | |
| Профсоюз металлургической промышленности (IG Metall) | 1 | 1,3 | 63 | 32,5 | |
| Профсоюз пищевой промышленности (NGG) | 16 | 20,8 | 36 | ||
| Профсоюз сферы услуг (? TV) | 1 | 18,6 | |||
| Профсоюз лёгкой промышленности | 3 | ,5 | |||
| Профсоюз Сад Земля Лес (GGLF) | 1,5 |
Меньше стало и диалоговое окно заголовков; в ранних версиях можно было указывать также и желаемое выравнивание текста (по левому краю, по центру, по правому краю).
Судя по результатам опроса можно сказать, что почти треть опрошенных мужчин являются членами профсоюза металлургической промышленности (IG Metall). Большая часть опрошенных женщин входят в профсоюз сферы услуг (OTV) (20,8 %).
Диалоговое окно General Tables (Общие таблицы)
Рис. 24.11: Диалоговое окно General Tables (Общие таблицы)
| Geschlechl (Пол) | weiblich (женский) | 77 |
| maennlich (мужской) | 194 |
Отличие этого вида таблиц от простых таблиц заключается в том, что здесь Вы можете задать различные ступени вложения. В то время как в простых таблицах для переменных таблицы Вы выбирали опцию stacked (с наложением) или nested (с вложением), в общих таблицах Вы можете выбрать необходимый режим отдельно для каждой переменной.
Диалоговое окно General Tables (Общие таблицы)
Рис. 24.12: Диалоговое окно General Tables (Общие таблицы)
Переменные v2 и v5 теперь будут вложены по строкам, а переменные v8 и v!4 будут пакетированы по столбцам.
| Teilnahme an gewerkschaftlichen Mai-Veranstaltung (Участие в первомайских мероприятиях, организованных профсоюзами) | 1 . Mai = Fest fuer hauptamt. Funktionaere? (1-е Мая = праздник для высокопоставленных чиновников?) | ||||||||||
| fehle-nde Angabe (Дан-ные отсут-ству-ют) | Ja (Да) | Nein (Нет) | Weiss nicht (Не знаю) | fehle-nde Angabe (Дан-ные отсу-тству-ют) | Ja (Да) | Nein (Нет) | Weiss nicht (Не знаю) | ||||
| Geschl echt (Пол) | we-iblich (жен-ский) | Istder LMaials TdA noch zeitg-emaess? (Сох-раняет ли еще акту-альность 1-е Мая, как день трудя-щихся?) | fehlende Angabe (Данные отсут-ствуют) | 10 | 5 | 14 | 1 | ||||
| Jaffla) | 20 | 18 | 1 | 7 | 26 | 4 | |||||
| Nein (Нет) | 1 | 6 | 11 | 9 | 7 | 2 | |||||
| Weiss nicht (Не знаю) | 6 | 1 | 3 | 2 | |||||||
| maen-nlich (муж-ской) | Istder LMaials TdA noch zeit-gemaess? (Сох-раняет ли еще акту-альность 1-е Мая, как день трудя-щихся?) | fehlende Angabe (Данные отсут-ствуют) | 17 | 7 | 24 | ||||||
| Ja (Да) | 2 | 42 | 71 | 1 | 1 | 20 | 87 | 8 | |||
| Nein (Нет) | 14 | 27 | 19 | 19 | 3 | ||||||
| Weiss nicht (Не знаю) | 1 | 11 | 1 | 3 | 4 | 6 |
Диалоговое окно General Tables: Cell Statistics (Общие таблицы: Статистики в ячейках)
Рис. 24.13: Диалоговое окно General Tables: Cell Statistics (Общие таблицы: Статистики в ячейках)
| Geschlecht (Пол) | weiblich (женский) | Count (Количество) | 77 |
| maennlich (мужской) | Count (Количество) | 194 | |
| Parteipraeferenz (Предпочитаемая партия) | SPD | Col % (Столбцовый %) | 33,6% |
| keine (Ни одна из партий) | Col % (Столбцовый %) | 28,4% | |
| fehlende Angabe (Данные отсутствуют) | Col % (Столбцовый %) | 17,0% | |
| Buendbis 90/Die Gruenen (Союз 90/Зелёные) | Col % (Столбцовый %) | 8,1% | |
| CDU/CSU | Col % (Столбцовый %) | 6,6% | |
| Republikaner (Республиканцы) | Col % (Столбцовый %) | 3,3% | |
| andere (Другая) | Col % (Столбцовый %) | 1,5% | |
| FDP | Col % (Столбцовый %) | ,7% | |
| PDS/Linke Liste (Левые) | Col % (Столбцовый %) | ,7% |
Диалоговое окно Multiple Response Tables (Таблицы множественных ответов)
Рис. 24.14: Диалоговое окно Multiple Response Tables (Таблицы множественных ответов)
Диалоговое окно Multiple...
Рис. 24. 15: Диалоговое окно Multiple Response Tables: Define Multiple Response Sets (Таблицы множественных ответов: Определение наборов множественных ответов)
Заполненное диалоговое...
Рис. 24.16: Заполненное диалоговое окно Multiple Response Tables: Define Multiple Response Sets (Таблицы множественных ответов: Определение наборов множественных ответов)
|
Free time (Свободное время) |
Fernsehen (Просмотр телепередач) |
9 |
|
Geselligkeit (Общение с друзьями) |
52 | |
|
Stammtisch (Приглашаю к себе гостей) |
2 | |
|
Hobbies (Хобби) |
26 | |
|
Verein (Общество по увлечениям) |
18 | |
|
Familienleben (Семейные заботы) |
4 | |
|
Radio hoeren/Lesen (Слушаю радио/читаю) |
3 | |
|
Kino/Konzerte/Theater (Кино/концерты/театр) |
14 | |
|
das uebtiche/dies und das (To же, что и всегда/то одно то другое) |
163 | |
|
Ausflueg/Wanderung machen (Выбираюсь на природу/путешествую) |
| |
|
wichtige Arbeiten verrichten (Необходимые дела (дом, квартира, сад) |
52 | |
|
Nachbarschaftshilfe (Помощь соседям) |
2 | |
|
Sport (Спорт) |
35 | |
|
Anderes 1 . Antwort (Другое 1 -и ответ) |
14 | |
|
Anderes 2. Antwort (Другое 2-й ответ) |
2 |
Диалоговое окно Multiple...
Рис. 24.17: Диалоговое окно Multiple Response Tables: Statistics (Таблицы множественных ответов: Статистики)
Если Вы хотите сравнивать показатели не относительно количества наблюдений, а относительно количества ответов, то поступите следующим образом.
| Free time (Свободное время) | Fernsehen (Просмотр телепередач) | Count (Количество) | 9 |
| Col % (Столбцовый %) | 1,8 | ||
| Geselligkeit (Общение с друзьями) | Count (Количество) | 52 | |
| Col % (Столбцовый %) | 10,4 | ||
| Stammtisch (Приглашаю к себе гостей) | Count (Количество) | 2 | |
| Col % (Столбцовый %) | ,4 | ||
| Hobbies (Хобби) | Count (Количество) | 26 | |
| Col % (Столбцовый %) | 5,2 | ||
| Verein (Общество по увлечениям) | Count (Количество) | 18 | |
| Col % (Столбцовый %) | 3,6 | ||
| Familienleben (Семейные заботы) | Count (Количество) | 105 | |
| Col % (Столбцовый %) | 21,0 | ||
| Radio hoeren/Lesen (Слушаю радио/читаю) | Count (Количество) | 4 | |
| Col % (Столбцовый %) | ,8 | ||
| Kino/Konzerte/Theater (Кино/концерты/театр) | Count (Количество) | 3 | |
| Col % (Столбцовый %) | ,6 | ||
| das uebliche/dies und das (To же, что и всегда/то одно то другое) | Count (Количество) | 14 | |
| Col % (Столбцовый %) | 2,8 | ||
| Ausflueg/Wanderung machen (Выбираюсь на природу/путешествую) | Count (Количество) | 163 | |
| Col % (Столбцовый %) | 32,5 | ||
| wichtige Arbeiten verrichten (Необходимые дела (дом, квартира, сад) | Count (Количество) | 52 | |
| Col % (Столбцовый %) | 10,4 | ||
| Nachbarschaftshilfe (Помощь соседям) | Count (Количество) | 2 | |
| Col % (Столбцовый %) | ,4 | ||
| Sport (Спорт) | Count (Количество) | 35 | |
| Col % (Столбцовый %) | 7,0 | ||
| Anderes 1. Antwort (Другое 1-й ответ) | Count (Количество) | 14 | |
| Col % (Столбцовый %) | 2,8 | ||
| Anderes 2. Antwort (Другое 2-й ответ) | Count (Количество) | 2 | |
| Col % (Столбцовый %) | ,4 | ||
| Total (Сумма) | | Count (Количество) | 256 |
| Col % (Столбцовый %) | 51,1 |
Результирующий процентный показатель в строке Col % (Столбцовый %) равный 51,1, отражает в процентах долю суммарного количества наблюдений (256) в суммарном количестве ответов (501).
Диалоговое окно Tables of Frequencies (Таблицы частот)
Рис. 24. 18: Диалоговое окно Tables of Frequencies (Таблицы частот)
| | 1st der 1 .Mai als TdA noch zeitgemaess? (Сохраняет ли ещё актуальность 1-е Мая, как день трудящихся?) |
| Count (Количество) | |
| fehlende Anqabe (Данные отсутствуют) | 39 |
| Ja (Да) | 154 |
| Nein (Нет) | 59 |
| Weiss nicht (He знаю) | 19 |
Уникальные возможности вспомогательного меню Tables of Frequencies... (Таблицы частот) заключаются в одновременном представлении нескольких переменных с одинаковыми возможностями ответов. Отобразим одновременно показатели переменных v5, v6 и v8.
| | Istder t.MaialsTdA noch zeitgemaess? (Сохраняет ли ещё актуальность 1-е Мая, как день трудящихся?) | Erinnerung an 1 . Mai Feier im Ort (Воспоминания о праздновании 1-го Мая по месту жительства) |
| Count (Количество) | Count (Количество) | |
| fehlende Angabe (Данные тсутствуют) | - 39 | 48 |
| Ja (Да) | 154 | 67 |
| Nein (Нет) | 59 | 143 |
| Weiss nicht (He знаю) | 19 | 13 |
Диалоговое окно Tables of Frequencies: Statistics (Таблицы частот: Статистики)
Рис. 24.19: Диалоговое окно Tables of Frequencies: Statistics (Таблицы частот: Статистики)
| Teilnahme an gewerkschaftlichen Mai-Veranstaltung (Участие в первомайских мероприятиях, организованных профсоюзами) | Gestalt. 1 . Mai durch Gew. pol. wichtig? (Важно ли политически, чтобы мероприятия 1 -то Мая организовывали именно профсоюзы?) | 1 . Mai = Fest fuer hauptamt. Funktionaere? (1-е Мая = праздник для высокопоставленных чиновников?) | ||||
| Count (Коли-чество) | % | Count (Коли-чество) | % | Count (Коли-чество) | % | |
| fehlende Angabe (Данные отсутствуют) | 3 | 1,1% | 2 | ,7% | 40 | 14,8% |
| Ja (Да) | 110 | 40,6% | 221 | 81,5% | 59 | 21,8% |
| Nein (Нет) | 156 | 57,6% | 29 | 10,7% | 147 | 54,2% |
| keine Angaben/weiss nicht (Данные отсутствуют/не знаю) | 2 | ,7% | 19 | 7,0% | 25 | 9,2% |
| Total (Сумма) | 271 | 100,0% | 271 | 100,0% | 271 | 100,0% |
Диалоговое окно Tables of Frequencies (Таблицы частот)
Рис. 24.20: Диалоговое окно Tables of Frequencies (Таблицы частот)
| Geschlecht (Пол) | ||||
| weiblich (женский) | maennlich (м\ | ркской) | ||
| Teilnahme an gewer-kscha-ftlichen Mai-Verans-taltung (Участие в первомайских мероприятиях, органи-зованных профсоюзами) | Erinnerung an 1 . Mai Feier im Ort (Воспо-минания о праздно-вании 1-го Мая по месту жительства | Teilnahme an gewerks-chaftlichen Mai-Veranstaltung (Участие в первомайских мероприятиях, органи-зованных профсоюзами) | Erinnerung an 1 . Mai Feier im Ort (Воспо-минания о праздно-вании 1-го Мая по месту жительства | |
| Count (Коли-чество) | Count (Коли-чество) | Count (Коли-чество) | Count (Коли-чество) | |
| fehlende Angabe (Данные отсу-тствуют) | 1 | 18 | 2 | 30 |
| Ja(fla) | 36 | 19 | 74 | 48 |
| Nein (Нет) | 40 | 33 | 116 | 110 |
| keine Angaben/weiss nicht (Данные отсу-тствуют /не знаю) | 7 | 2 | 6 | |
Выведем отдельно для каждого пола значения переменных v13 и v14, но в этом случае, в отличие от первого примера, данные будут находиться в разных таблицах. В таблице также должны быть рассчитаны процентные показатели и суммарные значения. Для выполнения этого задания поступите следующим образом:
|
Geschlecht maenlich (Женщины) | ||||
|
|
Gestalt. 1 . Mai durch Gew. pol. wichtig? (Важно ли политически, чтобы мероприятия 1-го Мая организовывали именно профсоюзы?) |
1. Mai = Fest fuer hauptamt. Funktionaere? (1-е Мая = праздник для высокопоставленных чиновников?) | ||
|
Count (Количество) |
% |
Count (Количество) |
% | |
|
fehlende Angabe (Данные отсутствуют) |
|
|
15 |
5,5% |
|
Ja (Да) |
63 |
23,2% |
17 |
6,3% |
|
Nein (Нет) |
6 |
2,2% |
37 |
13,7% |
|
Weiss nicht (He знаю) |
8 |
3,0% |
8 |
3,0% |
|
Geschlecht maenlich (Мужчины) | ||||
|
|
Gestalt. 1 . Mai durch Gew. pol. wichtig? (Важно ли политически, чтобы мероприятия 1-го Мая организовывали именно профсоюзы?) |
1 . Mai = Fest fuer hauptamt. Funktionaere? (1-е Мая = праздник для высокопоставленных чиновников?) | ||
|
Count (Количество) |
% |
Count (Количество) |
% | |
|
fehlende Angabe (Данные отсутствуют) |
2 |
,7% |
25 |
9,2% |
|
Ja (Да) |
158 |
58,3% |
42 |
15,5% |
|
Nein (Нет) |
23 |
8,5% |
110 |
40,6% |
|
Weiss nicht (He знаю) |
11 |
4,1% |
17 |
6,3% |
Модуль Tables предоставляет большое количество различных возможностей для построения презентационных таблиц. После непродолжительных занятий для Вас не должно составить никакого труда, чтобы подобрать и построить необходимую таблицу.
Перенос статистических результатов в Word
25.1 Перенос статистических результатов в WordВ дальнейшем мы основываемся на том, что в Вашем распоряжении есть Word 97 или сравнимая с ним версия.
Рассмотрим следующий пример: Вы хотите перенести результаты расчета частотного распределения переменной partei из нашего импровизированного опроса За кого бы Вы проголосовали, если бы в воскресенье были выборы в Бундестаг? в текстовый документ Word. Там результаты должны документироваться и оцениваться. Действуйте следующим образом:
Перенос диаграмм в Word
25.2 Перенос диаграмм в WordЭкспорт сводных таблиц и диаграмм как HTML-документов
25.3 Экспорт сводных таблиц и диаграмм как HTML-документовЭкспортирование выходных данных
Экспортирование выходных данныхВ этой главе мы бы хотели представить Вам важнейшие возможности экспорта основных таблиц и диаграмм в формате SPSS в другие приложения Windows, такие, как например Word.
Мы рассмотрим следующие темы:
Частотное распределение переменной semester в виде HTML-документа
Рис. 25.10. Частотное распределение переменной semester в виде HTML-документа
Диалоговое окно HTML Options (HTML Опции)
Рис. 25.11. Диалоговое окно HTML Options (HTML Опции)
Диалоговое окно JPG Выход Фильтр Установка
Рис. 25.12. Диалоговое окно JPG Выход Фильтр Установка
Гистограмма с нанесенной кривой нормального распределения является отныне HTM L-Документом (см. рис. 25.13).
Гистограмма в окне программы-браузера
Рис. 25.13. Гистограмма в окне программы-браузера
Окно просмотра с вызванном меню копирования результатов
Рис. 25.1.Окно просмотра с вызванном меню копирования результатов
Статистические результаты, касающиеся частотного распределения будут скопированы в буфер обмена Windows. Буфер обмена является ячейкой памяти, где хранятся любые сведения, которые по желанию снова могут быть вызваны. Эти данные теряются при выходе из Windows, а также при записи новых сведений в буфер обмена. С помощью буфера обмена вышеназванные объекты могут быть перенесены из одной программы в другую. Таким образом, можно копировать статистические результаты из SPSS и переносить их после этого в документ Word. Попробуем это сделать.
Таблица частотного распределения в документе Word
Рис. 25.2. Таблица частотного распределения в документе Word
Таблица частотного распределения с управляющей рамкой
Рис. 25.3. Таблица частотного распределения с управляющей рамкой
Если Вы, например, щёлкните мышью внизу справа рамки, то Вы сможете увеличивать или уменьшать таблицу по диагонали. Для этого удерживайте нажатой левую кнопку мыши, и перемешайте мышь по полю. Отпустите кнопку мыши, когда достигните желаемого размера.
Вы также можете дальше работать с основными таблицами в Word, чтобы, например, изменять или добавлять заголовки.
Вызванное меню в Word
Рис. 25.4. Вызванное меню в Word
Таблица частотного распределения, открытая для редактирования в Word
Рис. 25.5. Таблица частотного распределения, открытая для редактирования в Word
Диаграмма в окне просмотра результатов
Рис. 25.6. Диаграмма в окне просмотра результатов
Диаграмма в Word
Рис. 25.7. Диаграмма в Word
Таблица в окне просмотра с раскрытым общим меню
Рис. 25.8. Таблица в окне просмотра с раскрытым общим меню
Диалоговое окно Экспорт данных
Рис. 25.9. Диалоговое окно Экспорт данных
Результаты построения частотного распределения переменной semester будут отныне показываться, как HTML-Документ (см. рис. 25.10).
Теперь мы хотим экспортировать еще и диаграмму.
Задачи статистики в пакете SPSS
Основные синтаксические правила
26.1 Основные синтаксические правилаЭлементы программного языка SPSS можно разделить на следующие категории:
T-TEST PAIRS= chol0 WITH choll (PAIRED) /CRITERIA=CIN(.95) /MISSING=ANALYSIS. Здесь T-TEST - команда. PAIRS, CRITERIA и MISSING - вспомогательные команды, после знака равенства в этих командах идут соответствующие спецификации. WITH, CIN и ANALYSIS являются ключевыми словами.
При написании и редактировании командного синтаксиса следует учесть следующие простые правила:
При интерпретации команд синтаксиса компьютер на различает верхний и нижний регистры (кроме меток, заключённых в одинарные кавычки). Команда может занимать любое количество строк; ввод пробела или переход на новую строку разрешается в той точке, где разрешено применение одиночного пробела, то есть перед и после косой черты, скобок, арифметических операторов или между именами переменных.
В программных файлах, которые должны работать в операционном модуле, каждая команда должна начинаться с новой строки. Каждая последующая строка одной и той же команды должна начинаться как минимум с одинарного пробела; поэтому в конце команды точка может не ставиться. Синтаксис отдельных команд Вы можете просмотреть при помощи справочной системы (см. разд. 4.9).
Запуск из редактора синтаксиса
26.2.1 Запуск из редактора синтаксисаРассматриваемая программа для SPSS находиться в файле alko.sps, имеющемся на приложенном компакт-диске; данные для этой программы можно найти в этой же директории в файле alko.dat.
Не будем вдаваться в подробности того, как были созданы эти ASCII-файлы. Возможно, они были скопированы с какой-нибудь большой ЭВМ или созданы с помощью одного из многочисленных текстовых редакторов, например, редактора, поставляемого с MS-DOS.
Операционный модуль
26.2.2 Операционный модульЕщё одну возможность запуска готовой SPSS-программы представляет операционный модуль. Выполнение программы происходит при этом не с помощью диалога с SPSS, a как бы на заднем плане (в фоновом режиме), причём во время расчёта Вы можете выполнять на компьютере и другие задачи.
Это очень удобно при выполнении ёмких процедур SPSS. Одной из таких процедур является, к примеру, кластерный анализ, в котором применяется иерархический метод (см. разд. 20.1) и необходимо обработать большое количество наблюдений.
Такое большое для кластерного анализа количество наблюдений (n=300) включает файл psych.sav, который наряду с номерами наблюдений содержит переменные а, Ь, и с, описывающие значения оценки состояния пациентов психиатрического отделения по соответствующим шкалам: на шкале А отображается уровень невротичности, на шкале В — адаптация к обществу и на шкале С — целенаправленность действий. Патологическими отклонениями считаются высокие значения по шкале А и В и низкие по шкале С. Попытаемся на основании этих трёх шкал разделить пациентов на группы.
Выполнение готовой программы для SPSS
26.2 Выполнение готовой программы для SPSSВ рамках эксперимента в области психологии пятнадцать мужчин были подвергнуты тестированию на предмет концентрации внимания (далее ТКВ — тест концентрации внимания). При этом вся совокупность респондентов была разбита на две группы: восемь человек вошли в экспериментальную группу и семь в контрольную. Группы компоновались таким образом, чтобы в начале эксперимента усреднённые показатели обеих
групп были примерно равны. Затем респондентам из экспериментальной группы было предложено выпить по три кружки пива, а респондентам контрольной группы пришлось довольствоваться минеральной водой. Через час в обеих группах был повторно проведен ТКВ.
Конечно же, предметом этого теста является изучение влияния алкоголя на функциональные способности человека. Предположим, что данные этого эксперимента мы обрабатывали на большой ЭВМ. Тогда существовало бы, как правило, два файла, один из которых в столбцах форме содержал данные (файл alko.dat), а второй программу 8Р85(файл alko.sps). Файлы выглядят следующим образом:
Файл данных
|
1 |
1 |
15 |
19 |
|
2 |
2 |
20 |
16 |
|
3 |
2 |
14 |
13 |
|
4 |
1 |
17 |
21 |
|
5 |
1 |
22 |
24 |
|
6 |
2 |
18 |
14 |
|
7 |
2 |
22 |
19 |
|
8 |
1 |
19 |
18 |
|
9 |
2 |
17 |
16 |
|
10 |
1 |
14 |
18 |
|
11 |
2 |
17 |
17 |
|
12 |
1 |
15 |
17 |
|
13 |
1 |
18 |
18 |
|
14 |
2 |
17 |
14 |
|
15 |
1 |
20 |
21 |
DATA LIST FILE='\spssbuch\alko.dat' /g 4 kltl 6-7 klt2 9-10. COMPUTE kltdiff=klt2-klt1. VARIABLE LABELS g "Группа" / klt1 "Тест на концентрацию внимания Проба 1" / klt2 "Тест на концентрацию внимания Проба 2" / kltdiff "Тест на концентрацию внимания Повышение" . VARIABLE LABELS g 1 "Экспериментальная группа" 2 "Контрольная группа". NPAR TESTS K-S(NORMAL)=klt1,klt2,kltdiff. TEMPORARY. SELECT IF g=1. T-TEST PAIRS=klt1 WITH klt2. TEMPORARY. SELECT IF g=2. T-TEST PAIRS=klt1 WITH klt2. T-TEST GROUPS=g(1,2) /VARIABLES=klt1,klt2,kltdiff. После проверки значений ТКВ на предмет наличия нормального распределения, в данной программе будут исследоваться следующие вопросы:
Объединение синтаксиса и диалогового режима
26.3 Объединение синтаксиса и диалогового режимаНа нескольких примерах мы покажем то, как программный синтаксис можно с пользой внедрить в диалоговый режим SPSS. Во всех статистических процедурах, установки, произведенные в соответствующих диалоговых окнах, могут быть перенесены в редактор синтаксиса при помощи специального переключателя. При необходимости, Вы можете дополнительно отредактировать этот синтаксис для того, чтобы добиться выполнения некоторых задач, недоступных в режиме работы через диалоговые окна. Конечно же, для этого необходимо знать особенности подобных синтаксических возможностей.
В качестве первого примера рассмотрим тест Стьюдента для зависимых выборок. Тест Стьюдента для зависимых выборок был использован в разделе 13.2 при сравнения двух
переменных chol0 и chol1 из файла hyper.sav. Синтаксис, генерируемый программой после нажатия переключателя Paste (Вставить), выглядит следующим образом:
T-TEST PAIRS= chol0 WITH chol1 (PAIRED) /CRITERIA=CIN(.95) /MISSING=ANALYSIS. Если Вы хотите сравнить между собой не только переменные chol0 и chol 1, а и попарно сравнить все четыре переменные chol0, chol1, cho!6 и chol 12, то в итоге при помощи данного диалогового окна Вам придётся произвести шесть операций парного сравнения. Это довольно утомительный процесс и, если было бы необходимо попарно сравнить еще большее количество переменных, то он отнял бы у Вас довольно много времени.
Похожий пример возьмём из раздела 15.2, где для этих четырёх переменных производится расчёт корреляционной матрицы Пирсона. Вы увидите следующий исходный синтаксис
CORRELATIONS /VARIABLES=chol0 choll chol6 chol12 /PRINT=TWOTAIL SIG /MISSING=PAIRWISE . Если же Вы, допустим, желали бы рассчитать не совокупную корреляционную матрицу, а, например, проверить корреляции одной только переменной chol0 с переменными chol1, chol6 и chol 12, то Вам пришлось бы произвести три довольно объёмных расчёта. И в этом случае Вы можете очень эффективным способом отредактировать программный синтаксис, применив ключевое слово WITH:
CORRELATIONS /VARIABLES=chol0 WITH chol1 chol6 chol12 /PRINT=TWOTAIL SIG /MISSING=PAIRWISE . Следующий пример касается трансформации данных, а именно, образования новых переменных при помощи некоторой формулы. С этой целью вновь вернёмся к файлу hyper.sav, точнее говоря — к переменным rrs0, rrs1, rrs6, rrs12, rrd0, rrd1, rrd6 и rrd12, отражающим состояние систолического и диастолического давлений в четыре различных момента времени. Образуем шесть новых переменных, которые будут отображать показатели трёх последующих моментов времени, выраженные в процентах от исходной величины (переменные rrs0 и rrd0). Для этого после выбора меню Transform (Трансформировать) Count (Подсчитать) необходимо задать в общей сложности шесть формул вида
prrs1=(rrs1/rrs0)*100
где prrs1 — в нашем примере, процентный показатель, соответствующий переменной rrs1, соотнесённой к исходной величине rrs0. Но если Вы будете в этом случае применять синтаксис, то, пожалуй, все можно сделать гораздо быстрее.
DO REPEAT p=prrs1,prrs6,prrs12,prrd1,prrd6,prrd12/ z=rrs1,rrs6,rrs12,rrd1,rrd6,rrd12/ a=rrs0,rrs0,rrs0,rrd0,rrd0,rrd0. COMPOTE p=z/a*100. END REPEAT . Здесь р, z и а являются, так называемыми, переменными-заменителями для реальных переменных, используемых при вычислениях. Они обрабатываются слева направо согласно заданной команды COMPUTE. В рассмотренном примере затраты времени на ввод данных вряд ли стали меньше, но при наличии большего количества переменных в списках экономия времени будет уже ощутимой.
Программы операций над матрицами
26.4 Программы операций над матрицамиМежду двумя командами SPSS: MATRIX и END MATRIX можно поместить программу, позволяющую выполнять операции над матрицами. Для изучения этой возможности рассмотрим два примера.
Пётр пошёл за покупками в магазин и принёс домой 2 литра молока, 10 яиц, 3 плитки шоколада и 5 стаканчиков йогурта, за что он заплатил в сумме 11,80 грн. На следующий день Юля купила 1 литер молока, 15 яиц, 2 плитки шоколада и 4 стаканчика йогурта за 10,01 грн. После этого Николай заплатил 15,07 грн за 3 литра молока, 12 яиц, 5 плиток шоколада и 3 стаканчика йогурта, и, в конце концов, Лене 2 литра молока, 20 яиц, 5 плиток шоколада и 5 стаканчиков йогурта обошлись в 15,74 грн. И никто из них не принёс при этом расчётный чек из магазина. Мама хочет узнать, сколько же стоит каждый продукт в отдельности. Пётр, который учится в пятом классе, предложил решение при помощи системы линейных уравнений:
|
2А |
+ |
10В |
+ |
зс |
+ |
5D |
1180 |
|
А |
+ |
15В |
+ |
2С |
+ |
4D |
1001 |
|
ЗА |
+ |
12В |
+ |
5С |
+ |
3D |
1507 |
|
2А |
+ |
20В |
+ |
4С |
+ |
5D |
1574 |
Николай записал эту матрицу в символьной форме: АХ=С
и соответственно
X = А-1 С
Юля решает эту задачу в SPSS, для чего и пишет следующую программу:
MATRIX. COMPUTE a={2 ,10 ,3,5;1,15,2,4;3,12,5,3;2,20,4,5}. COMPUTE с={1180,-1001,-1507;1574} . COMPUTE x=INV(a)*c. PRINT x. END MATRIX.
119,0000000
26,0000000
134,0000000
56,0000000
Теперь видно, что один литр молока стоит 1,19 грн, одно яйцо 0,26 грн, одна плитка шоколада 1,34 грн и один стаканчик йогурта 0,56 грн. Для написания программ, использующих операции с матрицами, существует множество различных инструкций и функций. Для выяснения их смысла, обращайтесь, пожалуйста, к первоисточнику по SPSS.
В следующем примере мы хотим запрограммировать начальный этап факторного анализа, а именно, рассчитать собственные значения корреляционной матрицы.
EWERTE
5,146239283
1,945444977
1,414941459
,990117365
,935705222
Вычисленные собственные значения полностью соответствуют результатам, полученным в гл. 19.
Применение сценария
26.5.1 Применение сценарияДля изучения принципа работы со сценариями должно быть достаточно рассмотрения только одного сценария, который в сводных таблицах меняет идентификатор Sig на р.
| (Тест спаренных выборок) | |||||||||
| Paired Differences | t | Df | Sig. (2-sided) Значи-мость (двухсто ронняя)) | ||||||
| Mean (Сред- значе-ние) | Std. Deviation (Станда- ртное откло- нение) | Std. Error Mean (Стандар-тная ошибка среднего значения) | 95% Confidence Interval of the Difference (95 %-й доверительный интервал разности) | ||||||
| Lower (Ниж-ний предел) | Upper (Верх-ний предел) | ||||||||
| Pair1 (Пар а1) | Chole-sterin, Ausga- ngswert -Cholesterin, nach 1 Monat (Холе- стирин, исходный показатель -холе- стерин, спустя 1 месяц) | -1,93 | 26,09 | 1,98 | -5,83 | 1,98 | -,974 | 173 | ,332 |
Автоматические сценарии
26.5.2 Автоматические сценарииСпециальной формой сценариев являются, так называемые, автоматические сценарии. Если они активированы, то автоматически воздействуют на компоновку выводимых результатов некоторых процедур. Для изучения работы автоматических сценариев рассмотрим пример, в котором мы будем управлять компоновкой корреляционной матрицы.
Редактор сценариев
26.5.3 Редактор сценариевЕсли у вас появилось желание модифицировать имеющиеся сценарии или написать новые, воспользуйтесь редактором сценариев. Мы ограничимся только открытием и просмотром одного существующего сценария в редакторе сценариев.
Сценарии
26.5 СценарииВ SPSS интегрирован язык сценариев (Visual Basic), предоставляющий некоторые возможности для автоматизации вычислительных процессов. Степень использования сценариев зависит от уровня Ваших познаний и может быть разбита на три уровня:
1. Использование стандартных сценариев, имеющихся в SPSS: это может сделать каждый пользователь, так как в этом случае не требуется ни каких навыков программирования.
2. Модифицирование имеющихся сценариев: для этого необходимо располагать некоторыми базовыми знаниями.
3. Написание собственных сценариев: для этого необходимы навыки программирования на Visual Basic.
В этой книге мы ограничимся только те, что при помощи примера покажем применение сценариев, поставляемых вместе с SPSS. Изложение материала по написанию собственных сценариев и в особенности изучение языка Visual Basic, очень сильно увеличило бы объём данной вводной книги.
Кроме того, использование сценариев при работе с SPSS только начинает набирать обороты и сценарии поставляемые вместе с SPSS кажутся ещё не слишком продвинутыми. Однако, следить за сообщениями фирмы SPSS всё же полезно; время от времени в журнале для пользователей "SPSS direct" представляются новые сценарии, которые можно интегрировать в программу.
Диалоговое окно Attach SPSS Syntax File (Вложить файл синтаксиса SPSS)
Диалоговое окно Attach SPSS Syntax File (Вложить файл синтаксиса SPSS)
Откроется тестовый редактор, в котором Вы можете дополнительно отредактировать открытую SPSS-программу. В нашем примере при помощи команды GET следует указать ссылку на истинное расположение соответствующего файла данных. После ввода этой команды программа SPSS будет выглядеть следующим образом:
GET FILE='С:\SPSSBUCH\psych.sav'. PROXIMITIES а b с /MATRIX OUT ("С:\WIN95\TEMP\spssclus.tmp") /VIEW= CASE /MEASURE= SEOCLID /PRINT NONE /STANDARDIZE:? VARIABLE Z . CLUSTER /MATRIX IN ("C:\WIN95\TEMP\spssclus.tmp") /METHOD BAVERAGE /PRINT SCHEDULE CLUSTER(2,6) /PLOTS NONE. ERASE FILE= "C:\WIN95\TEMP\spssclus.tmp".
диалоговое окно Open file (Открыть файл)
диалоговое окно Open file (Открыть файл)
Диалоговое окно Run Script (Выполнение сценария)
Диалоговое окно Run Script (Выполнение сценария)
| (Тест спаренных выборок) | |||||||||
| Paired Differences | |||||||||
| Std. Error | 95% Confidence Interval of the | ||||||||
| Mean (Среднее значение) | Std. Deviation (Станда- ртное откло- нение) | Mean (Стандар-тная ошибка среднего значения) | Difference (95 %-й доверительный интервал разности) | t | Df | Р = | |||
| Lower (Ниж- ний предел) | Upper (Верх- ний предел) | ||||||||
| Pair 1 | Cholesterin, | ||||||||
| (Пар а1) | Ausga- ngswert -Choles- terin, nach 1 Monat | ||||||||
| (Холе- стирин, | -1,93 | 26,09 | 1,98 | -5,83 | 1,98 | -,974 | 173 | ,332 | |
| исходный | |||||||||
| показатель - | |||||||||
| холе- стерин, спустя 1 месяц) |
Диалоговое окно Save as Production Job (Сохранить как операционную задачу)
Диалоговое окно Save as Production Job (Сохранить как операционную задачу)
Диалоговое окно SPSS Production Facility (Операционный модуль SPSS)
Диалоговое окно SPSS Production Facility (Операционный модуль SPSS)
Доступные автоматические сценарии
Доступные автоматические сценарии
рабочего стола операционной системы Windows
Меню Start (Пуск) рабочего стола операционной системы Windows 2000
Откроется диалоговое окно операционного модуля SPSS (см. рис. 26.3).
Программирование
ПрограммированиеПользователи, давно работающие с программой SPSS, в особенности, если им приходилось использовать ее на больших ЭВМ, уже привыкли давать описание данных и формулировать желаемый метод их обработки по строгим синтаксическим правилам в виде некоторой программы на языке SPSS.
Выгода такого подхода заключается в том, что пользователю не приходится постоянно пребывать в диалоговом режиме, а можно просто наблюдать, как компьютер выполняет единожды заданные команды. В связи с необходимостью написания команд и контроля командного синтаксиса, пользователь будет вынужден лучше продумывать свои шаги и, быть может, у него появится более чёткое понимание статистических методов используемых в программе.
Наверняка найдётся немало пользователей, охотно решающих свои проблемы в работе с SPSS именно таким методом. Но даже новички в SPSS, которые используют SPSS for Windows именно потому, что здесь есть возможность работы через диалоговые окна и не желают изучать синтаксис программы, также смогут почерпнуть для себя немало полезного, познакомившись с синтаксисом. Так, в области отбора и модификации данных, а также при выполнении некоторых статистических методов, имеются команды и опции, которые доступны только через синтаксис. Или, к примеру, имеется процедура MATRIX (Матрица), предназначенная для проведения операций с матрицами, которая может быть задействована исключительно при помощи соответствующего программного синтаксиса.
Конечно же, в рамках данной книги, которая как раз и направлена на изучение техники работы в Windows без привлечения синтаксиса программы, не получится дать подробное и полное описание синтаксиса SPSS.
Следующие разделы предназначены с одной стороны для тех пользователей, которые уже знакомы с синтаксисом программы, но с другой, возможно, послужат мотивацией к более подробному изучению данной темы для начинающих пользователей SPSS. В первом разделе будут представлены некоторые основные синтаксические правила. Второй раздел посвящён изучению работы с готовыми SPSS-программами для Windows, третий раздел — тому, как отдельные команды при помощи синтаксиса могут быть включены в диалоговый расчётный процесс, и наконец в четвёртом разделе будут рассмотрены два примера использования процедуры MATRIX (Матрица).
В пятом разделе речь пойдёт о том, как при помощи так называемых сценариев можно автоматизировать выполнение некоторых задач.
Редактор сценариев Просмотрите этот сценарий, чтобы иметь представление о языке сценариев.
Редактор сценариев Просмотрите этот сценарий, чтобы иметь представление о языке сценариев.
Задачи статистики в пакете SPSS
Использование программы SPSS в качестве ядра для современных маркетинговых исследований
Использование программы SPSS в качестве ядра для современных маркетинговых исследованийНовая, 11-ая версия SPSS появилась в мае этого года, разумеется в английской локализации. Разработчики пакета сочли, что пользовательский интерфейс в последней версии уже является достаточно совершенным, поэтому подавляющее большинство изменений в новой версии связаны с усовершенствованием или добавлением статистических процедур, которые более полно обеспечивают потребности пользователей в современных методах обработки информации, возникающей в результате маркетинговых исследований, а также исследований в области социологии и психологии.
Основное внимание уделено расширению функциональных возможностей специальных модулей SPSS, таких как SPSS Categories, SPSS Advanced Models и другие. Собственно расширение программного наполнения специальных модулей и делает новую версию программы, которая уже успела стать стандартом в области обработки данных, еще более привлекательной для пользователей с весьма широким диапазоном деловых и научных интересов.
Если раньше данная программа широко использовалась в таких «классических» областях науки и бизнеса, как биология, социология, психология, управление качеством производства, общие маркетинговые исследования и экономическое прогнозирование, то сейчас новую версию можно с успехом применять в таких актуальных специализированных областях, как маркетинг, основанный на использовании баз данных, Data Mining, Data Warehousing и другие. Особенного внимания заслуживает тот факт, что изменения, внесенные в модуль SPSS Regression Models, позволяют использовать SPSS при решении задач управления лояльностью клиентов (CRM). Отметим, что данная тема представляет собой один из наиболее популярных разделов современного практического маркетинга.
Отдельного упоминания заслуживает то факт, что большинство наиболее популярных статистических методов прогнозирования, включенных в модуль SPSS Regression Models, позволяют работать с большим объемом недоступной информации. В математике в таком случае говорят о повышении робастности метода, то есть его устойчивости по отношению к неопределенностям и существенным отклонениям от диапазона параметров, для которого разрабатывался метод. Такое повышение робастности весьма желательно в маркетинговых исследованиях и в социологии, где всегда присутствует большой объем отсутствующих или недостоверных данных. Небесполезно данное улучшение и в области управления качеством, где всегда существует компромисс между подробностью информации о производственном процессе и его усложнением.
Изменения коснулись и техники вычислений. Подобные изменения не сказываются на интерфейсе и прочих видимых функциональных особенностях программы, но однако они затрагивают вычислительное ядро, которое используется в ходе проведения конкретных расчетов. Здесь основное внимание было сосредоточено на повышении эффективности статистических алгоритмов, в некоторых случаях эффективность повысилась до 50 раз.
Эффективность одной из наиболее часто используемых статистических процедур, общей линейной модели (GLM), возросла в 10 раз, что несомненно скажется на обшей производительности при выполнении статистических исследований, особенно в области обработки больших массивов экспериментальных данных, которые возникают, например, в решении задач управления качеством, социологии и медицины.
В два раза выросла скорость выполнения самых массовых статистических процедур, таких как расчет дисперсии и вычисление средних. Можно смело сказать, что пользователь, который нуждается только в самых простых статистических методах, заметит именно двукратное повышение эффективности работы программы.
Особенно повышение быстродействия чувствительно в случае, когда речь идет о методах кластерного анализа, широко используемого в маркетинге, социологии, психологии и медицине, которые иногда требовали многочасовых расчетов даже на мощных компьютерах, для чего в предыдущих версиях SPSS был предусмотрен пакетный режим выполнения задач.
Следует отметить, что только одно столь существенное повышение производительности уже может быть основанием для выпуска новой версии программы. Снижение затрат времени, которое обеспечивает новая версия SPSS, позволяет более интенсивно использовать эту программу в практических маркетинговых исследованиях, анализировать большее количество вариантов, обрабатывать более широкие и представительные выборки. В результате издержки, связанные с исследованиями падают, а степень достоверности информации повышается.
Изменения, которые были внесены в изобразительную и презентационную части программы в основном затрагивают гибкость отображения результатов статистической обработки данных и включают несколько более показательных видов графиков. Например, при выводе информации о приближении данных с помощью выбранного метода аппроксимации, на графике приводится информация о том насколько хорошо полученное приближение. Такая дополнительная возможность может оказаться весьма полезной для не слишком опытных пользователей или пользователей не имеющих и не нуждающихся в глубокой математической подготовке. В целом изменения, которым подверглась графическая и презентационная часть программы направлены на упрощение работы и облегчение интерпретации результатов вычислений неподготовленными пользователями.
Рассматривая изменения, внесенные в техническую часть программы, необходимо упомянуть, что новая версия SPSS способна конвертировать базовые и переносимые файлы программы SAS (www.sas.com), своего наиболее мощного конкурента в области статистической обработки данных. Очень многие массивы общедоступной информации, имеющие отношения к маркетинговым исследованиям и социальной статистике, например данные по исследованию уровня жизни США и других стран (в том числе и России — знаменитый RLMS, www.unc.edu), проводимые американскими исследователями имеют формат переносимых файлов SAS.
Кроме того, следуя тенденции к превращению SPSS в мощное средство для проведения маркетинговых исследований и анализа разнородной информации, в 11-ой версии существенно расширено удобства доступа к различным форматам баз данных. В список поддерживаемых форматов теперь входят Sybase 11 и 12; Infomix 7.3+, 9.14: Infomix 2000 (9.20); UDB (DB2 6.1 и 7.1); SQL Server 2000; Oracle 8.06; Oracle! Releases 2 and 3 (8.1.6, 8.1.7). Улучшена связь с Microsoft Data Access pack. Более мощным стал язык запросов, появилась возможность на уровне запроса формировать и имена переменных и метки, что облегчает интерпретацию результатов и повышает их наглядность. Повысилась гибкость и функциональные возможности мобильных таблиц — это изменение затрагивает модуль SPSS Tables.
Если подытожить все вышесказанное, то можно сделать вывод, что переход конкретного пользователя на новую версию SPSS оправдан в том случае, когда этот пользователь нуждается в расширении своего арсенала методов статистической обработки данных, реализации наиболее современных тенденций в маркетинговых исследованиях, испытывает проблемы с полнотой информации, на основании которой необходимо сделать надежные и достоверные выводы, а также сталкивается с жесткими временными ограничениями, накладываемыми на процесс проведения исследований. Кроме того, работа с 11-ой версией SPSS снимает часть проблем, с которыми сталкиваются пользователи на начальных этапах освоения сложных методов статистического анализа, применяемого в широком спектре областей деятельности.
Переход к новой версии желателен, если пользователь собирается более широко применять современные методы анализа данных в ходе своей деятельность и уже имеет опыт использования аппарата математической статистики.
И, наконец, переход к новой версии не столь необходим, если в ходе деятельности пользователя возникает потребность в применении только самых простых статистических методах, а интерпретация результатов не вызывает особенных проблем. Кроме того, необходимо отметить, что предыдущая версия SPSS 10.1 имеет русскую локализацию, а выход локализованной 11-ой версии может стать весьма отдаленной перспективой.
Приведем краткий список конкретных изменений,
Конкретные нововведения в SPSS 11Приведем краткий список конкретных изменений, внесенных в вычислительную часть программы.
Следуя намеченному выше плану, начнем с нововведений в специализированные модули программы.
Обзор процедур SPSS
Обзор процедур SPSSВ нижеследующей таблице приводятся команды SPSS, при помощи которых через синтаксис могут быть вызваны различные статистические процедуры, а также соответствующие им опции меню, необходимые при пользовании диалоговыми окнами SPSS for Windows. Кроме того, в таблице указывается, к какому модулю относится та или иная процедура:
В = Basemodule (Базовый модуль)
R = Regression Models (Регрессионные модели)
А = Advanced Models (Дополнительные модели)
В последней колонке указывается вариант представления результатов процедуры в окне просмотра: новый — с применением новой техники сводных таблиц или же старый соответствующий ещё традиционной форме листинга больших ЭВМ (SPSS classic).
| Команда SPSS | Опция меню | Модуль | Вариант представ- ления |
| AGGREGATE | Data (Данные) | В | новый |
| Aggregate... (Группировать, Агрегировать данные) | |||
| ALSCAL | Analyze (Анализ) | В | старый *) |
| Scale (Масштабирование, Анализ шкал) | |||
| Multidimensional Scaling... (Многомерное масштабирование, Многомерное шкалирование) | |||
| CLUSTER | Analyze (Анализ) | В | новый |
| Classify (Систематизировать, Классификация) | |||
| Hierarchical Cluster... (Иерархический кластерный анализ, Иерархическая кластеризация) | |||
| CNLR | Analyze (Анализ) | R | старый |
| Regression (Регрессия) | |||
| Nonlinear. . .(Нелинейная) | |||
| CORRELATIONS | Analyze (Анализ) | В | новый |
| Correlate (Корреляция, Корреляции) | |||
| Bivariate... (Двумерная, Парные) | |||
| COXREG | Analyze (Анализ) | А | старый *) |
| Survival (Выживание, Выживаемость) | |||
| Сох Regression... (Регрессия Кокса) | |||
| Analyze (Анализ) | |||
| Survival (Выживание, Выживаемость) | |||
| Cox w/Time-Dep Cov... (Кокс с ковариациями, зависящими от времени, Кокс с ковариатами, зависящими от времени) | |||
| CROSSTABS | Analyze (Анализ) | В | новый |
| Descriptive Statistics (Дескриптивные статистики) | |||
| Crosstabs... (Таблицы сопряженности) | |||
| CURVEFIT | Analyze (Анализ) | В | старый |
| Regression (Регрессия) | |||
| Curve Estimation... (Оценка с помощью кривой. Подгонка кривых) | |||
| DESCRIPTIVES | Analyze (Анализ) | В | новый |
| Descriptive Statistics (Дескриптивные статистики) | |||
| Descriptives... (Дескриптивные статистики) | |||
| DISCRIMINANT | Analyze (Анализ) | в | новый |
| Classify (Систематизировать, Классификация) | |||
| Discriminant (Дискриминационный анализ, Дискриминантный анализ) | |||
| EXAMINE | Analyze (Анализ) | в | новый |
| Descriptive Statistics (Дескриптивные статистики) | |||
| Explore... (Исследование данных. Исследовать) | |||
| FACTOR | Analyze (Анализ) | в | новый |
| Data Reduction (Упрощение данных, Снижение размерности) | |||
| Factor... (Факторный анализ) | |||
| FREQUENCIES | Analyze (Анализ) | в | новый |
| Descriptive Statistics (Дескриптивные статистики) | |||
| Frequencies... (Частоты) | |||
| GENLOG | Analyze (Анализ) | А | старый *) |
| Loglinear (Логлинейная, Логлинейныей анализ) | |||
| General... (Общий) | |||
| Analyze (Анализ) | |||
| Loglinear (Логлинейная, Логлинейный анализ) | |||
| Logit (Логит) | |||
| GLM | Analyze (Анализ) | А | новый |
| General Linear Model (Общая линейная модель) | |||
| Multivariate... (Многомерная, ОЛМ-Многомерная) | |||
| Analyze (Анализ) | А | ||
| General Linear Model (Общая линейная модель) | |||
| Repeated Measures... (ОЛМ-Повторные измерения) | |||
| GRAPH | Graphs (Графики) | В | |
| HILOGUNEAR | Analyze (Анализ) | А | старый |
| Loglinear (Логлинейная, Логлинейный анализ) | |||
| Model Selection... (Выбор модели, Подбор модели) | |||
| IGRAPH | Graphs (Графики) | В | |
| Interactive (Интерактивные) | |||
| KM | Analyze (Анализ) | А | старый *) |
| Survival (Выживание, Выживаемость) | |||
| Kaplan-Meier... (Каплан-Майер, Каплан-Мейер) | |||
| LOGISTIC | Analyze (Анализ) | R | старый |
| REGRESSION | Regression (Регрессия) | ||
| Binary Logistic... (Бинарная логистическая, Логистическая) | |||
| MATRIX | Только через синтаксис программы | В | старый |
| MEANS | Analyze (Анализ) | В | новый |
| Compare Means (Сравнить средние значения, Сравнение средних) | |||
| Means... (Средние значения, Среднее) | |||
| MULT RESPONSE | : Analyze (Анализ) | В | старый |
| Multiple Response (Множественные ответы) | |||
| NLR | Analyze (Анализ) | R | старый |
| Regression (Регрессия) | |||
| Nonlinear. . .(Нелинейная) | |||
| NOMREG | Analyze (Анализ) | R | новый |
| Regression (Регрессия) | |||
| Multinomial Logistic... (Многозначная логистическая, Мультиноминальнач регресссия) | |||
| NONPAR CORR | Analyze (Анализ) | В | новый |
| Correlate (Корреляция) | |||
| Bivariate... (Двумерная, Парные) | |||
| NPAR TESTS | Analyze (Анализ) | В | новый |
| Nonparametric Tests (Непараметрические тесты, Нерараметрические критерии) | |||
| OLAP CUBES | Analyze (Анализ) | В | новый |
| Reports (Отчёты) | |||
| OLAP Cubes... (OLAP кубы) | |||
| ONEWAY | Analyze (Анализ) | В | новый |
| Compare Means (Сравнить средние значения, Сравнение средних) | |||
| One-Way ANOVA... (Однофакторный ANOVA, Однофакторный дисперсионный анализ) | |||
| PARTIAL CORR | Analyze (Анализ) | В | старый |
| Correlate (Корреляция, Корреляции) | |||
| Partial (Частичная, Частные) | |||
| PLUM | Analyze (Анализ) | А | новый |
| Regression (Регрессия) | |||
| Ordinal... (Порядковая) | |||
| PROBIT | Analyze (Анализ) | R | старый |
| Regression (Регрессия) | |||
| Probit... (Пробит) | |||
| PROXIMITIES | Analyze (Анализ) | В | новый |
| Correlate (Корреляция, Корреляции) | |||
| Distances... (Дистанции, Расстояния) | |||
| QUICK CLUSTER | Analyze (Анализ) | В | новый |
| Classify (Систематизировать, Классификация) | |||
| K-Means Cluster... (Анализ кластерных центров, Кластеризация К-средним) | |||
| RANK | Transform (Трансформация, Преобразовать) | В | новый |
| Rank Cases... (Создать иерархию, Ранжирование наблюдений) | |||
| REGRESSION | Analyze (Анализ) | В | новый |
| Regression (Регрессия) | |||
| Linear. . . (Линейная) | |||
| RELIABILITY | Analyze (Анализ) | В | старый |
| Scale... (Масштабирование, Анализ шкал) | |||
| Reliability Analysis... (Анализ пригодности, Анализ надежности) | |||
| REPORT | Analyze (Анализ) | В | старый *) |
| Reports (Отчёты) | |||
| Report Summaries in Rows... (Итоговый отчёт по строкам, Итоги по строкам) | |||
| Analyze (Анализ) | |||
| Reports (Отчёты) | |||
| Report Summaries in Columns... (Итоговый отчёт по столбцам, Итоги по столбцам) | |||
| SUMMARISE | Analyze (Анализ) | В | новый |
| Reports (Отчёты) | |||
| Case Summaries... (Итоговые показатели случаев, Итоги по наблюдениям) | |||
| SURVIVAL | Analyze (Анализ) | А | старый *) |
| Survival (Выживание, Выживаемость) | |||
| Life Tables... (Таблицы жизни, Таблицы дожития) | |||
| TABLES | Analyze (Анализ) | Tables | новый |
| Custom Tables (Индивидуальные таблицы, Настраиваемые таблицы) | |||
| T-TEST |
Analyze (Анализ) Compare Means (Сравнить средние значения, Сравнение средних) Independent-Samples T Test... (Т-тест независимых выборок, Т-критерий для независимы Analyze (Анализ) Compare Means (Сравнить средние значения, Сравнение средних) Paired-Samples T Test... (Т-тест спаренных выборок, Т-критерий для парных выборок) | В | новый |
| UNIANOVA |
Analyze (Анализ) General Linear Model (Общая линейная модель) Univariate... (ОЛМ-Одномерная) | В | новый |
| VARCOMP |
Analyze (Анализ) General Linear Model (Общая линейная модель) Variance Components... (Компоненты дисперсии) | А | новый |
| WLS | Analyze (Анализ) Regression (Регрессия) Weight Estimation... (Весовая оценка. Взвешенная) | R | старый |
| 2SLS |
Analyze (Анализ) Regression (Регрессия) 2-Stage Least Squares... (2-х ступенчатые наименьшие квадраты, Двух этапный МНК ) | R | старый |
Задачи статистики в пакете SPSS
Кодирование и кодировочная таблица
3.1 Кодирование и кодировочная таблицаДля того чтобы полученные данные можно было обработать, прежде всего следует создать кодировочную таблицу. Кодировочная таблица устанавливает соответствие между отдельными вопросам анкеты и переменными. используемыми при компьютерной обработке данных. Например, пункту анкеты "Пол" может быть поставлена в соответствие переменная sex.
Переменные — это ячейки памяти, в которые можно записывать значения, введенные с клавиатуры. Мы выбрали для переменной имя sex, так как имена переменных в SPSS для Windows могут содержать до восьми символов. Другое, более подробное имя было бы слишком длинным. Имена переменных могут состоять из букв латинского алфавита, цифр и специальных символов; причем первым символом имени должна быть буква.
Переменные могут принимать различные значения. Переменная sex может иметь два возможных значения: "женский" и "мужской". Кодировочная таблица определяет кодовые числа, соответствующие отдельным значениям переменных; например, значению "женский" может соответствовать цифра "1", а значению "мужской" — "2".
Подитожим задачи, которые решаются при составлении кодировочной таблицы:

Матрица данных
3.2 Матрица данныхПредположим, что 30 анкет были заполнены следующим образом:
|
fragebnr |
Sex |
age |
party |
|
|
1 |
W-001 |
женский |
45 |
ХДС/ХСС |
|
2 |
W-002 |
мужской |
22 |
СДПГ |
|
3 |
W-003 |
мужской |
19 |
сдпг |
|
4 |
W-004 |
женский |
42 |
ХДС/ХСС |
|
5 |
W-005 |
мужской |
34 |
Зеленые/Союз 90 |
|
6 |
W-006 |
женский |
72 |
сдп |
|
7 |
W-007 |
мужской |
38 |
СДПГ |
|
8 |
W-008 |
женский |
56 |
СДПГ |
|
9 |
W-009 |
мужской |
61 |
ХДС/ХСС |
|
10 |
W-010 |
женский |
77 |
ХДС/ХСС |
|
11 |
W-01 1 |
женский |
23 |
Зеленые/Союз 90 |
|
12 |
W-012 |
мужской |
67 |
Республиканцы |
|
13 |
W-013 |
мужской |
79 |
Прочие |
|
14 |
W-01 4 |
женский |
26 |
СДПГ |
|
15 |
W-01 5 |
мужской |
59 |
ХДС/ХСС |
|
16 |
O-001 |
женский |
34 |
Зеленые/Союз 90 |
|
17 |
O-002 |
мужской |
18 |
Республиканцы |
|
18 |
O-003 |
женский |
44 |
ХДС/ХСС |
|
19 |
O-004 |
мужской |
68 |
ХДС/ХСС |
|
20 |
O-005 |
женский |
33 |
пдс |
|
21 |
O-006 |
мужской |
66 |
ХДС/ХСС |
|
22 |
O-007 |
женский |
22 |
нет данных |
|
23 |
O-008 |
мужской |
нет данных |
СДПГ |
|
24 |
O-009 |
женский |
67 |
СДПГ |
|
25 |
O-010 |
мужской |
33 |
сдп |
|
26 |
O-011 |
мужской |
44 |
ХДС/ХСС |
|
27 |
O-012 |
женский |
22 |
СДПГ |
|
28 |
O-013 |
женский |
19 |
Прочие |
|
29 |
O-014 |
женский |
55 |
ХДС/ХСС |
|
30 |
O-015 |
мужской |
39 |
СДПГ |
Мы предполагаем, что опрос проводился как в старых, так и в новых федеральных землях. Опрашивающие должны были отмечать это с помощью буквы перед номером анкеты. Буква "W" с дефисом должна была обозначать старые федеральные земли (West), а буква "О" — новые (Ost). Например, W-001 означает первую анкету, которая была заполнена в старых федеральных землях, а О-005 — пятую анкету, которая была заполнена в новых федеральных землях.
Запуск SPSS
3.3 Запуск SPSSНачнем с ввода данных для небольшого примера анализа.
Редактор данных — это одно из многих окон SPSS. Здесь можно вводить новые данные или загружать существующие из файлов данных с помощью команд меню File (Файл) Open... (Открыть...)
Так как при запуске SPSS ни один файл данных еще не загружен, в заголовке редак тора данных стоит "Untitled" (Без имени). Над изображением таблицы в редакторе данных имеются строка меню и панель символов.
Определение переменных
3.4.1 Определение переменныхНачнем с определения переменных. Переменную можно определить следующим образом:
Имя переменной
Чтобы задать имя переменной, поступите следующим образом:
Ввод данных
3.4.2 Ввод данныхПриступим ко вводу данных:
|
fragebnr |
sex |
age |
party | |
|
1 |
W-001 |
1 |
45 |
1 |
|
2 |
W-002 |
2 |
22 |
3 |
|
3 |
W-003 |
2 |
19 |
3 |
|
4 |
W-004 |
1 |
42 |
1 |
|
5 |
W-005 |
2 |
. 34 |
4 |
|
6 |
W-006 |
1 |
72 |
2 |
|
7 |
W-007 |
2 |
38 |
3 |
|
8 |
W-008 |
1 |
56 |
3 |
|
9 |
W-009 |
2 |
61 |
1 |
|
10 |
W-010 |
1 |
77 |
1 |
|
11 |
W-011 |
1 |
23 |
4 |
|
12 |
W-012 |
2 |
67 |
6 |
|
13 |
W-013 |
2 |
79 |
7 |
|
14 |
W-014 |
1 |
26 |
3 |
|
15 |
W-015 |
2 |
59 |
1 |
|
16 |
О-001 |
1 |
34 |
4 |
|
17 |
О-002 |
2 |
18 |
6 |
|
18 |
О-00З |
1 |
44 |
1 |
|
19 |
О-004 |
2 |
68 |
1 |
|
20 |
О-005 |
1 |
33 |
5 |
|
21 |
О-006 |
2 |
66 |
1 |
|
22 |
О-007 |
1 |
22 |
0 |
|
23 |
О-008 |
2 |
0 |
3 |
|
24 |
О-009 |
1 |
67 |
3 |
|
25 |
О-010 |
2 |
33 |
2 |
|
26 |
0-011 |
2 |
44 |
1 |
|
27 |
О-012 |
1 |
22 |
3 |
|
28 |
О-013 |
1 |
19 |
7 |
|
29 |
О-014 |
1 |
55 |
1 |
|
30 |
0-01 5 |
2 |
39 |
3 |
Позиционирование
|
Клавиша |
Функция |
|
<Таb> или <стрелка вправо> |
Перемещает курсор на ячейку вправо. |
|
|
Перемещает курсор на ячейку вниз. |
|
<стрелка вверх> |
Перемещает курсор на ячейку вверх. |
|
|
Перемещает курсор на ячейку влево, т.е. в предыдущее поле. |
|
<Ноте> |
Перемещает курсор в первую ячейку строки или случая. |
|
|
Перемещает курсор в последнюю ячейку случая. |
|
|
Перемещает курсор в первый случай столбца. |
|
|
Перемещает курсор в последний случай столбца. |
|
|
Перемещает курсор в первую ячейку первого случая. |
|
|
Перемещает курсор в последнюю ячейку последнего случая. |
|
|
Прокручивает таблицу на одну страницу вверх. |
|
|
Прокручивает таблицу на одну страницу вниз. |
|
|
Выделяет всю строку. |
|
|
Выделяет весь столбец. |
|
|
Выделение области случаев и переменных. Также можно щелкнуть мышью и перетянуть ее из верхнего левого угла области в нижний правый угол. |
|
F2 |
Переключает в режим редактирования. Следующее нажатие |
|
<стрелка вправо> |
Переместить позицию редактирования в ячейке вправо на один знак. |
|
<стрелка влево> |
Переместить позицию редактирования в ячейке влево на один знак. |
|
<Ноте> |
Перейти в начало значения ячейки. |
|
|
Перейти в конец значения ячейки. |
Редактор данных
3.4 Редактор данныхСейчас с помощью редактора данных мы создадим файл данных. Редактор данных это приложение, напоминающее электронную таблицу. Под электронной таблицей подразумевается рабочий лист, разделенный на строки и столбцы, который позволяет про сто и эффективно вводить данные. Отдельные строки таблицы соответствуют отдельным наблюдениям. Например, при обработке данных опроса одна строка содержит данные одного респондента. Отдельные столбцы соответствуют отдельным переменным. При обработке данных наблюдений анкеты в одной переменной хранятся ответы на отдельный вопрос. Отдельные ячейки таблицы содержат значения переменных для каждого отдельного наблюдения; в каждой ячейке хранится одно значение переменной.
Сохранение файла данных
3.5 Сохранение файла данныхСейчас мы сохраним созданный файл данных. Поступите следующим образом:
Если вы следовали указаниям по инсталляции и задали рабочий каталог \SPSSBOOK, он будет предлагаться по умолчанию.
Копирование описаний переменных
3.6 Копирование описаний переменныхВ исследовании на тему "Здоровье и питание", в частности, проводится опрос о предпочитаемых диетах. Респонденты должны ответить, насколько к ним относится одно из следующих высказываний.
|
Я предпочитаю следующую диету |
Да, конечно |
Да |
Частично |
В малой степени |
Нет |
|
вегетарианскую |
X |
X |
X |
X |
X |
|
биодинамическую |
X |
X |
X |
X |
X |
|
с низким содержанием животных белков |
X |
X |
X |
X |
X |
|
фаст-фуд |
X |
X |
X |
X |
X |
|
с учетом калорийности |
X |
X |
X |
X |
X |
|
сытную |
X |
X |
X |
X |
X |
|
дешевую |
X |
X |
X |
X |
X |
Завершение сеанса работы
3.7 Завершение сеанса работыСейчас мы завершим наш сеанс работы с SPSS.
Так как у нас было открыто только окно редактора данных и мы уже сохранили его содержимое в разделе 3.5, программа ничего не запрашивает и просто закрывается.
Диалоговое окно Define Missing Values
Диалоговое окно Define Missing Values
По умолчанию предлагается вариант No missing values (Нет пропущенных значений), то есть все значения в настоящее время рассматриваются как допустимые.
Диалоговое окно Define Value Labels
Диалоговое окно Define Value Labels
Метки значений определяются следующим образом:
Диалоговое окно Define Variable Type (для численной переменной)
Диалоговое окно Define Variable Type (для численной переменной)
В SPSS существуют следующие типы переменных:
|
Numeric (Численный) |
К допустимым значениям относятся цифры, перед которыми стоит знак плюс или минус и десятичный разделитель. Знак плюс перед числом, в отличие от минуса, не отображается. В текстовом поле Length (Длина) задается максимальное количество знаков, включая позицию для десятичного разделителя. В текстовом поле Decimals (Десятичные разряды) вводится количество отображаемых знаков дробной части. |
|
Comma (Запятая) |
К допустимым значениям относятся цифры, перед которыми стоит знак плюс или минус, точка, как десятичный разделитель и одна или несколько запятых в качестве разделителей групп разрядов. Если запятые опускаются при вводе, они вставляются автоматически. Длина такой переменной равна максимальному количеству знаков, включая десятичный разделитель и запятые между группами разрядов. |
|
Dot (Точка) |
К допустимым значениям относятся цифры, перед которыми стоит знак плюс или минус, запятая, как десятичный разделитель и одна или несколько точек в качестве разделителей групп разрядов. Если точки опускаются при вводе, они вставляются автоматически. |
|
Scientific notation (Экспоненциальное представление) |
При вводе данных разрешаются все допустимые численные значения, включая экспоненциальное представление, о котором свидетельствует содержащаяся в числе буква Е или D, а также знак плюс или минус. |
|
Date (Дата) |
Допустимые значения — дата и/или время. |
|
Dollar (Доллар) |
К допустимым значениям относятся: знак доллара, точка, как десятичный разделитель и запятые, как разделители групп разрядов. Если знак доллара или запятые опускаются при вводе, они вставляются автоматически. |
|
Special currency (Специальная валюта) |
Пользователь может задавать собственные форматы валюты. В поле Length в этом случае задается максимальное количество знаков, включая все знаки, заданные пользователем. Обозначение валюты при вводе не указывается; оно вставляется автоматически. |
|
String (Строка) |
Строка символов. К допустимым значениям относятся: буквы, цифры и специальные символы. Различаются короткие и длинные строковые переменные. Короткие строковые переменные могут содержать не более восьми знаков. В большинстве процедур SPSS применение длинных строковых переменных ограничивается или вообще не допускается. |
Диалоговое окно Define Variable Type (для строковой переменной).
Диалоговое окно Define Variable Type (для строковой переменной).
Переменная fragebnr получила строковый тип. С такими переменными нельзя выполнять никаких вычислительных операций, но можно проводить, например, подсчеты повторяемости. Кроме того, становится возможным ввод букв, например, "W" для старых федеральных земель и "О" — для новых. Мы выбрали длину пять символов, чтобы можно было кодировать до 999 анкет для обеих групп земель. В этом случае для анкет в старых федеральных землях можно будет задавать номера анкет от "W-001" до "W-999", а для новых федеральных земель — от "О-001" до "О-999".
Диалоговое окно Paste Variables
Диалоговое окно Paste Variables
Диалоговое окно Save Data as
Диалоговое окно Save Data as
Подготовка данных
Подготовка данныхВ этой главе мы на небольшом примере опишем процесс подготовки данных. За основу мы возьмем вымышленный опрос — так называемый "воскресный вопрос", который студенты, изучающие политологию в Марбургском университете, задавали избирателям:
"За кого бы вы голосовали, если бы в воскресенье были выборы в бундестаг?" С помощью следующей анкеты был проведен телефонный опрос 30 человек. Мы ограничили количество респондентов, чтобы избавить вас от ввода слишком большого количества данных.
После заполнения анкет, их следует подготовить для ввода данных в компьютер и обработки с помощью программы SPSS для Windows. Редактор данных: просмотр данных
Редактор данных: просмотр данных
Редактор данных: просмотр переменных
Редактор данных: просмотр переменных
budget99
gender
zarplata
quest_13
var3_1_2
Примеры недопустимых имен переменных:
|
1nа1 |
Имя начинается не с буквы |
|
Assignment |
Имя длиннее 8 символов |
|
Прибыль |
Имя содержит символы другого алфавита |
|
State 94 |
Имя содержит пробел |
|
None! |
Символ "!" не разрешается |
Как видно из электронной таблицы, вновь созданные в SPSS переменные по умолчанию являются численными с максимальной длиной восемь знаков, причем дробная часть состоит из двух знаков (формат F8.2).
• Если требуется изменить тип переменной, щелкните в ячейке на кнопке с тремя точками:
Скопированные параметры описания .переменной
Скопированные параметры описания .переменной
Таблица после вставки нескольких переменных
Таблица после вставки нескольких переменных
Нам остается только заменить имена переменных vege I — vege6 на желаемые, например, biolog, lowprot, fastfood, calbal, rich и cheap, и все переменные шкалы "Предпочтения в питании" будут объявлены.
Выделенное описание переменной
Выделенное описание переменной
Заполненное диалоговое окно Define Value Labels для переменной party
Заполненное диалоговое окно Define Value Labels для переменной party


Заполненное диалоговое окно Define Value Labels (Определение меток значений)
Заполненное диалоговое окно Define Value Labels (Определение меток значений)
Задачи статистики в пакете SPSS
Настройки
4.10 НастройкиВ этом диалоговом окне находятся десять регистрационных карт. Названия отдельных параметров говорят сами за себя, поэтому мы остановимся только на описании самих регистрационных карт.
Выбор статистической процедуры
4.1 Выбор статистической процедурыМеню статистики, которое открывается по команде меню Analyze (Анализ), содержит список статистических методов. После каждого пункта этого меню стоит стрелка. Она указывает на существование следующего уровня меню.
Доступный набор статистических методов зависит, в частности, от того, какие модули были установлены. В варианте установки SPSS, показанного на рис. 4.3, кроме модулей, описанных в этой книге, установлены дополнительные модули Amos, AnswerTree и Trends. Эти модули рассматриваются в нашей книге "SPSS. Методы изучения рынка и общественного мнения" (SPSS. Methoden fur die Markt- und Meinungs-forschung").
В качестве примера попробуем построить частотное распределение. Выполните следующие действия.
Выберите в меню команды Analyze (Анализ) Descriptive statistics (Описательная статистика) Frequency... (Частоты...)
Настройки редактора данных
4.2. Настройки редактора данныхМеню View (Вид) редактора данных содержит множество опций, с помощью которых можно произвести индивидуальную настройку редактора данных. В частности, можно:
Мы хотим, чтобы вместо значений переменных файла wahl.sav отображались метки значений.
Метки значений также позволяют как вводить данные, так и изменять их. Выполните следующие действия:
Панели символов
4.3 Панели символовSPSS имеет следующие окна:
Ниже представлены прежде всего те символы, которые встречаются в большинстве или во всех окнах.
Чтобы заново вызвать диалоговое окно, просто щелкните на соответствующем пункте списка.
В редакторе синтаксиса большое значение имеет символ Syntax-Start (Синтаксис-Начать), в случае если для вызова статистических процедур Вы пользуетесь командным синтаксисом SPSS (см. главу 26):
Три следующих символа могут быть задействованы в редакторе данных.
Символы, доступные в редакторе диаграмм, подробно описаны в разделе 22.16. Построение и редактирование графиков
4.4 Построение и редактирование графиковПредставим в графическом виде значения переменной partei (партия).
Окно просмотра
4.5 Окно просмотраРассмотрим на конкретном примере возможности, предоставляемые пользователю окном средства просмотра результатов. Для того, чтобы иметь рабочий материал в окне просмотра, произведём некоторые операции с файлом wahl.sav и построим несколько таблиц и график.
На первом шаге подсчитаем частоты переменной partei (партия).
Окно просмотра состоит из двух частей. В левой части находится иерархия (обзор содержания) результатов; в правую часть помещаются таблицы с результатами расчётов и построенные графики. Ширину этих частей окна можно изменять перетаскиванием разделительной границы при помощи мыши.
Рассмотрите полученные результаты, помещенные в правую часть окна и ознакомьтесь с формой таблиц. В качестве примера рассмотрим поподробнее таблицу сопряженности между полом (sex) и переменной partei (партия), характеризующей партийные предпочтения респондентов.
Редактор мобильных таблиц
4.6.1 Редактор мобильных таблицОб активировании редактора мобильных таблиц Вы узнаете по изменившейся панели меню.
Два значка на панели строк соответствуют переменной ри (периодичности чистки) и "статистике" соответственно, причём под статистикой в данном случае понимаются процентные показатели по столбцам, затребованные нами при построении таблицы сопряженности. Значок на панели столбцов соответствует переменной g (полу). На панели слоев значки отсутствуют; они бы там были, если бы Вы в диалоговом окне Crosstabs... (Таблицы сопряженности) ввели одну или несколько переменных слоя.
Дополнительные возможности редактирования таблиц
4.6.2 Дополнительные возможности редактирования таблицПрименение техники мобильных таблиц для изменения структуры таблиц результатов статистических расчетов была представлена в разделе 4.6.1. Однако для изменения внешнего вида таблиц и их содержания, помимо описанной техники, существуют также и следующие возможности:
Выбор внешнего вида таблицы
В качестве примера таблицы, для которой нужно будет применить редактирование, рассмотрим повторно перекрёстную таблицу между периодичностью чистки и полом.
Операции с таблицами большого размера
4.6.3 Операции с таблицами большого размераОчень длинные таблицы полностью не помещаются в окне просмотра. Визуально это отмечается при помощи маркировки красного цвета в месте разрыва. В этом случае щёлкните дважды на таблице и при нажатой левой кнопке мыши Вы сможете переместить этот маркер вниз.
Окно просмотра текста
4.6.4 Окно просмотра текстаЕсли Вы хотите работать не с интерактивными мобильными таблицами, а с простой текстовой выдачей пропорциональным (системным) шрифтом, то используйте для этого окно просмотра текста.
Редактирование таблиц
4.6 Редактирование таблицВ главе 4.5 мы уже рассматривали, как при помощи иерархического списка в окне просмотра можно управлять выводом элементов результатов расчётов. Теперь мы расскажем о возможностях, которые существуют для редактирования элементов результатов. Так как приёмы редактирования графиков уже рассматривались в разделе 4.4, здесь мы остановимся только на редактировании таблиц.
Многие элементы результатов расчетов представлены в виде так называемых мобильных таблиц. Это новая форма таблиц, которая позволяет менять местами строки, столбцы и слои таким образом, чтобы результаты можно было бы оценить с разных точек зрения. Хорошим примером их применения могут послужить, прежде всего, таблицы сопряженности.
Putzhaeufigkeit * Geschlecht Crosstabulation (Перекрёстная таблица Периодичность чистки * Пол)
|
Geschlecht (Пол) |
Total (Сумма) | ||||
|
weiblich (женский) |
mannlich (мужской) | ||||
|
Putzha-eufigkeit (Перио-дичность чистки) |
< 1-mal taeglich (< 1 раза в день) |
Count (Количество) |
14 |
4 |
18 |
|
% within Geschlecht (% для пола) |
2,0% |
,9% |
1,6% | ||
|
1-mal taeglich (1 раз в день) |
Count (Количество) |
177 |
56 |
233 | |
|
% within Geschlecht (% для пола) |
25,1% |
13,2% |
20,6% | ||
|
2-mal taeglich (2 раза в день) |
Count (Количество) |
490 |
342 |
832 | |
|
% within Geschlecht (% для пола) |
69,4% |
80,7% |
73,6% | ||
|
> 2-mal taeglich (> 2 раз в день) |
Count (Количество) |
25 |
22 |
47 | |
|
% within Geschlecht (% для пола) |
3,5% |
5,2% |
4,2% | ||
|
Total (Сумма) |
Count (Количество) |
706 |
424 |
1130 | |
|
% within Geschlecht (% для пола) |
100,0% |
100,0% |
100,0% | ||
Редактор синтаксиса
4.7 Редактор синтаксисаРедактор синтаксиса представляет собой текстовое окно, применяемое для набора и запуска на исполнение команд SPSS. Вы можете вводить команды непосредственно в окне набора или просто переносить установки диалоговых окон при помощи выключателя Paste (Вставить), находящегося в самих диалоговых окнах. Этот перенос возможен благодаря тому, что все диалоговые окна написаны на командном языке SPSS. С целью реализации дополнительных возможностей или каких-либо индивидуальных подходов к обработке данных, команды, помещённые в редактор синтаксиса, можно изменять.
Редактор синтаксиса будет выглядеть так, как на рисунке 4.25.
Информация о файле
4.8 Информация о файлеДля любого файла SPSS Вы можете получить следующую информацию:
Справочная система
4.9 Справочная системаСправку в SPSS можно вызвать несколькими способами:
Диалоговое окно Bar Label Styles (Метки столбцов)
Диалоговое окно Bar Label Styles (Метки столбцов)
Диалоговое окно Cell Properties (Свойства ячейки)
Диалоговое окно Cell Properties (Свойства ячейки)
При помощи регистрационных карт, имеющихся в этом диалоговом окне, Вы можете выбрать необходимый формат чисел, выравнивание в ячейке, поля и оттенок. В поле образца (Sample) всегда будет приводиться образец надписи с учетом соответствующих установок.
Изменение текста в таблице
| Count (Количество) | Percent (Процент) | Valid Percent (Действи- тельный процент) | Cumulative Percent (Совокупный процент) | ||
| Valid (Действи- тельные значения) | Sonderschule (Специальное) | 1 | ,1 | ,1 | ,1 |
| Hauptschule (Начальная школа) | 211 | 18,7 | 18,7 | 18,8 | |
| mittlere Reife (Незаконченное среднее) | 646 | 57,2 | 57,2 | 75,9 | |
| Abitur (Аттестат зрелости) | 81 | 7,2 | 7,2 | 83,1 | |
| Hochschule (Высшее) | 191 | 16,9 | 16,9 | 100 | |
| Total (Сумма) | 1130 | 100,0 | 100,0 | ||
| Count (Количество) | Percent (Процент) | Valid Percent (Действи- тельный процент) | Cumulative Percent (Совокупный процент) | ||
| Valid (Действи- | Sonderschule (Специальное) | 1 | ,1 | ,1 | ,1 |
| тельные значения) | Hauptschule (Начальная школа) | 211 | 18,7 | 18,7 | 18,8 |
| mittlere Reife (Незаконченное среднее) | 646 | 57,2 | 57,2 | 75,9 | |
| Abitur (Аттестат зрелости) | 81 | 7,2 | 7,2 | 83,1 | |
| Hochschule1 (Высшее) | 191 | 16,9 | 16,9 | 100,0 | |
| Total (Сумма) | 1130 | 100,0 | 100,0 |
1. Включая специальные высшие учебные заведения
Ввод названия объекта и дополнительного текста
Диалоговое окно Frequencies: Charts (Частоты: Диаграммы)
Диалоговое окно Frequencies: Charts (Частоты: Диаграммы)
Предположим, у Вас появилось желание отредактировать построенный график в соответствии со своими требованиями.
Диалоговое окно Frequency
Диалоговое окно Frequency
Диалоговые окна статистических процедур содержат следующие компоненты:
Сначала мы построим частотное распределение для переменной partei. Выполните следующие действия:
Вернемся в редактор данных. Это можно сделать двумя различными способами:
Диалоговое окно Frequency: Statistics
Диалоговое окно Frequency: Statistics
|
Возраст | ||
|
N |
Имеется |
29 |
|
|
Отсутствует |
1 |
|
Среднее |
|
44,28 |
|
Наименьшее |
|
18 |
|
Наибольшее |
|
79 |
Диалоговое окно Go to Layer Category (Переход к категории слоя)
Диалоговое окно Go to Layer Category (Переход к категории слоя)
| Schulbildung: He suptschule (Образ ование: Начальная школа) | |||||
| Geschle:ht (Пол) |
Total (Сумма) | ||||
| nannlich (мужской) | weiblich (женский) | ||||
|
Putzhaeufigkeit (Периодичность чистки) |
< 1-mal taeglich (< 1 раза в день) | Count (Количество) | 8 | 2 | 10 |
| % within Geschlecht (% для пола) | 5,6% | 3,0% | 4,7% | ||
|
1-mal taeglich (1 раз в день) | Count (Количество) | 71 | 2С | 91 | |
| % within Geschlecht (% для пола) | 49,3% | 29,9% | 43,1% | ||
|
2-mal taeglich (2 раза в день) | Count (Количество) | 65 | 42 | 107 | |
| % within Geschlecht (% для пола) | 45,1% | 62,7% | 50,7% | ||
|
>2-mal taeglich (> 2 раз в день) | Count (Количество) | f. | Т | ||
| % within Geschlecht (% для пола) | 4,5% | 1,4% | |||
| Total (Сумма) | Count (Количество) | 144 | 67 | 211 | |
| % within Geschlecht (% для пола) | 100,0% | 100,0% | 100,0% | ||
Диалоговое окно Параметры SPSS
Диалоговое окно Параметры SPSS
Диалоговое окно Save As (Сохранить как)
Диалоговое окно Save As (Сохранить как)
Теперь распечатаем график на принтере.
Диалоговое окно Summarize Cases (Формирование сводки по наблюдениям)
Диалоговое окно Summarize Cases (Формирование сводки по наблюдениям)
Переменные файла будут показаны в списке исходных переменных. Здесь Вы можете выделить одну или несколько переменных, наблюдения для которой должны быть помещены в сводку. Опции диалогового окна говорят сами за себя.
Диалоговое окно Tabe/Looks (Дизайн таблиц)
Диалоговое окно Tabe/Looks (Дизайн таблиц)
Наша таблица теперь будет выглядеть следующим образом.
Putzhaeufigkeit * Geschlecht * Schulbildung Crosstabulation (Таблица сопряженности Периодичность чистки * Пол)
| Geschlecht(Пол) |
Total (Сумма) | |||||
| mannlich (мужской) | weiblich (женский) | |||||
|
Putzhaeufigkeit (Периодичность чистки) |
< 1-mal taeglich < 1 раза в день) | Count (Количество) | 14 | 4 | 18 | |
| % within Geschlecht | (% для пола) | 2,0% | ,9% | 1 ,6% | ||
|
1-mal taeglich (1 раз в день) | Count (Количество | 177 | 56 | 233 | ||
| % within Geschlecht | (% для пола) | 25,1% | 13,2% | 20,6% | ||
|
2-mal taeglich (2 раза в день) | Count (Количество) | 490 | 342 | 832 | ||
| % within Geschlecht | (% для пола) | 69,4% | 80,7% | 73,6% | ||
|
> 2-mal taeglich (> 2 раз в день) | Count (Количество | 25 | 22 | 47 | ||
| % within Geschlech | (% для пола) | 3,5% | 5,2% | 4,2% | ||
| Total (Сумма) | Count (Количество) | 706 | 424 | 1130 | ||
| % within Geschlechl | (% для пола) | 100,0% | 100,0% | 100,0% | ||
Диалоговое окно Table Properties (Свойства таблицы)
Диалоговое окно Table Properties (Свойства таблицы)
Вы можете по своему вкусу изменить представление некоторых данных, ссылки, форматы ячеек и виды рамок. Для отдельных областей таблицы, таких как индивидуальные ячейки, вы можете также изменить и шрифт.
Наряду со свойствами всей таблицы можно также изменять и свойства отдельных ячеек.
Диалоговое окно Titles (Заголовки)
Диалоговое окно Titles (Заголовки)
Диалоговое окно Variables (Переменные)
Диалоговое окно Variables (Переменные)
В информационном окне выводится имя переменной, значения и метки переменной, тип переменной, а также указывается количество пропущенных значений. Из диалогового окна Variables (Переменные) можно сразу перейти к рассматриваемой переменной в окно данных.
Некоторую информацию о переменной можно также получить и в любой момент, находясь в диалоговом окне какой-либо статистической процедуры. Для изучения этой операции рассмотрим следующий пример. Допустим, Вы исследуете частотное распределение переменной partei (партия).
Диалоговое окно Ва Styles (Виды столбцов)
Диалоговое окно Ва Styles (Виды столбцов)
Фрагмент файла данных wahl.sav
Фрагмент файла данных wahl.sav
Информационное окно переменной
Информационное окно переменной
Чтобы закрыть информационное окно, просто щёлкните на любой точке за его пределами.
List of variables on the working file (Список переменных рабочего файла) Name (Имя) Position (Позиция) FRAGEBNR Fragebogen-Nr. (Номер анкеты) 1 Measurement Level: Nominal (Шкала: номинальная) Column Width: Unknown (Ширина столбцов: неизвестна) Alignment: Left (Выравнивание: влево) Print Format: AS (Формат печати: А5) Write Format: AS (Формат записи: AS) SEX Geschlecht (Пол) 2 Measurement Level: Nominal (Шкала: номинальная) Column Width: Unknown (Ширина столбцов: неизвестна) Alignment: Right (Выравнивание: вправо) Print Format: Fl (Формат печати: Fl) Write Format: Fl (Формат записи: Fl) Missing Values: 0 (Отсутствующие значения: 0) Value (Значение) Label (Метка) 0 М keine Angabe (Данные отсутствуют) 1 weiblich (Женский) 2 maennlich (Мужской) ALTER Lebensalter (Возраст) 3 Measurement Level: Scale (Шкала: метрическая) Column Width: Unknown (Ширина столбцов: неизвестна) Alignment: Right (Выравнивание: вправо) Print Format: F2 (Формат печати: F2) Write Format: F8.2 (Формат записи: F8.2) Missing Values: 0 (Отсутствующие значения: 0) Value (Значение) Label (Метка) 0 М keine Angabe (Данные отсутствуют) PARTEI Partei (Партия) 4 Measurement Level: Nominal (Шкала: номинальная) Column Width: Unknown (Ширина столбцов: неизвестна) * Alignment: Right (Выравнивание: вправо) Print Format: Fl (Формат печати: Fl) Write Format: F8.2 (Формат записи: F8.2) Missing Values: 0 (Отсутствующие значения: 0) Value (Значение) Label (Метка) 0 М keine Angabe (Данные отсутствуют) 1 CDU/CSU 2 FDP 3 SPD 4 Gruene/Buendnis 90 (Зелёные/Союз 90) 5 PDS 6 Republikaner (Республиканцы) 7 Sonstige (Прочие)
Информация о значениях процентиля
Информация о значениях процентиля
Командный язык SPSS
Командный язык SPSS
Сохранение файла синтаксиса
Для сохранения файла синтаксиса необходимо выполнить следующие шаги:

Больше подробностей о работе с синтаксисом программы вы узнаете в главе 26.
Меню статистики Появится диалоговое окно Frequency (см. рис. 4.4).
Меню статистики Появится диалоговое окно Frequency (см. рис. 4.4).
Окно Pivoting Trays
Окно Pivoting Trays
| Geschlecht (Пол) | Total(Сумма) | ||||||
| rnannlicn (мужской) | weiblicn (женский) | ||||||
| Count (Количе ство) | % within Geschle cht (% для пола) | Count (Количе ство) | % within Geschle cht (% для пола) | Count (Количе ство) | % within Geschle cht (% для пола) | ||
| Putzhaeufigkeit (Перио дичность чистки) | < 1-mal taeglich (< 1 раза в день) | 14 | 2,0% | 4 | ,9% | 18 | 1,6% |
| 1-mal taeglich (1 раз в день) | 177 | 25,1% | 56 | 13,2% | 233 | 20,6% | |
| 2-mal taeglich (2 раза в день) | 490 | 69,4% | 342 | 80,7% | 832 | 73,6% | |
| > 2-mal taeglich | 25 | 3,5% | 22 | 5,2% | 47 | 4,2% | |
| Total (Сумма) | 706 | 100,0% | 424 | 100,0% | 1130 | 100,0% |
| Schulbildung (Обрэзование) | Geschleсht(Пол) | Total (Сумма) | ||||
| mannlich (мужской) | weiblich (женский) | |||||
| Sonderschule Специальное) | Putzha- euflgkeit (Перио- дичность чистки) | < 1-mal taeglich (< 1 раза в цень) | Count (Количество | 1 | 1 | |
| % within Geschlecht (% для пола) | 100,0% | 100,0% | ||||
| Total (Сумма) | Count (Количество | 1 | 1 | |||
| % within Geschlecht (% для пола) | 100,0% | 100,0% | ||||
| Hauptschule Начальная школа) | Putzha- euflgkeit (Перио- дичность чистки) | < 1-mal taeglich (< 1 раза в цень) | Count (Количество | 8 | 2 | 10 |
| % within Geschlecht (% для пола) | 5,6% | 3,0% | 4,7% | |||
| 1-mal taeglich | Count (Количество | 71 | 2С | 91 | ||
| (1 раз в день) | % within Geschlecht (% для пола) | 49,3% | 29,9% | 43,1% | ||
| 2-mal taeglich (2 раза в день) | Count (Количество | 65 | 42 | 107 | ||
| % within Geschlecht (% для попа) | 45,1% | 62,7% | 50,7% | |||
| > 2-mal taeglich > 2 раз в день) | Count (Количество | 2 | т | |||
| % within Geschlecht (% для пола) | 4,5% | 1,4% | ||||
| Total (Сумма) | Count (Количество | 144 | 67 | 211 | ||
| % within Geschlecht (% для попа)_ | 100,0% | 100,0% | 100,0% | |||
| mittlere Reife Незаконченное среднее) | Putzha- eufigkeit Перио- дичность | < 1-mal taeglich | Count (Количество | 6 | 2 | 8 |
| (< 1 раза в день | % within Geschlecht (% для пола) | 1,6% | ,8% | 1,2% | ||
| 1-mal taeglich 1 раза в день | Count (Количество | 89 | 31 | 120 | ||
| % within Geschlecht (% для пола) | 23.1% | 11,9% | 18,6% | |||
| 2-mal taeglich | Count (Количество | 284 | 216 | 500 | ||
| (2 раза в день) | % within Geschlecht (% для пола) | 73,6% | 83,1% | 77,4% | ||
| > 2-mal taeglich | Count (Количество | 7 | 11 | 18 | ||
| '> 2 раз в день) | % within Geschlecht (% для пола) | 1,8% | 4,2% | 2,8% | ||
| Total (Сумма) | Count (Количество | 386 | 260 | 646 | ||
| % within Geschlecht (% для пола) | 100,0% | 100,0% | 100,0% | |||
| Abitur Аттестат зрелости) | Putzha- eufigkeit (Перио- дичность чистки) | 1-mal taeglich 1 раз в день) | Count (Количество | 9 | 1 | 10 |
| % within Geschlecht (% для пола) | 12,7% | 10,0% | 12,3% | |||
| 2-mal taeglich (2 раза в день) | Count (Количество | 56 | 8 | 64 | ||
| % within Geschlecht (% для пола) | 78,9% | 80,0% | 79,0% | |||
| > 2-mal taeglich > 2 раз в день) | Count (Количество | 6 | 1 | 7 | ||
| % within Geschlecht (% для пола) | 8,5% | 10,0% | 8,6% | |||
| Total (Сумма) | Count (Количество | 71 | 10 | 81 | ||
| % within Geschlecht (% для пола) | 100,0% | 100,0% | 100,0% | |||
| Hochschule Высшее) | Putzha- eufigkeit (Перио- дичность чистки) | 1-mal taeglich '1 раз в день) | Count (Количество | 7 | 4 | 11 |
| % within Geschlecht (% для пола) | 6,7% | 4,6% | 5,8% | |||
| 2-mal taeglich '2 раза в день) | Count (Количество | 85 | 76 | 161 | ||
| % within Geschlecht (% для пола) | 81,7% | 87,4% | 84,3% | |||
| > 2-mal taeglich > 2 раз в день) | Count (Количество | 12 | 7 | 19 | ||
| % within Geschlecht (% для пола) | 11,5% | 8,0% | 9,9% | |||
| Total (Сумма) | Count (Количество | 104 | 87 | 191 | ||
| % within Geschlecht (% для пола) | 100,0% | 100,0% | 100,0% |
Окно просмотра
Окно просмотра
Чтобы для построения частотного распределения выбрать все переменные, содержащиеся в файле данных, выполните следующие действия:
Сейчас мы попробуем определить наименьшее, наибольшее и среднее значения переменной age.
Окно просмотра
Окно просмотра
Partei * Geschlecht Crosstabulation (Таблица сопряженности Партия * Пол)
|
Geschiecnt (Пол) |
lTotal | ||||
|
weiblich (женский) |
mannlich (мужской) |
(Сумма) | |||
|
Partei (Партия) |
CDU/CSU |
Count (Количество) |
5 |
5 |
10 |
|
% within Geschiecht (% для пола) |
35,7% |
33,3% |
34,5% | ||
|
FDP |
Count (Количество) |
1 |
1 |
2 | |
|
% within Geschlecht (% для пола) |
7,1% |
6,7% |
6,9% | ||
|
SPD |
Count (Количество) |
4 |
5 |
9 | |
|
% within Geschlecht (% для пола) |
28,6% |
33,3% |
31,0% | ||
|
Grbne/ Bundnis (Зелёные / Союз 90) |
Count (Количество) |
2 |
1 |
3 | |
|
% within Geschlecht (% для пола) |
14,3% |
6,7% |
10,3% | ||
|
PDS |
Count (Количество) |
1 |
|
1 | |
|
% within Geschlecht (% для пола) |
7,1% |
|
3,4% | ||
|
Republikaner (Респуб- ликанцы) |
Count (Количество) |
|
2 |
2 | |
|
% within Geschlecht (% для пола) |
|
13,3% |
6,9% | ||
|
Sonstige (прочие) |
Count (Количество) |
1 |
1 |
2 | |
|
% within Geschlecht (% для пола) |
7,1% |
6,7% |
6,9 | ||
|
Total (Сумма) |
Count (Количество) |
14 |
15 |
29 | |
|
% within Geschlecht (% для пола) |
100,0% |
100,0% |
100,0% | ||
Результаты каждой выполненной статистической процедуры, а также графический вывод, отображаются в окне просмотра в виде блока, причём каждый блок является отдельным объектом. В иерархии каждый блок озаглавливается соответствующим именем процедуры, перед которым устанавливается значок блока. Этому значку предшествует небольшой четырёхугольник, в котором сначала указывается знак минус. Внутри каждого блока сначала Вы видите заголовок и примечания. Далее идёт перечисление элементов блока, которым тоже предшествуют соответствующие символы. Благодаря такой конструкции иерархии объектов, вы можете производить поиск необходимых элементов, переставлять их местами, копировать, удалять и т.д.
Поиск в окне просмотра
Скрытый режим
Вместо того, чтобы удалять части блоков, Вы можете на некоторое время их "скрыть". Они становятся невидимыми на экране и при печати.
При чтении результатов расчётов очень помогают примечания. В них содержится информация о соответствующем файле и общих установках программы. По умолча--ию эти примечания сначала являются скрытыми, но их можно сделать видимыми, если, к примеру, дважды щёлкнуть на значке примечания (Notes). В качестве приме-га отобразим примечание для процедуры подсчёта частоты.
Notes (Примечания)
|
Output Created (Расчёт произведен) |
18-ОСТ-2001 16:26:51 | |
|
Comments (Комментарии) | ||
|
input (Ввод) |
Data (Данные) |
E:\WAHL.SAV |
|
Filter (Фильтр) |
| |
|
Weight (Вес) |
| |
|
Split File (Разделение файла) |
| |
|
N of Rows in Working Data File (Количество строк в рабочем файле) |
30 | |
|
Missing Value Handling (Обработка отсутствующих значений) |
Definition of Missing (Определение отсутствующих значений) |
User-defined missing values are treated as missing. (Отсутствующие значения указанные пользователем, обрабатываются как отсутствующие) |
|
Cases Used (Использованные случаи) |
Statistics are based on all cases with valid data. (Статистики базируются на всех случаях с допустимыми переменными) | |
|
Syntax (Синтаксис) |
FREQUENCIES VARIABLES=partei /ORDER= ANALYSIS . (Частотная переменная=раг1е1/Команда = анализ) | |
|
Resources (Ресурсы) |
Total Values Allowed (Данные, пригодные для расчёта) |
18724 |
|
Elapsed Time (Продолжительность расчёта) |
0:00:00,22 | |
Окно справки синтаксиса SPSS
Окно справки синтаксиса SPSS
Редактор данных с метками значений
Редактор данных с метками значений
Редактор мобильных таблиц
Редактор мобильных таблиц
Редактор синтаксиса
Редактор синтаксиса
Диалоговое окно Open file
Рис. 4.1. Диалоговое окно Open file
Диалоговое окно Display Data Info (Показат< информацию о файле)
Рис. 4.29: Диалоговое окно Display Data Info (Показат< информацию о файле)
Список меток значений в редакторе данных
Список меток значений в редакторе данных
Список тем SPSS
Список тем SPSS
Справка SPSS
Справка SPSS
Рассмотрим следующий пример:
SPSS для Windows — обзор
SPSS для Windows — обзорВ этой главе мы хотим дать обзор использования SPSS для Windows на примере файлов данных wahl.sav и zahri.sav. Наш обзор в первую очередь будет касаться технических приемов работы с программой.
Столбчатая диаграмма в окне просмотра
Столбчатая диаграмма в окне просмотра
Столбчатая диаграмма в окне редактора диаграмм
Столбчатая диаграмма в окне редактора диаграмм
Столбиковая диаграмма с 3D эффектом
Столбиковая диаграмма с 3D эффектом
Теперь дадим графику название.
Задачи статистики в пакете SPSS
Типы статистических шкал
5.1.1 Типы статистических шкалВ эмпирическом исследовании могут встречаться, к примеру, следующие переменные (указано их наиболее вероятное кодирование):
|
Пол |
1 = мужской |
|
|
2 = женский |
|
Семейное положение |
1 = холост/не замужем |
|
|
2 = женат/замужем |
|
|
3 = вдовец/вдова |
|
|
4 = разведен(а) |
|
Курение |
1 = некурящий |
|
|
2 = изредка курящий |
|
|
3 = интенсивно курящий |
|
|
4 = очень интенсивно курящий |
|
Месячный доход |
1 = до 3000 DM |
|
|
2 = 3001 - 5000 DM |
|
Коэффициент интеллекта (I.Q.) |
3 = более 5000 DM |
|
Возраст, лет |
|
Мы, конечно, не имеем в виду, что женщины стоят на ступеньку ниже мужчин, или :о мужчины значат меньше, чем женщины. Следовательно, отдельным числам не соответствует никакою эмпирического значения. В этом случае говорят о переменных, относящихся к номинальной шкале. В нашем примере рассматривается переменная с номинальной шкалой, имеющая две категории. Такая переменная имеет еще одно название- дихотомическая.
Такая же ситуация и с переменной Семейное положение. Здесь также соответствие -:жду числами и категориями семейного положения не имеет никакого эмпирического значения. Но в отличии от Пола, эта переменная не является дихотомической — у нее четыре категории вместо двух. Возможности обработки переменных, относящихся к номинальной шкале очень ограничены. Собственно говоря, можно провести только частотный анализ таких переменных. К примеру, расчет среднего значения для переменной Семейное положение, совершенно бессмысленен. Переменные, относящиеся к номинальной шкале часто используются для группировки, с помощью которых совокупная выборка разбивается по категориям этих переменных. В частичных выборках проводятся одинаковые статистические тесты, результаты которых затем сравниваются друг с другом.
В качестве следующего примера рассмотрим переменную Курение. Здесь кодовым цифрам присваивается эмпирическое значение в том порядке, в котором они расположены в списке. Переменная Курение, в итоге, сортирована в порядке значимости снизу вверх: умеренный курильщик курит больше, нежели некурящий, а сильно курящий — больше, чем умеренный курильщик и т.д. Такие переменные, для которых используются численные значения, соответствующие постепенному изменению эмпирической значимости, относятся к порядковой шкале.
Однако эмпирическая значимость этих переменных не зависит от разницы между соседними численными значениями. Так, несмотря на то, что разница между значениями кодовых чисел для некурящего и изредка курящего и изредка курящего и интенсивно курящего в обоих случаях равна единице, нельзя утверждать, что фактическое различие между некурящим и изредка курящим и между изредка курящим и интенсивно курящим одинаково. Для этого данные понятия слишком расплывчаты.
К классическими примерами переменных с порядковой шкалой относятся также переменные, полученные в результате объединения величин в классы, как Месячный доход в нашем примере.
Кроме частотного анализа, переменные с порядковой шкалой допускают также вычисление определенных статистических характеристик, таких как медианы. В некоторых случаях возможно вычисление среднего значения. Если должна быть установлена связь (корреляция) с другими переменными такого рода, для этой цели можно использовать коэффициент ранговой корреляции.
Для сравнения различных выборок переменных, относящихся к порядковой шкале, могут применяться непараметрические тесты, формулы которых оперируют рангами.
Рассмотрим теперь коэффициент интеллекта (IQ). Не только его абсолютные значения отображают порядковое отношение между респондентами, но и разница между двумя значениями также имеет эмпирическую значимость. Например, если у Ганса IQ равен 80, у Фрица — 120 и у Отто — 160, можно сказать, что Фриц в сравнении с Гансом настолько же интеллектуальнее насколько Отто в сравнении с Фрицем (а именно — на 40 единиц IQ). Однако, основываясь только на том, что значение IQ у Ганса в два раза меньше, чем у Отто, исходя из определения IQ нельзя сделать вывод, что Отто вдвое умнее Ганса.
Такие переменные, у которых разность (интервал) между двумя значениями имеет эмпирическую значимость, относятся к интервальной шкале. Они могут обрабатываться любыми статистическим методами без ограничений. Так, к примеру, среднее значение является полноценным статистическим показателем для характеристики таких переменных.
Наконец, мы достигли наивысшей статистической шкалы, на которой эмпирическую значимость приобретает и отношение двух значений. Примером переменной, относящейся к такой шкале является возраст: если Максу 30 лет, а Морицу 60, можно сказать, что Мориц вдвое старше Макса. Шкала, к которой относятся данные называется шкалой отношений. К этой шкале относятся все интервальные переменные, которые имеют абсолютную нулевую точку. Поэтому переменные относящиеся к интервальной шкале, как правило, имеют и шкалу отношений.
Подводя итоги, можно сказать, что существует четыре вида статистических шкал, на которых могут сравниваться численные значения:
|
Статистическая шкала |
Эмпирическая значимость |
|
Номинальная |
Нет |
|
Порядковая |
Порядок чисел |
|
Интервальная |
Разность чисел |
|
Шкала отношений |
Отношение чисел |
Пользователь SPSS должен четко разбираться в видах статистических шкал и при выборе метода обращать внимание на то, чтобы были определены надлежащие виды шкал.
Мы уже указывали, что переменные, относящиеся к номинальной шкале допускают весьма ограниченные возможности для проведения анализа. Исключение в некоторых ситуациях составляют дихотомические переменные. Для них можно, по крайней мере, определять ранговую корреляцию. Если, например, обнаруживается корреляция коэффициента интеллекта с полом, то положительный коэффициент корреляции означает, что женщины интеллектуальнее, чем мужчины. Однако если переменные, относящиеся к номинальной шкале не являются дихотомическими, вычисление коэффициентов ранговой корреляции не имеет смысла.
Нормальное распределение
5.1.2 Нормальное распределениеМногочисленные методы, с помощью которых обрабатываются переменные, относящиеся к интервальной шкале, исходят из гипотезы, что их значения подчиняются нормальному распределению. При таком распределении большая часть значений группируется около некоторого среднего значения, по обе стороны от которого частота наблюдений равномерно снижается.
В качестве примера рассмотрим нормальное распределение возраста, которое строится по данным исследований гипертонии (файл hyper.sav) с помощью команд меню Graphs (Графы) Histogramm... (Гистограмма) (см. рис. 5.1).
На диаграмме нанесена кривая нормального распределения (Колокол Гаусса). Реальное распределение в большей или меньшей степени отклоняется от этой идеальной кривой. Выборки, строго подчиняющиеся нормальному распределению, на практике, как правило, не встречаются. Поэтому почти всегда необходимо выяснить, можно ли реальное распределение считать нормальным и насколько значительно заданное распределение отличается от нормального.
Перед применением любого метода, который предполагает существование нормального распределения, наличие последнего нужно проверять в первую очередь. Классическим примером статистического теста, который исходит из гипотезы о нормальном распределении, можно назвать t-тест Стьюдента, с помощью которого сравнивают две независимые выборки. Если же данные не подчиняются нормальному распределению, следует использовать соответствующий непараметрический тест, в случае двух независимых выборок — U-тест Манна и Уитни.
Если визуальное сравнение реальной гистограммы с кривой нормального распределения кажется недостаточным, можно применить тест Колмогорова-Смирнова, который находится в меню Analyze (анализ данных) в наборе непараметрических тестов (см. раздел 14.5).
Зависимость и независимость выборок
5.1.3 Зависимость и независимость выборокДве выборки зависят друг от друга, если каждому значению одной выборки можно закономерным и однозначным способом поставить в соответствие ровно одно значение другой выборки. Аналогично определяется зависимость нескольких выборок.
Чаще всего зависимые выборки возникают, когда измерение проводится для нескольких моментов времени. Зависимые выборки образуют значения параметров изучаемого процесса, соответствующие различным моментам времени.
В SPSS зависимые (также связанные, спаренные) выборки будут представляться разными переменными, которые сопоставляются друг с другом в соответствующем тесте на одной и той же совокупности наблюдений.
Если закономерное и однозначное соответствие между выборками невозможно, эти выборки являются независимыми. В SPSS независимые выборки содержат разные наблюдения (например, относящиеся к различным респондентам), которые обычно различаются с помощью групповой переменной, относящейся к номинальной шкале.
Предварительные условия для проведения статистического теста
5.1 Предварительные условия для проведения статистического тестаВ большинстве случаев перед применением статистического теста ставится вопрос: каков характер заданных условий? В частности, необходимо выяснить следующие моменты:
Обзор распространенных тестов для проверки гипотез о среднем
5.2 Обзор распространенных тестов для проверки гипотез о среднемВ наиболее распространенной ситуации, когда требуется сравнить друг с другом разные выборки по их средних значениям или медианам, с учетом условий, описанных в разделе 5.1, обычно применяется один из восьми следующих тестов.
Переменные, относящиеся к интервальной шкале и подчиняющиеся нормальному распределению
|
Количество сравниваемых выборок |
Зависимость |
Тест |
|
1 |
Независимые |
t-тест Стьюдента |
|
1 |
Зависимые |
t-тест для зависимых выборок |
|
>2 |
Независимые |
Простой дисперсионный анализ |
|
>2 |
Зависимые |
Простой дисперсионный анализ с повторными измерениями |
|
Количество сравниваемых выборок |
Зависимость |
Гест |
|
1 |
Независимые |
U-тест Манна и Уитни |
|
2 |
Зависимые |
тест Уилкоксона |
|
>2 |
Независимые |
Н-тест Крускала и Уоллиса |
|
>2 |
Зависимые |
тест Фридмана |
Исключение составляет простой дисперсионный анализ с повторными измерениями. Этот метод нельзя найти в разделе Compare Means. Он вызывается командой меню General Linear Model (Общая линейная модель).
Вероятность ошибки р
5.3 Вероятность ошибки рЕсли следовать подразделению статистики на описательную и аналитическую, то задача аналитической статистики - предоставить методы, с помощью которых можно было бы объективно выяснить, например, является ли наблюдаемая разница в средних значениях или взаимосвязь (корреляция) выборок случайной или нет.
Например, если сравниваются два средних значения выборок, то можно сформулировать две предварительных гипотезы:
Вероятность определяется в математике, как величина, находящаяся в диапазоне от 0 до 1. В практической статистике она также часто выражаются в процентах. Обычно вероятность обозначаются буквой р:
0<р< 1
Вероятности ошибки, при которой допустимо отвергнуть нулевую гипотезу и принять альтернативную гипотезу, зависит от каждого конкретного случая. В значительной степени эта вероятность определяется характером исследуемой ситуации. Чем больше требуемая вероятность, с которой надо избежать ошибочного решения, тем более узкими выбираются границы вероятности ошибки, при которой отвергается нулевая гипотеза, так называемый доверительный интервал вероятности.
Существует общепринятая терминология, которая относится к доверительным интервалам вероятности. Высказывания, имеющие вероятность ошибки р <= 0,05. называются значимыми; высказывания с вероятностью ошибки р <= 0,01 - очень значимыми, а высказывания с вероятностью ошибки р <= 0,001 - максимально значимыми. В литературе такие ситуации обозначают одной, двумя или тремя звездочками.
|
Вероятность ошибки |
Значимость |
Обозначение |
|
р > 0.05 |
Не значимая |
ns |
|
р <= 0.05 |
Значимая |
* |
|
р <= 0.01 |
Очень значимая |
** |
|
р <= 0.001 |
Максимально значимая |
*** |
Времена, когда не было компьютеров, пригодных для статистического анализа, давали практикам по крайней мере одно преимущество.: Так как все вычисления надо было выполнять вручную, статистик должен был сначала тщательно обдумать, какие вопросы можно решить с помощью того или иного теста. Кроме того, особое значение придавалось точной формулировке нулевой гипотезы.
Нос помощью компьютера и такой мощной программы, как SPSS, очень легко можно провести множество тестов за очень короткое время. К примеру, если в таблицу сопряженности свести 50 переменных с другими 20 переменными и выполнить тест %2, то получится 1000 результатов проверки значимости или 1000 значений р. Некритический подбор значимых величин может дать бессмысленный результат, так как уже при граничном уровне значимости р = 0,05 в пяти процентах наблюдений, то есть в 50 возможных наблюдениях, можно ожидать значимые результаты.
Этим ошибкам первого рода (когда нулевая гипотеза отвергается, хотя она верна) следует уделять достаточно внимания. Ошибкой второго рода называется ситуация, когда нулевая гипотеза принимается, хотя она ложна. Вероятность допустить ошибку первого рода равна вероятности ошибки р. Вероятность ошибки второго рода тем меньше, чем больше вероятность ошибки р.
Структурирование, ввод и проверка данных
5.4.1 Структурирование, ввод и проверка данныхПрежде чем мы сможем применить статистические методы или строить графики, естественно, следует представить собранные данные в форме, пригодной для обработки. При этом рекомендуется придерживаться следующего плана действий:
Описательный (дескриптивный) анализ
5.4.2 Описательный (дескриптивный) анализЭтот вид анализа включает описательное представление отдельных переменных. К нему относятся создание частотной таблицы, вычисление статистических характеристик или графическое представление. Частотные таблицы строятся для переменных, относящихся к номинальной шкале и для порядковых переменных, имеющих не слишком много категорий; об этом см. главы 6, 12 и 24.
Для переменных относящихся к номинальной шкале нельзя вычислить никаких значимых статистических характеристик. Наиболее часто для порядковых переменных и переменных, относящихся к интервальной шкале, но не подчиняющихся нормальному распределению, вычисляются медианы и оба квартиля (см. раздел 6.2); при небольшом числе категорий можно использовать вариант для концентрированных данных см. раздел 6.3).
Для переменных, относящихся к интервальной шкале и подчиняющихся нормальному распределению, чаще всего вычисляется среднее значение и стандартное отклонение пли стандартная ошибка (см. раздел 6.2). Однако следует выбрать только одну из этих двух характеристик разброса. Для переменных, относящихся ко всем статистическим шкалам, можно построить большое разнообразных графиков, на которых представлены частоты, средние значения или другие характеристики. Подробнее об этом в главах 22 и 23.
Аналитическая статистика
5.4.3 Аналитическая статистикаПрактически любой статистический анализ наряду с чисто описательными операциями включает те или иные аналитические методы (тесты значимости), при применении которых в конечном счете определяется вероятности ошибки р (см. раздел 5.3).
Большая группа тестов служит для выяснения того, различаются ли две или более различных выборки по своим средним значениям или медианам. При этом учитывается разница между независимыми выборками (разные наблюдения) и зависимыми выборками (разные переменные; см. раздел 5.1.3). В зависимости количества выборок (две или более), от того, зависимы ли выборки или нет, относятся ли переменные к интервальной или порядковой шкале, подчиняются ли нормальному распределению — применяются специализированные тесты (см. раздел 5.2).
Очень часто встречается ситуация, когда сравниваются различные группы наблюдений или значений переменных, относящихся к номинальной шкале. В этом случае строятся таблицы сопряженности (см. главу 11). Другая группа тестов касается исследования связей между двумя переменными, то есть выявления корреляций и восстановления регрессий (см. главу 15, раздел 16.1).
Кроме этих довольно простых статистических методов существуют также более сложные методы многомерного анализа, в которых обычно одновременно используется очень много переменных. К примеру, если требуется свести большое количество переменных к меньшему количеству "пучков переменных", называемых факторами, то проводится факторный анализ (глава 19). Если же наша цель, противоположна — объединить заданные наблюдения, образовав из них кластеры, то применяется кластерный анализ (глава 20).
В определенной группе многомерных тестов вводится различие между зависимой переменной, называемой также целевой и несколькими независимыми переменными (переменными влияния или прогнозирования).
|
Зависимая переменная |
Независимые переменные |
Многомерный метол |
|
Дихотомическая |
Любые |
Двоичная логистическая регрессия (раздел 16.4); дискриминантный анализ (глава 18) |
|
Дихотомическая |
С номинальной или порядковой шкалой |
Логит-логарифмические линейные модели |
|
С номинальной шкалой |
С номинальной или порядковой шкалой |
Мультиномиальная логистическая регрессия (раздел 16.5) |
|
С порядковой шкалой |
С номинальной или порядковой шкалой |
Порядковая регрессия (раздел 16.6) |
|
С интервальной шкалой |
С номинальной или порядковой шкалой |
Дисперсионный анализ (раздел 17.1) |
|
С интервальной шкалой |
Любые |
Ковариационный анализ (раздел 17.2); множественный регрессионный анализ (раздел 16.2) |
Независимые переменные, относящиеся к номинальной шкале, при двоичной логистической регрессии, дискриминантном анализе и многозначном регрессионном анализе должны быть дихотомическими либо раскладываться на набор дихотомических переменных (см. раздел 16.2). Логит-логарифмические линейные модели рассматриваются не в этой книге, а во втором томе, посвященном методам исследования рынка и общественного мнения.
Кроме упомянутых здесь, существует еще несколько методов анализа, например, пробит-анализ или анализ надежности; об их назначении можно узнать из соответствующих глав.
Обзор статистических методов
5.4 Обзор статистических методовВ этом разделе мы попытаемся составить небольшой путеводитель по данной книге, дав обзор последовательности действий, которые выполняются при статистическом анализе.
Основы статистики
Основы статистикиОвладение приемами работы с такой программой, как SPSS требует предварительных познаний в области статистики. Здесь мы коротко остановимся на некоторых основных понятиях, с которыми непременно должен быть знаком пользователь, если он хочет использовать SPSS. В первую очередь сюда относятся предварительные оценки, которые выполняются перед проведением любого статистического теста: классификация переменных по статистическим шкалам, проверка наличия нормального распределения и выделение независимых и зависимых выборок. В следующих разделах представлено описание наиболее часто проводимой процедуры проверки гипотезы о среднем значении и рассматривается значение вероятности ошибки р. Завершает главу обзор методов статистической обработки с указанием глав, в которых они будут рассматриваться в этой книге.
Распределение возраста
Распределение возраста
В нашем примере с распределением возрастов тест Колмогорова-Смирнова не показывает значительного отклонения от нормального распределения.
Еще одну возможность проверки наличия нормального распределения дает построение графика нормального распределения (см. разделы 10.4.1, 22.12), в котором наблюдаемые значения сопоставляются с ожидаемыми при нормальном распределении.
Задачи статистики в пакете SPSS
Частотные таблицы
6.1 Частотные таблицыВывод статистических характеристик
6.2 Вывод статистических характеристикЧтобы получить описательную статистику числовых переменных, можно щелкнуть в диалоге Frequencies на кнопке Statistics... (Статистика). Откроется диалоговое окно Frequencies: Statistics (Частоты: Статистика).
В группе Percentile Values (Значения процентилей) можно выбрать следующие варианты:
Медиана для концентрированных данных
6.3 Медиана для концентрированных данныхДля данных, имеющих форму частотной таблицы, определение медианы и остальных процентилей обычным методом будет слишком неточным. В таких случаях есть возможность вычислить медиану и любые другие процентили более точным методом. Мы поясним это на примере стоматологических данных.
|
0 |
Здоровый пародонт |
|
1 |
Кровоточивость |
|
2 |
Зубные отложения |
|
3 |
Глубина десенных карманов 3,5-5,5 мм |
|
4 |
Глубина десенных карманов 6 мм и более |
|
CPITN1 | ||
|
N |
Допустимые |
2548 |
|
|
Утерянные |
0 |
|
Среднее значение |
|
2,24 |
|
Медиана |
|
2,00 |
|
|
Частота |
Проценты |
допустимые проценты |
накопленные проценты |
|
Допустимые здоровый |
109 |
4,3 |
4,3 |
4,3 |
|
кровоточивость |
389 |
15,3 |
15,3 |
19,5 |
|
отложения |
921 |
36,1 |
36,1 |
55,7 |
|
глубина карманов |
1042 |
40,9 |
40,9 |
96,6 |
|
3,5-5,5 глубина карманов >=6 |
87 |
3,4 |
3,4 |
100,0 |
|
Всего |
2548 |
100,0 |
100,0 |
|
Здесь: |
n |
Количество измеренных значений |
|
m |
Класс, в котором находится медиана |
|
u |
Нижняя граница класса m |
|
fm |
Абсолютная частота в классе m |
|
Fm-1 |
Накопленная частота вплоть до предыдущего класса m — 1 |
|
B |
Ширина класса |
-0,5 0,5 1,5 2,5 3,5 4,5
Ширина класса равна 1.
Следовательно,
n = 2548
m = 3 (так как медиана находится в третьем классе)
u = 1,5
fm = 921
Fm-1 = 109 + 389 = 498
b = 1
Если сравнить это значение со средним значением (2,24), то можно установить следующее правило — оказывается, что при распределении со сдвигом вправо (как в данном случае) медиана больше среднего значения. Описанный точный метод вычисления медианы будет использован в SPSS, если в диалоге Frequencies: Statistics установить флажок Values are group midpoints.
В этом случае мы получим точное значение медианы (2,32).
По определению, медиана — это значение, выше и ниже (правее и левее) которого расположено по 50 % всех значений, если они упорядочены по величине. Обобщая эту характеристику, мы приходим к определению так называемых процентилей. Эти характеристики позволяют, например, указать значение, ниже которого лежит 10 % всех значений (а выше расположено 90 % значений). Чаше всего применяются процентили 25 % и 75 %, называемые также соответственно первым и третьим квартилями.
В диалоге Frequencies: Statistics можно последовательно задать любые значения процентилей. Если данные концентрированы, снова следует установить флажок Values are group midpoints.
Формула вычисления процентиля для любого значения:
Здесь: |
n |
Класс, в котором находится процентиль |
|
m |
Нижняя граница класса т |
|
P |
Процентное значение процентиля |
|
Нm |
Процентная частота в классе m-1 |
|
Hm-1 |
Процентная накопленная частота в классе m-1 |
|
b |
Ширина класса |
В столбчатых, линейных, круговых диаграммах и диаграммах с областями, на которых предусмотрено отображение медианы и других процентилей, при наличии концентрированных данных используется модифицированный способ расчета (см. раздел 22.1.1).
Форматы частотных таблиц
6.4 Форматы частотных таблицГрафическое представление
6.5 Графическое представлениеРезультаты частотного распределения можно представить графически. Для примера мы создадим столбчатую диаграмму для частотного распределения основных специальностей. Поступите следующим образом:
Частотный анализ
Частотный анализПервым этапом статистического анализа данных, как правило, является частотный анализ. В этой главе мы проведем частотный анализ на примере файла Studium.sav. Этот файл находится на компакт-диске примеров или в рабочем каталоге \SPSSBOOK. Он содержит результаты опроса студентов об их психическом состоянии и социальном положении. Опрос касался таких предметов, как социальное положение, психическая ситуация и успеваемость. Кроме того, затрагивались такие данные, как изучаемый предмет, пол, возраст и национальность.
Диалоговое окно Fill Patterns
Диалоговое окно Fill Patterns
Столбцы будут заполнены выбраннои заливкой.
Диалоговое окно Frequencies: Charts
Диалоговое окно Frequencies: Charts
Усовершенствуем вид этой диаграммы.
Диалоговое окно Frequencies (Частоты)
Диалоговое окно Frequencies (Частоты)
Результаты появятся в окне просмотра результатов. Перед самой частотной таблицей выводится небольшая таблица с обзором допустимых и отсутствующих значений. Здесь она не показана.
Психическое состояние
|
|
|
Частота |
Проценты |
Допус- тимые проценты |
Нако- пленные проценты |
|
|
Крайне неустой- чивое |
20 |
18,5 |
18,7 |
18,7 |
|
|
Неустой- чивое |
40 |
37,0 |
37,4 |
56,1 |
|
Допус- тимые |
Устойчивое |
41 |
38,0 |
38,3 |
94,4 |
|
|
Очень устойчивое |
6 |
5,6 |
5,6 |
100,0 |
|
|
Всего |
107 |
99,1 |
100,0 |
|
|
Отсут-ствующие |
нет данных |
1 |
,9 |
|
|
|
Всего |
|
108 |
100,0 |
|
|
Диалоговое окно Frequencies: Format
Диалоговое окно Frequencies: Format
В группе Order by (Сортировать по) можно выбрать порядок, в котором будут отображены значения в частотной таблице. Возможны следующие варианты:
|
Частота |
Проценты |
Допустимые проценты |
Накоплен- ные проценты | ||
|
Допус-тимые |
Гуманитар- ные науки |
25 |
23,1 |
23,1 |
23,1 |
|
Юриспру- денция |
22 |
20,4 |
20,4 |
43,5 | |
|
Экономика |
19 |
17,6 |
17,6 |
61,1 | |
|
Психология |
11 |
10,2 |
10,2 |
71,3 | |
|
Медицина |
10 |
9,3 |
9,3 |
80,6 | |
|
Теология |
9 |
8,3 |
8,3 |
88,9 | |
|
Естествен- ные науки |
9 |
8,3 |
8,3 |
97,2 | |
|
Техника |
2 |
1,9 |
1,9 |
99,1 | |
|
Прочие |
1 |
,9 |
,9 |
100,0 | |
|
Всего |
108 |
100,0 |
100,0 |
| |
Диалоговое окно frequencies: Statistics
Диалоговое окно frequencies: Statistics
С другой стороны, стандартная ошибка позволяет задать доверительный интервал для среднего значения. В диапазоне удвоенной стандартной ошибки по обе стороны от среднего значения с вероятностью примерно 95 % находится среднее значение генеральной совокупности. С вероятностью примерно 99 % она лежит в диапазоне утроенной стандартной ошибки. Часто указывают только одну из этих двух мер разброса, обычно — стандартную ошибку, так как ее значение меньше. Во всех случаях следует точно выяснить, какая из мер разброса имеется в виду.
В группе Central Tendency (Средние) можно выбрать следующие характеристики:
то сначала они располагаются в порядке возрастания: 23344567889.
В данном случае медианой будет значение 5. Всего у нас 11 измеренных значений, следовательно, медианой является шестое значение. Выше него располагается 5 значений, и ниже — тоже 5. При нечетном количестве значений медиана всегда будет совпадать с одним из измеренных значений. При четном количестве медиана будет средним арифметическим двух соседних значений. Например, если имеются следующие измеренные значения:
3445678899
то медиана в этом случае будет равна: (6 + 7) : 2 = 6,5.
В диалоге есть еще один флажок:
Статистика
|
Alter | ||
|
N |
Допустимые |
106 |
|
|
Утерянные |
2 |
|
Среднее значение |
|
22,24 |
|
Стандартная ошибка среднего значения |
|
21 |
|
Медиана |
|
22,00 |
|
Мода |
|
21 |
|
Стандартное отклонение |
|
2,19 |
|
Дисперсия |
|
4,79 |
|
Асимметрия |
|
,859 |
|
Стандартная ошибка асимметрии |
|
,235 |
|
|
|
|
|
Эксцесс |
|
1,042 |
|
Стандартная ошибка эксцесса |
|
,465 |
|
|
|
|
|
Размах |
|
11 |
|
Минимум |
|
18 |
|
Максимум |
|
29 |
|
Процентили |
25 |
21,00 |
|
|
50 |
22,00 |
|
|
75 |
23,00 |
Диалоговое окно Tirles
Диалоговое окно Tirles
Гистограмма
Гистограмма
Частоты на гистограмме обозначены колонками, которые, но отличие от столбчатой диаграммы, не изолированы, а примыкают друг к другу. Отображаются также стандартное отклонение, среднее значение и общее количество наблюдений(М). Кроме того, показана кривая нормального распределения.
Отредактированная диаграмма
Отредактированная диаграмма
Рассмотрим другой пример — визуальное представление частотного анализа.
Столбчатая диаграмма в средстве просмотра
Столбчатая диаграмма в средстве просмотра
Откроется диалоговое окно Bar Label Style (Стиль меток столбцов). Выберите пункт Framed (В рамке), щелкните на кнопке Apply all (Применить для всех) и затем на Close (Закрыть). На каждом столбце появится надпись с его процентным значением.
Задачи статистики в пакете SPSS
Классификация операторов
7.1.1 Классификация операторовОператоры делятся на арифметические, логические и операторы отношения. Арифметические операторы применяются в так называемых арифметических выражениях (математических формулах), которые при отборе данных имеют лишь второстепенное значение. Арифметические операторы всегда можно использовать в логических выражениях, однако это встречается нечасто. Решающую роль эти операторы играют при модификации данных; поэтому они и описаны в разделе 8.1, посвященном модификации данных.
Логические операторы и операторы отношения применяются исключительно в логических выражениях, которые рассматриваются в настоящей главе.
Операторы отношения
7.1.2 Операторы отношенияОтношение — это логическое выражение, в котором два значения сравниваются друг с другом посредством оператора отношения. В областях, где применяется SPSS в операторах отношения значения переменной сравниваются с каким-либо численным значением (константой), например
sex = 2 partei ~= 3 alter > 30
Для построения логических выражений могут применяться следующие операторы отношения:
|
Знак на кнопке |
Альтернативный текст |
Значение (рус./англ.) |
|
< |
LT |
меньше (less than) |
|
> |
GT |
больше (greater than) |
|
<= |
LE |
меньше или равно (less than or equal to) |
|
>— |
GE |
больше или равно (greater than or equal to) |
|
= |
EQ |
равно (equal to) |
|
~= |
NE или <> |
не равно (not equal to) |
Логические операторы
7.1.3 Логические операторыДля построения условных выражений могут применяться следующие логические операторы:
|
Знак на кнопке |
Альтернативный текст |
Значение |
|
& |
AND |
Логическое И |
|
| |
OR |
Логическое ИЛИ |
|
~ |
NOT |
Логическое НЕ |
|
Приоритет |
Оператор |
|
1 |
NOT |
|
2 |
AND |
|
3 |
OR |
Булева алгебра
7.1.4 Булева алгебраЛогические операторы основаны на принципах булевой алгебры (логики высказываний), краткий обзор которых приводится в данном разделе.
Оператор И (конъюнкция)
|
Выражение 1 |
Выражение 2 |
Результат |
|
и |
и |
и |
|
и |
л |
л |
|
л |
и |
л |
|
л |
л |
л |
При конъюнкции все участвующие выражения (отношения) должны быть истинными, чтобы общий результат также являлся истинным. Примеры:
|
Выражение |
Истинность |
|
(3<7) AND (8>5) |
и |
|
(12=8) AND (4=4) |
л |
|
(3<=5) AND (4>=1) |
и |
|
(8=4) AND (7=3) |
л |
|
Выражение 1 |
Выражение 2 |
Результат |
|
и |
и |
и |
|
и |
л |
и |
|
л |
и |
и |
|
л |
л |
л |
|
Выражение |
Истинность |
|
(3<5) OR (47+1 0<10) |
и |
|
(3=8) OR (7>5) |
и |
|
(4:7=2) OR (8*4=21) |
л |
|
(42=16) OR (23=3) |
и |
|
Выражение |
Результат |
|
и |
л |
|
л |
и |
|
Выражение |
Истинность |
|
NOT [(3<5) AND (4>5)] |
и |
|
NOT [(4<5) AND (8<12)] |
л |
|
отрицаемый оператор |
эквивалентный оператор |
|
< |
>- |
|
> |
< = |
|
<= |
> |
|
> = |
< |
Согласно правилам приоритета скобки здесь не нужны. Мы поместили их только для повышения наглядности. Истинность выражения можно определить при помощи следующей таблицы:
|
А |
И |
С |
NOT A |
NОТ В |
(NОT A) AND (NОT В) |
OR С |
|
и |
и |
и |
л |
л |
л |
и |
|
и |
и |
л |
л |
л |
л |
л |
|
и |
л |
и |
л |
и |
л |
и |
|
и |
л |
л |
л |
л |
л |
л |
|
л |
и |
и |
и |
л |
л |
и |
|
л |
и |
л |
и |
л |
л |
л |
|
л |
л |
и |
и |
и |
и |
и |
|
л |
л |
л |
и |
и |
и |
и |
Если все эти элементы логики высказываний кажутся вам слишком математизированными или абстрактными, вполне можно ориентироваться по разговорному употреблению союза "и". Высказывание: "Я был в кино и видел интересный фильм", истинно тогда и только тогда, когда истинны обе его части. Если, несмотря на то, что вы ходили в кино, но на сеансе заснули от скуки, это выражение не будет истинным. Также оно не будет истинным, если вы смотрели интересный фильм по телевизору. И, конечно же, оно будет совершенно ложным (хотя здесь нас не интересует степень ложности), если вы и не были в кино, и не смотрели там интересный фильм.
Иначе обстоит дело при разговорном применении союза "или", которое в основном означает исключающее "или", когда, например, дети хотят получить на Рождество или компьютер, или велосипед.
Функции
7.1.5 ФункцииСписок функций, который мы сейчас рассмотрим, — следующая важная часть диалогового окна Select Cases: If.
Этот список содержит множество математических функций, большая часть из которых, однако, имеет отношение только к модификации данных (расчету новых переменных). Поэтому обзор этих функций представлен в соответствующем разделе (см. раздел 8.1.2). Здесь мы рассмотрим только логические и строковые функции.
Логические функции
В SPSS реализованы две логические функции:
Из общего количества 18 строковых функций мы рассмотрим три самых важных, на наш взгляд.
возвратит значение Ма. Здесь из переменной name извлекаются два знака (третий аргумент) начиная с первой позиции (второй аргумент). Выражение
SUBSTR (name, I, 2) = Ma
будет истинным для значений переменной Maus, Mannesmann или Mahlmann. При сравнении со строками вместо двойных кавычек (= "Ма") можно также применять простые (= 'Ма'). Однако смешение простых и двойных кавычек (= 'Ма") не допускается.
|
Приоритет |
Оператор/функция |
Значение |
|
1 |
0 |
Оператор скобок |
|
2 |
Функции |
Различные значения |
|
3 |
< |
Меньше |
|
|
<= |
Меньше или равно |
|
|
> |
Больше |
|
|
>= |
Больше или равно |
|
|
= |
Равно |
|
|
"= |
Не равно |
|
4 |
— |
Логическое НЕ |
|
5 |
6, |
Логическое И |
|
6 |
I |
Логическое ИЛИ |
Ввод условного выражения
7.1.6 Ввод условного выраженияТеперь попробуем снова выполнить отбор, но в этот раз будем выбирать только респондентов-женщин. Выполните следующие действия:
Примеры отбора данных
7.1.7 Примеры отбора данныхЗдесь мы представим некоторые примеры отбора данных. Рассмотрим следующие условия:
1. Требуется отобрать только респондентов-мужчин. В редакторе условий вводится следующая строка:
sex = 2
Эту строку можно набрать непосредственно или перенести с помощью кнопки с треугольником и кнопок клавиатуры.
2. Требуется отобрать только респондентов-женщин, которые голосовали за ХДС/ХСС. В редакторе условий вводится следующая строка:
sex = 1 & partei = 1
ИЛИ
sex = 1 AND partei = 1
Обратите внимание на значение переменной фильтра в наблюдении 22 (fragebnr = 0-007). Здесь это системное пропущенное значение. В этом случае SPSS не может сделать никакого вывода об истинности, так как переменная partei имеет значение О = нет данных или данные не введены. Поэтому условие sex =1 & partei = 1 в наблюдении 22 нельзя проверить на истинность. Оно может быть как истинным, так и ложным. Для такого неопределенного случая SPSS присваивает переменной filter_$ системное пропущенное значение.
Следовательно, таблицу истинности можно дополнить случаем отсутствующих значений:
Конъюнкция
|
Логическое выражение |
Результат |
|
true AND true |
true |
|
true AND false |
false |
|
false AND true |
false |
|
false AND false |
false |
|
true AND missing |
missing |
|
false AND missing |
false |
|
missing AND missing |
missing |
|
Логическое выражение |
Результат |
|
true OR true |
true |
|
true OR false |
true |
|
false OR true |
true |
|
false OR false |
false |
|
true OR missing |
true |
|
false OR missing |
missing |
|
missing OR missing |
missing |
|
Логическое выражение |
Результат |
|
true |
false |
|
false |
true |
|
missing |
missing |
3. Требуется отобрать только респондентов, имеющих возраст от 40 до 60 лет включительно.
alter >= 40 & alter <= 60
ИЛИ
alter >= 40 AND alter <= 60
Более изящным будет применение здесь функции
RANGE: RANGE (alter, 40, 60).
4. Требуется отобрать только респондентов-женщин, которые старше 60 лет. sex =1 & alter > 60 ИЛИ sex =1 AND alter > 60.
5. Требуется отобрать только респондентов-мужчин, возраст которых не превышает 25 лет и которые голосовали за СДПГ. При формулировке условия не старше 25 лет применяется оператор NOT:
sex = 2 S partei = 3 & ~ alter > 25
ИЛИ
sex = 2 S partei = 3 S NOT alter > 25.
Оператор NOT обязательно должен стоять в начале логического выражения. Выражение & alter ~> 25 не допускается в SPSS. В этом случае вы получите сообщение об ошибке с подсказкой, где должен находиться оператор NOT.
6. Требуется отобрать респондентов, которые голосовали за ХДС, СДП или республиканцев.
partei = 1 | partei = 2 | partei = 6
ИЛИ
partei = 1 OR partei = 2 OR partei = 6.
Здесь более изящным будет применение функции ANY:
ANY (partei, 1, 2, 6).
7. Отберем респондентов, которые опрашивались в Западной Германии:
fragebnr >= "W-"
Здесь более изящным будет применение функции SUBSTR:
SUBSTR (fragebnr,1,1) = "W"
ИЛИ
SUBSTR (fragebnr,1,2) = "W-"
Можно также применить функцию RANGE:
RANGE (fragebnr, W-001, W-999)
ИЛИ
RANGE (fragebnr, "W-001", "W-999").
8. Отберем респондентов, которые опрашивались в Восточной Германии: fragebnr >= "0-" & fragebnr < "W-"
Достаточно также просто ввести
fragebnr < "W-"
И в этом случае изящнее будет вариант с SUBSTRING:
SUBSTR(fragebnr,1,1) = "О"
или
SUBSTR(fragebnr,1,2) = "0-"
Можно также применить функцию RANGE:
RANGE (fragebnr, "O-001", "0-999")
Удобно использовать оператор NOT:
~ fragebnr >= "W"
Далее мы рассмотрим применение функций UPCASE и LOWER. При этом будем исходить из следующей ситуации.: При вводе номеров анкет иногда по ошибке вме-^то прописного "W" для Западной Германии было закодировано строчное "w". Эти наблюдения не будут отобраны по условию SUBSTR(fragebnr, 1,1) = "W". В таком ^лучае может помочь функция UPCASE или LOWER:
SUBSTR (UPCASE (fragebnr,1,1) = "W".
Рассмотренная конструкция называется вложенной функцией. Вложенные функции вычисляются в направлении изнутри наружу. Функция UPCASE преобразует содержимое переменной fragebnr в прописные буквы. Преобразованное содержимое затем передается в функцию SUBSTR. Эта функция выделяет из строки первую букву. Полученная буква сравнивается с буквой W. Если они совпадают, данное наблюдение выбирается, то есть переменная фильтра filter_S приобретает значение 1. Если применяется функция LOWER, строка в редакторе условий будет выглядеть так:
SUBSTR (LOWER (fragebnr, 1,1) = "w".
Функция LOWER преобразует содержимое переменной fragebnr в строчные буквы. Преобразованное содержимое передается в функцию SUBSTR. Эта функция выделяет из строки первую букву. Полученная буква сравнивается с буквой w. Если они совпадают, данное наблюдение отбирается.
Выбор наблюдений
7.1 Выбор наблюденийПроведем частотный анализ переменной partei (партия). При этом мы будем учитывать только респондентов-женщин. Поступите следующим образом:
Извлечение случайной выборки
7.2 Извлечение случайной выборкиПри большом количестве наблюдений для экономии времени может быть полезно использовать небольшую случайную выборку при первой предварительной проверке гипотезы. Чтобы извлечь случайную выборку из совокупности всех наблюдений, выполните следующие действия:
Сортировка наблюдений
7.3 Сортировка наблюденийДанные в SPSS можно сортировать в соответствии со значениями одной или нескольких переменных. Рассмотрим следующий пример: Требуется упорядочить данные файла wahl.sav по возрасту. Для этого поступите следующим образом:
Разделение наблюдений на группы
7.4 Разделение наблюдений на группыВ SPSS можно выполнять анализ данных раздельно по группам. Группой в этом контексте называется определенное количество наблюдений с одинаковыми значениями признаков. Чтобы можно было производить обработку по группам, файл должен быть отсортирован по группирующим переменным. Такой переменной может быть, например, переменная sex. В этом случае все переменные со значением признака 1 (женский) образуют одну группу, а все переменные со значением признака 2 (мужской) — другую группу. С каждой группой можно проводить определенные операции, например, выполнять частотный анализ. При этом частотный анализ проводится раздельно для признаков мужской и женский. В SPSS такое разделение на группы можно выполнять автоматически. Рассмотрим следующий пример, основанный на опросе студентов об их психическом состоянии и социальном положении:
Проведем частотный анализ переменной psyche (психическое состояние) раздельно для всех изучаемых специальностей. В соответствии со значениями переменной fach (специальность) у нас образуются 9 групп (1 = Юриспруденция, 2 = Экономика, 3 = Гуманитарные науки, 4 = Психология и т.д.). В этом случае файл данных studium.sav должен быть сначала отсортирован по переменной fach. Поступите следующим образом:
Диалоговое окно Random Number Seed.
Диалоговое окно Random Number Seed.
Диалоговое окно Select Cases
Диалоговое окно Select Cases
Диалоговое окно Select Cases: If
Диалоговое окно Select Cases: If
Диалоговое окно Select Cases: Random Sample
Диалоговое окно Select Cases: Random Sample
В группе Sample Size (Размер выборки) можно выбрать один из следующих способов определения объема выборки:
Начальное значение может быть любым положительным целым числом. Это значение можно задать самостоятельно или предоставить сделать это SPSS (вариант Random Seed, принятый по умолчанию).
Диалоговое окно Sort Cases
Диалоговое окно Sort Cases
SORT CASES BY alter (A) .
или, если надо сортировать по убыванию:
SORT CASES BY alter (D) .
Здесь А обозначает ascending (возрастание), a D — descending (убывание). Если выбрать несколько переменных сортировки, их последовательность в списке Sort by будет определять порядок, в котором будут отсортированы наблюдения. Рассмотрим следующий пример: Необходимо отсортировать файл wahl.sav по значениям переменных nartei и alter. Переменная partei должна быть первым критерием сортировки, а переменная alter — вторым. Сортировка по переменной partei должна быть в порядке возрастания, а по переменной alter — в порядке убывания. Для этого перенесите в список переменных сортировки вначале переменную partei, а затем переменную alter. Выделите переменную alter и щелкните на опции Ascending.
Примечание: Выбранные опции соответствуют следующему командному синтаксису:
SORT CASES BY partei (A) alter (D) .
В редакторе данных файл wahl.sav будет отсортирован по возрастанию значений переменной partei. Наблюдения, относящиеся к одной и той же партии будут отсортированы по убыванию возраста.
Диалоговое окно Split File
Диалоговое окно Split File
По умолчанию разделение на группы не предполагается. Если выбрать пункт Organize output by groups (Разделить вывод на группы), мы получим вывод результатов по каждой группе отдельно. Эти группы должны быть определены в поле Groups based on (Группы, созданные на основе) на базе соответствующих переменных.
Еще одну возможность предоставляет опция Compare Groups (Сравнить группы). Она организует вывод таким образом, что можно визуально сравнить разные группы друг с другом. Но сначала мы рассмотрим раздельный вывод.
Специальность = Юриспруденция
Статистика(а)
|
Психическое состояние | |
|
N Valid Missing |
22 0 |
|
а. Специальность = Юриспруденция | |
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent | ||
|
Valid |
Крайне неустойчивое |
2 |
9,1 |
9,1 |
9,1 |
|
Неустойчивое |
5 |
22,7 |
22,7 |
31,8 | |
|
Устойчивое |
12 |
54,5 |
54,5 |
86,4 | |
|
Очень устойчивое |
3 |
13,6 |
13,6 |
100,0 | |
| Total | 22 | 100,0 | 100,0 | ||
|
Спциальность = юриспруденция | |||||
Статистика(а)
|
|
N Valid Missing |
18 1 |
|
а. Специальность = Естественные науки | ||
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent | ||
|
Valid |
Крайне неустойчивое |
1 |
5,3 |
5,6 |
5,6 |
|
Неустойчивое |
4 |
21,1 |
22,2 |
27,8 | |
|
Устойчивое |
11 |
57,9 |
61,1 |
88.9 | |
|
Очень устойчивое |
2 |
10,5 |
11,1 |
100,0 | |
|
Всего |
18 |
94,7 |
100,0 |
| |
|
Missing |
нет данных |
1 |
5,3 |
|
|
|
|
Всего |
|
19 |
100,0 |
|
Как видно, результаты частотного анализа переменной psyche выводятся раздельно по специальностям студентов.
| Специальность | Frequency | Percent | Valid Percent | Cumulative Percent | ||
| Юриспру- денция | Valid | Крайне неустойчивое | 2 | 9,1 | 9,1 | 9,1 |
| Неустойчивое | 5 | 22,7 | 22,7 | 31,8 | ||
| Устойчивое | 12 | 54,5 | 54,5 | 86,4 | ||
| Очень устойчивое | 3 | 13,6 | 13,6 | 100,0 | ||
| Всего | 22 | 100,0 | 100,0 | |||
| Экономика | Valid | Крайне неустойчивое | 1 | 5,3 | 5,6 | 5,6 |
| Неустойчивое | 4 | 21,1 | 22,2 | 27,8 | ||
| Устойчивое | 11 | 57,9 | 61,1 | 88,9 | ||
| Очень устойчивое | 2 | 10,5 | 11,1 | 100,0 | ||
| Всего | 18 | 94,7 | 100,0 | |||
| Missing | нет данных | 1 | 5,3 | |||
| Total | 19 | 100,0 | ||||
| Гуманитар- ные науки | Valid | Крайне неустойчивое | 10 | 40,0 | 40,0 | 40,0 |
| Неустойчивое | 14 | 56,0 | 56,0 | 96,0 | ||
| Устойчивое | 1 | 4,0 | 4,0 | 100,0 | ||
| Всего | 25 | 100,0 | 100,0 | |||
| Психология | Valid | Крайне неустойчивое | 3 | 27,3 | 27,3 | 27,3 |
| Неустойчивое | 6 | 54,5 | 54,5 | 81,8 | ||
| Устойчивое | 2 | 18,2 | 18,2 | 100,0 | ||
| Всего | 11 | 100,0 | 100,0 | |||
| Теология | Valid | Крайне неустойчивое | 2 | 22,2 | 22,2 | 22,2 |
| Неустойчивое | 5 | 55,6 | 55,6 | 77,8 | ||
| Устойчивое | 2 | 22,2 | 22,2 | 100,0 | ||
| Всего | 9 | 100,0 | 100,0 | |||
| Медицина | Valid | Крайне неустойчивое | 1 | 10,0 | 10,0 | 10,0 |
| Неустойчивое | 3 | 30,0 | 30,0 | 40,0 | ||
| Устойчивое | 5 | 50,0 | 50,0 | 90,0 | ||
| Очень устойчивое | 1 | 10,0 | 10,0 | 100,0 | ||
| Всего | 10 | 100,0 | 100,0 | |||
| Естествен- ные науки | Valid | Неустойчивое | 3 | 33,3 | 33,3 | 33,3 |
| Устойчивое | 6 | 66,7 | 66,7 | 100,0 | ||
| Всего | 9 | 100,0 | 100,0 | |||
| Техника | Valid | Крайне неустойчивое | 1 | 50,0 | 50,0 | 50,0 |
| Устойчивое | 1 | 50,0 | 50,0 | 100,0 | ||
| Всего | 2 | 100,0 | 100,0 | |||
| Прочие | Valid | Устойчивое | 1 | 100,0 | 100,0 | 100,0 |
Отбор данных
Отбор данныхВ этой главе мы на примере файлов wahl.sav и studium.sav покажем разнообразные возможности, предоставляемые в SPSS для отбора данных. Отбор данных — это выбор наблюдений по определенным критериям; так, например, при опросе избирателей (файл wahl.sav) можно отобрать только мужчин, голосующих за ХДС/ХСС, а при опросе студентов (файл studium.sav) — только студенток, изучающих психологию и медицину. После этого все вычисления будут проводиться только с этими отобранными наблюдениям.
Для этого в SPSS существует три принципиальные возможности:
Условие в редакторе условий
Условие в редакторе условий
SELECT IF sex = 1.
EXECUTE .
Теперь фильтрация наблюдений включена. О том, что отбор, заданный с помощью диалоговых окон осуществлен свидетельствует сообщение Filter on (Фильтр включен), которое появляется в строке состояния в нижней части окна SPSS. Система создает переменную filter_S. Это численная переменная с длиной один байт. Она имеет следующие метки значений: 0 = Not Selected (Не выбрано), 1 = Selected (Выбрано), так как нуль обозначает ложь (false), а единица — истину (true). При всех последующих операциях будут учитываться только наблюдения, для которых значение этой переменной равно 1, то есть те, для которых выполняется условие sex = 1. Номера неотобранных наблюдений отображаются зачеркиванием в левом крае редактора данных. Теперь проведем частотный анализ переменной partei. Мы получим следующий результат:
Партия
|
|
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent |
|
Valid |
ХДС/ХСС |
5 |
33,3 |
35,7 |
35,7 |
|
|
СДП |
1 |
6,7 |
7,1 |
42,9 |
|
|
сдпг |
4 |
26,7 |
28,6 |
71,4 |
|
|
Зеленые/Союз 90 |
2 |
13,3 |
14,3 |
85,7 |
|
|
пдс |
1 |
6,7 |
7,1 |
92,9 |
|
|
Прочие |
1 |
6,7 |
7,1 |
100,0 |
|
|
Всего |
14 |
93,3 |
100,0 |
|
|
Missing Total |
нет данных |
1 15 |
6,7 100,0 |
|
|
Обратите внимание, что фильтр действует и при остальных статистических процедурах. Команда SPSS SELECT IF или соответствующие настройки в диалоговых окнах фильтруют наблюдения постоянно, то есть до тех пор, пока фильтр не будет удален или деактивирован. Чтобы удалить фильтр, поступите следующим образом:
TEMPORARY. SELECT IF sex = 1. FREQUENCIES VARIABLES = partei. Временный фильтр можно ввести только вручную в редакторе синтаксиса SPSS; через диалоговые окна этого сделать невозможно. Этот пример показывает, что непосредственный ввод команд в редакторе синтаксиса имеет некоторые преимущества. Об этом мы еще расскажем в главе 26 (Программирование).
При вводе команд в редакторе синтаксиса следует обращать внимание на различие между численными и строковыми переменными.
Численная переменная:
SELECT IF sex = 1.
Строковая переменная:
SELECT IF fragebnr = "W-001".
Для строковых переменных (как fragebnr (код анкеты) в этом примере) следует применять простые или двойные кавычки. Слова SELECT IF необходимы только при непосредственном вводе команды в редакторе синтаксиса; та же самая строка в редакторе условий диалога Select Cases: If будет более компактной:
sex = 1 ИЛИ
fragebnr = "W-001"
Здесь также следует учитывать различие между численными и строковыми переменными.
Задачи статистики в пакете SPSS
Формулировка численных выражений
8.1.1 Формулировка численных выраженийДля построения численных выражений можно применять следующие арифметические операторы:
Арифметические операторы
|
+ |
Сложение |
|
- |
Вычитание |
|
* |
Умножение |
|
/ |
Деление |
|
** |
Возведение в степень |
Так как структура выражений может быть сложной, следует учитывать следующие приоритеты арифметических операторов:
|
Приоритет |
Оператор |
Значение |
|
1 |
() |
Оператор скобок |
|
2 |
** |
Возведение в степень |
|
3 |
* |
Умножение |
|
|
/ |
Деление |
|
4 |
+ |
Сложение |
|
|
— |
Вычитание |
COMPUTE rrsdiff = (rrsl - rrsO) / rrs0 * 100 .
В этой формуле выполняются операции трех разных видов, имеющие разные приоритеты. Так, умножение и деление выполняются всегда перед сложением и вычитанием, если только, как в данном примере, скобки не определяют другую последовательность выполнения.
Если рост (в см) записан в переменной gr, и вы хотите определить на его основе нормальный вес, который обычно равен росту в см минус 100, команда, которая создает для этой величины новую переменную, будет следующей:
COMPUTE ng = gг - 100 .
Если же требуется вычислить избыточный вес как разницу фактического веса, который хранится в переменной gew, и этой новой величины, для этого служит команда
COMPUTE uegew = gew — ng .
Отрицательное значение uegew указывает на недостаточный вес. Оба выражения можно объединить:
COMPUTE uegew = gew — (gr — 100) .
Это можно также записать в виде
COMPUTE uegew = gew — gr + 100 .
Формула для определения избыточного веса в процентах к нормальному:
COMPUTE puegew = (gew — ng) / ng * 100 .
Без использования вспомогательной переменной ng эта формула имеет вид
COMPUTE puegew = (gew - (gr - 100)) / (gr - 100) * 100 .
Эта запись выглядит уже довольно сложной и имеет тот недостаток, что выражение gr — 100 должно быть вычислено дважды. Разумеется, при высокой производительности компьютера это не так важно.
Мы уже видели, что в арифметических выражениях могут участвовать переменные и константы. Сейчас мы рассмотрим применение и них функций, которые встроены в SPSS. Если нас интересует не само изменение кровяного давления, а только его абсолютная ветчина, в этом случае можно применить функцию ABS:
COMPUTE rrsd = ABS(rrsl - rrs0)
Чтобы вычислить десятичный логарифм переменной х, применяется функция LG10:
COMPUTE у = LG10(x)
Мы также можем вычислить гипотенузу по теореме Пифагора, использовав функцию SQRT для извлечения квадратного корня и оператор возведения в степень:
COMPUTE с = SQRTfa ** 2 + b ** 2) .
Аргументы функций сами могут быть арифметическими выражениями: Если вы не хо-:ите работать с командами синтаксиса SPSS, можно, как показано в начале главы, применить диалоговое окно Compute Variable. В этом случае в редакторе условий достаточно вместо
COMPUTE rrsd = rrs1 - rrs0 .
ввести просто
rrsd = rrsl - rrs0 для достижения той же цели — вычисления изменения кровяного давления rrsd.
Функции
8.1.2 ФункцииИз числа функций, которые отображаются в диалоговом окне Select Cases: If, мы рассмотрели только логические и строковые функции. Остальные функции можно разделить на следующие классы:
Арифметические функции
Статистические функции
Статистические функции могут иметь любое количество параметров.
Функции даты и времени
В SPSS очень часто в различных целях используются дата и время. Для ввода данных гтого типа в редакторе данных SPSS предоставляет ряд различных форматов, описанных в разделе 3.4.1. Существующие форматы можно просмотреть в диалоговом окне Variable Tуре (Тип переменной).
Мы рекомендует использовать общепринятый формат даты: указание числа месяца двумя цифрами, месяца — также двумя цифрами и года — четырьмя цифрами через течку: dd.mm.yyyy.
Экономии места за счет отбрасывания двух первых цифр года в последнее время, как известно, уделяется много внимания. При указании года двумя цифрами в качестве столетнего диапазона в SPSS принят срок с 1931 по 2030 г., следовательно, год 28 интерпретируется как 2028, а 32 — как 1932. В меню Edit (Правка) Options... (Параметры...) на вкладке Data (Данные) пользователь может самостоятельно задать столетний диапазон..
Если число или месяц можно записать одной цифрой, их не нужно дополнять спереди нулями. Таким образом, указание даты в следующих форматах будет допустимым:
20.6.1998
13.12.1887
1.10.2003
5.2.1997
Компьютер замечает противоречивое указание даты при вводе. Например, если попытаться ввести дату 29.2.1997, это значение не записано принято в ячейку.
Для времени мы рекомендуем формат hh:mm:ss, т.е. одна или две цифры для часов, минут и секунд через двоеточие. При отсутствии секунд можно также применять формат hh:mm. Примеры:
23:34:55
8:5:12
12:17:5
12:47 8:12
Дату и время, введенные в любом виде, SPSS преобразует во внутренний формат. Для даты это количество секунд, прошедших с 0 часов 15.10.1582 г. (момента введения григорианского календаря) до 0 часов заданного дня; для времени — количество секунд с 0 часов до заданного момента времени.
В принципе можно также хранить число, месяц, год, часы, минуты и секунды в отдельных переменных и определять дату или время во внутреннем формате при помощи соответствующих функций.
Всего в SPSS имеется 25 различных функций для работы с датой и временем. Важнейшие из них представлены ниже.
|
XDATE.MDAY(arg) |
Выделяет из даты число |
|
XDATE.MONTH(arg) |
Выделяет из даты месяц |
|
XDATE.YEAR(arg) |
Выделяет из даты год |
|
XDATE.WKDAY(arg) |
Номер дня недели (1 =' воскресенье, ,..., 7 = суббота) |
|
XDATE.JDAY(arg) |
Номер дня в году |
|
XDATE.QUARTER(arg) |
Номер квартала в году |
|
XDATE.WEEK(arg) |
Номер недели в году |
|
XDATE.TDAY(arg) |
Количество дней начиная с 15.10.1582 |
|
XDATE.DATE(arg) |
Количество секунд начиная с 15.10.1582 |
|
DATE.DMY(d,m,y) |
Преобразует данные числа месяца, месяца и года во внутреннюю дату |
|
DATE.MOYR(m.y) |
Преобразует данные месяца и года во внутреннюю дату |
|
YRMODA(y,m,d) |
Преобразует данные года, месяца и числа месяца (строго в приведенной последовательности) в количество дней начиная с 15.10.1582 |
|
XDATE.TIME(arg) |
Количество секунд начиная с 0 часов |
|
TIME.HMS(h,m,s) |
Преобразует данные часов, минут и секунд в секунды |
COMPUTE tage=XDATE.TDAY(datum2) - XDATE.TDAY(datural). EXECUTE.
Пример использования функции YRMODA приводится в разделе 8.8. Функции обработки пропущенных значений
В SPSS реализовано в совокупности 20 статистических функций распределения. Эти функций вычисляют значение вероятности для следующих распределений: ß-распределения, распределения Коши, хи-квадрат, экспоненциального распределения, Г-распределения, F-распределения, распределения Лапласа, логистического, логарифмически нормального. нормального распределений, распределения Парето, распределения Стьюдента, равномерного распределения, распределения Вейбулла (непрерывные функции), а также распределения Бернулли, биномиального, геометрического, гипергеометрического, негативно-биномиального распределений и распределения Пуассона (дискретные функции). Для 14 непрерывных функций распределения существуют соответствующие обратные функции.
Так, например, функция CDF.T(t,df) возвращает вероятность ошибки р для заданного значения функции распределения Стьюдента, t и числа степеней свободы df, функция IDF. T(p,df) возвращает значение t для заданных вероятности ошибки р и числа степеней свободы df.
Функции генерации случайных чисел
В SPSS реализовано в совокупности 24 функции генерации случайных чисел, в том теле для 20 встроенных статистических функций распределения; например функция RV.T(df) возвращает случайные числа, подчиняющиеся распределению Стьюдента при df степенях свободы. Функция UNIFORM (numexpr) генерирует равномерно распределенные случайные величины, находящиеся в интервале от 0 до 1, а ее аргумент задает начальное значение для генератора случайных чисел.
Вычисление новых переменных
8.1 Вычисление новых переменныхПутем вычислений в SPSS можно образовать новые переменные и добавить их в файл данных. Так, например, в медицинском исследовании (см. главу 9, файл hyper.sav) в два момента времени (до и после приема лекарства) проводились измерения систолического кровяного давления, которые фиксировались в переменных rrs0 и rrsl.
Если нас интересует изменение давления между двумя этими моментами, было бы глупо каждый раз вычислять разницу двух значений и вручную вводить ее в новую переменную. Эту работу можно переложить на компьютер, который сделает ее быстро и, главное, без ошибок. Для этого поступите следующим образом:
Подсчет частоты появлений определенных значений
8.2 Подсчет частоты появлений определенных значенийВ SPSS есть возможность подсчитать количество появления одного и того же значения или значений для определенной переменной. Например, членам Дортмундского спортивного клуба задавались следующие вопросы:
|
Вопрос1: Вопрос 2: Вопрос3: |
Укажите Ваш пол ... |
|
Укажите Ваш возраст ... | |
|
Какими из следующих видов спорта Вы активно занимаетесь: 3_1 : Плаванием: да/нет? 3_2: Гимнастикой: да/нет? 3_3: Легкой атлетикой: да/нет? 3_4: Волейболом: да/нет? 3_5: Теннисом: да/нет? 3 6: Велосипедным спортом: да/нет? 3_7: Футболом: да/нет? 3_8: Гандболом: да/нет? 3_9: Баскетболом: да/нет? |
Для этого поступите следующим образом:
Ручное перекодирование
8.3.1 Ручное перекодированиеДля примера мы проанализируем результаты воскресного опроса (файл wahl.sav). Нас интересует процентное распределение опрашиваемых в классическом политическом спектре правые-левые. В этом случае переменную partei следует перекодировать и создать новую переменную lire (левые-правые). Новые значения будут определены следующим образом:
Левые:
СПДГ
Зеленые/Союз 90
ПДС
Правые:
ХДС/ХСС
СДП
Республиканцы
не определено:
нет данных
Прочие
Сравним значения переменной partei со значениями переменной lire:
|
Переменная partei Значения |
Метки значений |
Переменная lire Значения |
Метки значений |
|
0 |
нет данных |
0 |
не определено |
|
1 |
ХДС/ХСС |
2 |
правые |
|
2 |
СДП |
2 |
правые |
|
3 |
СДПГ |
1 |
левые |
|
4 |
Зеленые/Союз 90 |
1 |
левые |
|
5 |
ПДС |
1 |
левые |
|
6 |
Республиканцы |
2 |
правые |
|
7 |
Прочие |
0 |
не определено |
Перекодирование производится следующим образом:
Автоматическое перекодирование
8.3.2 Автоматическое перекодированиеЕсли категории не были закодированы непрерывно начиная с 1, то это может приводить к негативным последствиям при решении многих задач в SPSS. Поэтому для преобразования значений численных или строковых переменных в непрерывную последовательность целых чисел в SPSS реализована возможность автоматического перекодирования. В качестве примера рассмотрим автоматическое перекодирование строковой переменной в численную.
Перекодирование значений
8.3 Перекодирование значенийПервоначально собранные данные можно перекодировать с помощью средств SPSS. Перекодирование численных данных необходимо, например, тогда, когда первоначальное разнообразие исходных данных не нужно для последующего анализа. В этом случае перекодирование означает уменьшение объема обрабатываемой информации. Перекодирование данных можно выполнить вручную или автоматически. Мы рассмотрим оба этих метода.
Формулировка условий
8.4.1 Формулировка условийВ файле studium.sav (психологическое состояние и социальное положение студентов), в частности, содержатся переменные alter (возраст), fach (специальность), semester (количество семестров) и sex (пол).
Допустим, нам требуется образовать из переменных alter и semester новую переменную, которая будет показывать возраст студента в начале обучения. Кроме того, это значение следует вычислять только для старших курсов (semester>6).
Примечание: Выбранные опции соответствуют следующему командному синтаксису:
IF (semester > 6) studbeg = alter - semester /2 . EXECUTE . Ниже приведен другой типичный пример условного вычисления новых переменных.
Если, к примеру, требуется определить, значительно ли отличаются юристы (fach = 1) от гуманитариев (fach = 3) по количеству семестров, которые прозанимались эти студенты, можно использовать переменную fach как группирующую и сравнить результаты U-теста по Манну и Уитни для переменной semester при значениях fach=l и fach=3 (см. раздел 14.1). Если же требуется сравнить юристов-мужчин с гуманитариями-мужчинами, то оба набора значений надо дополнительно ограничить условием sex = 2 (см. раздел 7. 1).
Однако, когда надо сравнить, например, юристов-мужчин со студентками-гуманитариями, возникает проблема — в этом случае появляются две группирующих переменных. В подобных ситуациях помогает создание вспомогательной переменной. Этой переменной присваивается значение 1, когда наблюдение соответствует студенту-юристу, и 2 — когда студентке гуманитарной специальности. Затем вспомогательная переменная используется как группирующая при проведении теста по Манну и Уитни.
Создание индекса
8.4.2 Создание индексаИндексом называют объединение нескольких отдельных вопросов (элементов) в едином показателе, который характеризует сложные, многоплановые состояния — например, показатель уровня жизни или уровня интеллекта. Создание такого индекса мы рассмотрим на примере теоремы об изменении ценностей американского политолога Рональда Инглхарта (Inglehart).
В своей работе «Культурный сдвиг. Смена ценностей в западном мире» (см. список литературы) Инглхарт выдвинул положение о том, что представления о ценностях в западном обществе претерпели значительное изменение. Ранее на первом месте стояли материальное благополучие и физическая безопасность, тогда как сегодня больше значения придается качеству жизни. Таким образом, ценностные приоритеты сместились от материализма к постматериализму. Это смещение Инглхарт объясняет, в частности, тем, что после второй мировой войны, прежде всего в западноевропейских странах и США, люди ощутили большую экономическую и физическую безопасность чем когда-либо до сих пор. Более молодые поколения, годы формирования которых пришлись на период безопасности и стабильности, будут постепенно отдаляться от традиционных норм и представлений о ценностях, свойственных старшим поколениям. Основываясь на факте достижения высокой экономической безопасности и стабильности, Инглхарт делает вывод о смене ценностей между поколениями, которая влечет за собой значительные социальные последствия.
Далее мы построим индекс, который будет указывать, придерживается ли респондент материалистических или же постматериалистических ценностей, согласно Рональду Ингчарту. Этот индекс будет построен на основе опроса ALLBUS, проведенного в 1991 г. В опpoce ALLBUS фигурировало четыре вопроса, касающиеся теоремы Инглхарта об изменении ценностей. В частности, респондента спрашивали, какое значение он придает ценностям «Спокойствие и порядок в стране» (переменная v108), «Увеличение степени частая народа в решениях власти» (переменная v109), «Борьба с ростом цен» (переменная v110) и «Право на свободное выражение мнения» (переменная v111). Респондент, :гавнивая эти четыре ценности между собой, мог указать для каждой из них один из четырех приоритетов: первостепенное значение, второстепенное значение, значение третье степени и значение четвертой степени. Данные находятся в файле ingle.sav.
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent | ||
|
Valid |
первостепенная важность |
1313 |
42,9 |
42,9 |
42,9 |
|
второстепенная |
691 |
22,6 |
22,6 |
65,5 | |
|
важность третьей степени |
597 |
19,5 |
19,5 |
85,1 | |
|
важность четвертой степени |
395 |
12,9 |
12,9 |
98,0 | |
|
не знаю |
30 |
1,0 |
1,0 |
99,0 | |
|
нет данных |
32 |
1,0 |
1,0 |
100,0 | |
|
total |
3058 |
100,0 |
100,0 |
| |
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent | ||
|
Valid |
первостепенная важность |
976 |
31,9 |
31,9 |
31,9 |
|
второстепенная важность |
790 |
25,8 |
25,8 |
57,8 | |
|
важность третьей степени |
736 |
24,1 |
24,1 |
81,8 | |
|
важность четвертой степени |
477 |
15,6 |
15,6 |
97,4 | |
|
не знаю |
44 |
1,4 |
1.4 |
98,9 | |
|
нет данных |
35 |
1,1 |
1,1 |
100,0 | |
|
total |
3058 |
100,0 |
100,0 |
| |
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent | ||
|
Valid |
первостепенная важность |
248 |
8,1 |
8,1 |
8,1 |
|
второстепенная важность |
696 |
22.8 |
22,8 |
30,9 | |
|
важность третьей степени |
879 |
28,7 |
28.7 |
59,6 | |
|
важность четвертой степени |
1142 |
37,3 |
37,3 |
97,0 | |
|
не знаю |
48 |
1.6 |
1.6 |
98,5 | |
|
нет данных |
45 |
1,5 |
1,5 |
100,0 | |
|
total |
3058 |
100,0 |
100,0 |
| |
|
|
|
Частота |
Проценты |
Допустимые |
Накопленные проценты |
|
Valid |
первосте- пенная важность |
488 |
16,0 |
16,0 |
16,0 |
|
второсте- пенная важность |
839 |
27,4 |
27,4 |
43,4 | |
|
важность третьей степени |
762 |
24,9 |
24,9 |
68,3 | |
|
важность четвертой степени |
880 |
28,8 |
28,8 |
97,1 | |
|
не знаю |
49 |
1,6 |
1,6 |
98,7 | |
|
нет данных |
40 |
1,3 |
1,3 |
100,0 | |
|
total |
3058 |
100,0 |
100,0 |
|
Индекс Инглхарта
|
Цель первостепенной важности |
Цель второстепенной важности |
Инлекс Инглхарта |
|
v108 |
v110 |
чистый материалист |
|
v110 |
v108 |
чистый материалист |
|
v109 |
v111 |
чистый постматериалист |
|
v111 |
v109 |
чистый постматериалист |
|
v108 |
v109 |
материалистический смешанный тип |
|
v108 |
v111 |
материалистический смешанный тип |
|
v110 |
v109 |
материалистический смешанный тип |
|
v110 |
v111 |
материалистический смешанный тип |
|
v109 |
v108 |
постматериалистический смешанный тип |
|
v109 |
v110 |
постматериалистический смешанный тип |
|
v111 |
v108 |
постматериалистический смешанный тип |
|
V111 |
v110 |
постматериалистический смешанный тип |
/* Создание индекса */ .'* на примере теоремы Рональда Инглхарта об изменении ценностей */ /* чистые материалисты */ if (v!08 = 1 and vl10 = 2) ingl_ind = 4 . if (vl10 = 1 and vl08 = 2) ingl_ind = 4 . /* чистые постматериалисты */ if (v!09 = 1 and vlll = 2) ingl_ind = 1 . if (vl11 = 1 and vl09 = 2) ingl_ind = 1 . /* материалистический смешанный тип */ if
Следует отметить, что находящиеся друг под другом в программе операторы AND (конъюнкции) можно преобразовать в дизъюнкцию, связав их операторами OR (см. главу 7). Следующая команда variable labels присваивает переменной ingl_ind метку «Индекс Инглхарта». Команда value labels устанавливает шесть меток значений для этой переменной. Команда execute в конце программы запускает выполнение всех необходимых преобразований.
Эта программа находится на компакт-диске примеров или в рабочем каталоге C:\SPSSBOOK. Она называется ingle.sps.
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent | ||
|
Valid |
Постматериалисты |
673 |
22,0 |
22,0 |
22,0 |
|
ПМ, смешанный тип |
789 |
25,8 |
25,8 |
47,8 | |
|
М, смешанный тип |
956 |
31,3 |
31,3 |
79,1 | |
|
Материалисты |
598 |
19,6 |
19,6 |
98,6 | |
|
Не знаю |
19 |
,6 |
,6 |
99,2 | |
|
нет данных |
23 |
,8 |
,8 |
100,0 | |
|
Total |
3058 |
100,0 |
100,0 |
| |
Данные четырех классических элементов Инглхарта содержит также файл beamte.sav. Он касается опроса ALLBLJS, проводившегося в 1988 г.. Для упражнения постройте индекс Инглхарта для этих данных. При сравнении с данными 1991 г. следует учитывать, что опрос ALLBUS 1991 впервые проводился во всех землях Германии, включая восточные.
Вычисление новых переменных в соответствии с определенными условиями
8.4 Вычисление новых переменных в соответствии с определенными условиямиВычисление новых переменных может быть поставлено в зависимость от определенных условий, как показано в разделе 8.4.1. Во втором разделе этого параграфа приводится практический пример использования условного вычисления — создание индекса.
Агрегирование данных
8.5 Агрегирование данныхНа базе значений одной или нескольких группирующих переменных (переменных разбиения) можно объединить наблюдения в группы (агрегировать) и создать новый файл данных, содержащий по одному наблюдению для каждой группы разбиения. Для этого SPSS предоставляет большое количество функций агрегирования.
В сельскохозяйственном исследовании рассматривалось содержание свиней в двух различных типах свинарников. При этом в каждом из двух свинарников осуществлялся мониторинг поведения восьми свиней в течение двадцатидневного периода. На протяжении этого периода фиксировалась длительность определенных действий животных (то есть сколько времени свиньи рылись, ели, чесали голову и туловище). Данные хранятся в файле schwein.sav, содержащем следующие переменные:
|
Имя переменной |
Пояснение |
|
stall |
Тип свинарника (1 или 2) |
|
nr |
Порядковый номер свиньи (от 1 до 8) |
|
zert |
Номер дня (от 1 до 20) |
|
wuehlen |
Длительность рытья (в секундах) |
|
fressen |
Длительность кормежки (в секундах) |
|
massage |
Длительность чесания (в секундах) |
В каждой из двух выборок для каждого из трех действий имеется по 8 + 20=160 измерений. Однако выполнение статистического тест на основе этих данных будет не совсем корректно, так как они относятся к восьми особям, для каждой из которых было проведено по двадцать измерений.
Поэтому мы просуммируем длительности для каждой отдельной свиньи и для каждого отдельного действия. Затем полученные наборы сумм мы сравним при помощи теста Стьюдента. Это типичный пример агрегирования данных.
Пример рангового преобразования
8.6.1 Пример рангового преобразованияВ главе 20 представлен файл europa.sav, содержащий отдельные статистические показатели по 28 европейским странам. В частности, он включает переменные land (краткое обозначение страны) и tjul (средняя дневная температура в июле). Требуется расположить страны в нисходящем порядке согласно значениям последней переменной и затем вывести их в отсортированном виде.
Типы рангов
8.6.2 Типы ранговВ диалоге Rank Cases можно, щелкнув на кнопке Rank Types... (Типы рангов), от-крыть диалоговое окно Rank Cases: Types (Ранги: Типы). В этом окне представлены шесть типов рангов; щелкнув на кнопке More » (Еще), можно увидеть еще два.
Ниже приведено объяснение различных типы рангов.
Ранговые преобразования
8.6 Ранговые преобразованияВ SPSS существует возможность задавать ранги для измеренных значений переменной, проводить оценки Сэвиджа, вычислять процентные ранги и формировать процентильные группы, добавляя в файл данных соответствующие переменные.
Так, например, в формулах для непараметрических тестов (см. главу 14) вместо исходных измеренных значений переменной используются присвоенные им ранги. Однако эти процедуры производят автоматическое присвоение рангов и в явном виде выполнять предварительные ранговые преобразования не требуется. Поэтому они играют второстепенную роль.
Мы продемонстрируем присвоение рангов на более наглядном примере, а затем проведем обзор различных типов рангов.
Коррекция при отсутствии репрезентативности
8.7.1 Коррекция при отсутствии репрезентативностиПеред служащими и представителями других социальных групп были поставлены четыре классических вопроса Инглхарта, уже известные нам из раздела 8.4.2, то есть, было предложено выбрать одну из четырех степеней важности для каждого из нижеследующих пунктов:
1. Поддержание спокойствия и порядка
2. Усиление влияния граждан на власть
3. Борьба с инфляцией
4. Обеспечение свободного выражения мнений
Данные, взятые из опроса ALLBUS 1988 г., хранятся в файле beamte.sav. При этом переменной beamier присваивается кодировка 1 или 2 в зависимости от того, является ли респондент служащим; переменные themal-Hhema4 содержат оценки четырех вышеприведенных пунктов.
|
|
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent |
|
Valid |
Да |
137 |
10,5 |
10,5 |
10,5 |
|
|
Нет |
1162 |
89,5 |
89,5 |
100,0 |
|
|
Total |
1299 |
100,0 |
100,0 |
|
|
Valid |
первостепенная важность |
Frequency 109 |
Percent 8,4 |
Valid Percent 8,4 |
Cumulative Percent 8,4 |
|
|
второстепенная важность |
237 |
18,2 |
18,2 |
26,6 |
|
|
важность третьей степени |
374 |
28,8 |
28,8 |
55,4 |
|
|
важность четвертой степени |
579 |
44,6 |
44,6 |
100,0 |
|
|
Total |
1299 |
100,0 |
100,0 |
|
Прежде чем мы скорректируем это небольшое искажение при помощи переменной взвешивания, составим таблицу сопряженности для переменных themaS (строки) и beamter (столбцы).
|
Служащий? | |||||
|
Да |
нет |
Total | |||
|
Борьба с инфля- цией |
первостепен ная важность |
Count (Коли- чество) |
6 |
103 |
109 |
|
|
|
% от Борьба с инфляцией |
5,5% |
94,5% |
100,0% |
|
|
|
%от Служащий? |
4,4% |
8,9% |
8,4% |
|
|
второстепенн ая важность |
Count |
14 |
223 |
237 |
|
|
|
% от Борьба с инфляцией |
5,9% |
94,1% |
100,0% |
|
|
|
%от Служащий? |
10,2% |
19,2% |
18,2% |
|
|
важность третьей степени |
Count |
37 |
337 |
374 |
|
|
|
% от Борьба с инфляцией |
9,9% |
90,1% |
100,0% |
|
|
|
%от Служащий? |
27,0% |
29,0% |
28,8% |
|
|
важность четвертой степени |
Count |
80 |
499 |
579 |
|
|
|
% от Борьба с инфляцией |
13,8% |
86,2% |
100,0% |
|
|
|
%от Служащий? |
58,4% |
42,9% |
44,6% |
|
Total |
|
Count |
137 |
1162 |
1299 |
|
|
|
% от Борьба с инфляцией |
10,5% |
89,5% |
100,0% |
|
|
|
%от Служащий? |
100,0% |
100,0% |
100,0% |
|
Value (Значение) |
df |
Asymp. Sig. (2-sided) (Асимптотическая значимость (двусторонняя)) | |
|
Pearson Chi-Square хи-квадрат по Пирсону) |
15,077 (а) |
3 |
,002 |
|
Likelihood Ratio (Степень правдоподобия) |
16,032 |
3 |
,001 |
|
Linearly-Linear Association (Зависимость линейный-линейный) |
14,302 |
1 |
,000 |
|
N of Valid Cases (Кол-во допустимых случаев) |
1299 |
|
|
Результаты показывают, что для служащих борьба с инфляцией имеет меньшее значение, чем для остальных респондентов.
Теперь путем взвешивания мы попробуем скорректировать искажение доли служащих, имеющееся в выборке. Принцип заключается в том, что для каждого значения переменной (в данном случае переменной beamier) вычисляется весовой коэффициент как отношение необходимого значения к существующему.
Весовой коэффициент = (необходимое значение)/(существующее значение)
Для служащих весовой коэффициент равен
8,4/10,5=0,8
а для остальных —
91,5/89,5 = 1,023
Анализ концентрированных данных
8.7.2 Анализ концентрированных данныхНа предприятии с семнадцатью работниками девять из них удовлетворены условиями труда. Двое из этой последней группы в текущем году болели гриппом; из восьми работников, которые не удовлетворены условиями труда, гриппом болели пятеро. Это дает нам следующую таблицу:
|
|
удовлетворены |
не уловлетворены |
|
болели не болели |
1 7 |
5 3 |
Чтобы можно было решить эту задачу с применением SPSS, в первую очередь следует построить соответствующий файл данных, состоящий из наблюдений и переменных. Примером такого файла служит grippe.sav. Загрузите этот файл. В окне редактора данных вы получите структуру с четырьмя наблюдениями и тремя переменными.
Она содержит переменную grippe с категориями 1 и 2 (болели — не болели), переменную zuf с категориями 1 и 2 (удовлетворены — не удовлетворены) и переменную freq, которая указывает частоту каждого сочетания и будет использоваться в качестве переменной взвешивания.
Таблица сопряженности Болели? * Удовлетворены?
|
Count (Количество) | ||||
|
|
|
Удовлетворены? |
Total | |
|
|
|
да нет | ||
|
Болели? |
Да |
2 |
5 |
7 |
|
|
Нет |
7 |
3 |
10 |
|
Total |
|
9 |
8 |
17 |
|
Value |
df |
Asymp. Sig. (2-sided) |
Exact Sig. (2-sided) (Точная значимость (двусторон-няя)) |
Exact Sig. (1-sided) (Точная значимость (односторон-няя)) | |
|
Pearson Chi-Square (?2 пo Пирсону) |
2,837 " |
1 |
,092 |
|
|
|
Continuity Correction (b) (Коррекция непреры-вности) |
1,418 |
1 |
,234 |
|
|
|
Likelihood Ratio (Отношение правдопо-добия) |
2,915 |
1 |
,088 |
|
|
|
Fisher's Exact Test (Точный тест Фишера) |
|
|
|
,153 |
,117 |
|
Linear-by-Linear Association (Зависимость линейный-линейный) |
2,670 |
1 |
,102 |
|
|
|
N of Valid Cases (Кол-во допустимых случаев) |
17 |
|
|
|
|
b. 3 cells (75,0%) have expected count less than 5. The minimum expected count is 3,29 (3 ячейки (75%) имеют ожидаемую частоту менее 5. Минимальная ожидаемая частота 11,50.)
Односторонний тест Фишера-Йейтса даст в этом случае р =0,117, т.е. отсутствие значимой разницы.
Следующий пример взят из биологии. Исследовалось количество особей девяти различных видов кузнечиков на пяти разных лугах. Частоты сведены в следующую таблицу
Луг
|
Вид кузнечика 1 |
2 |
3 |
4 |
5 | |
|
1 |
0 |
0 |
1 |
1 |
1 |
|
2 |
1 |
1 |
1 |
1 |
0 |
|
3 |
61 |
51 |
17 |
122 |
54 |
|
4 |
36 |
32 |
23 |
38 |
11 |
|
5 |
2 |
0 |
2 |
6 |
0 |
|
6 |
3 |
1 |
2 |
2 |
1 |
|
7 |
0 |
0 |
0 |
2 |
0 |
|
8 |
26 |
50 |
25 |
54 |
22 |
|
9 |
35 |
33 |
36 |
25 |
12 |
И в этом случае решение задачи SPSS должна начаться с составления файла данных, содержащего три переменные: переменную для вида кузнечиков (с категориями 1—9), переменную для луга (категории 1—5) и переменную, содержащую частоту данного вида на данном лугу.
|
WIESE |
Total | ||||||
|
1 |
2 |
3 |
4 |
5 | |||
|
HEUSCHR |
|
|
|
|
|
|
|
|
1 |
Count (Количество) |
0 |
0 |
1 |
1 |
1 |
3 |
|
Expected Count (Ожидаемое количество) |
,6 |
,6 |
,4 |
1,0 |
,4 |
3,0 | |
|
Std. Residual (Нормиро- ванный остаток) |
-,8 |
-,8 |
,9 |
,0 |
1,0 |
| |
|
2 |
Count |
1 |
1 |
1 |
1 |
0 |
4 |
|
Expected Count |
,8 |
,8 |
,5 |
1,3 |
,5 |
4,0 | |
|
Std. Residual |
,2 |
,2 |
,6 |
-,2 |
-,7 |
| |
|
3 |
Count |
61 |
51 |
17 |
122 |
54 |
305 |
|
Expected Count |
63,2 |
64,8 |
41,3 |
96,8 |
38,9 |
305,0 | |
|
Std. Residual |
-,3 |
-1,7 |
-3,8 |
2,6 |
2,4 |
| |
|
4 |
Count |
36 |
32 |
23 |
38 |
11 |
140 |
|
Expected Count |
29,0 |
29,7 |
18,9 |
44,4 |
17,9 |
140,0 | |
|
Std. Residual |
1,3 |
,4 |
,9 |
-1,0 |
-1,6 |
| |
|
5 |
Count |
2 |
0 |
2 |
6 |
0 |
10 |
|
Expected Count |
2,1 |
2,1 |
1,4 |
3,2 |
1,3 |
10,0 | |
|
Std. Residual |
-,1 |
-1,5 |
,6 |
1,6 |
-1,1 |
| |
|
6 |
Count |
3 |
1 |
2 |
2 |
1 |
9 |
|
Expected Count |
1,9 |
1,9 |
1,2 |
2,9 |
1,1 |
9,0 | |
|
Std. Residual |
,8 |
-,7 |
,7 |
-,5 |
-,1 |
| |
|
7 |
Count |
0 |
0 |
0 |
2 |
0 |
2 |
|
Expected Count |
,4 |
,4 |
,3 |
,6 |
,3 |
2,0 | |
|
Std. Residual |
-,6 |
-,7 |
-,5 |
1,7 |
-,5 |
| |
|
8 |
Count |
26 |
50 |
25 |
54 |
22 |
177 |
|
Expected Count |
36,7 |
37,6 |
23,9 |
56,2 |
22,6 |
177,0 | |
|
Std. Residual |
-1,8 |
2,0 |
,2 |
-,3 |
-,1 |
| |
|
9 |
Count |
35 |
33 |
36 |
25 |
12 |
141 |
|
Expected Count |
29,2 |
29,9 |
19,1 |
44,7 |
18,0 |
141,0 | |
|
Std. Residual |
1,1 |
,6 |
3,9 |
-3,0 |
-1,4 |
| |
|
Total |
|
|
|
|
|
|
|
|
Count |
164 |
168 |
107 |
251 |
101 |
791 | |
|
Expected Count |
164,0 |
168,0 |
107.0 |
251,0 |
101,0 |
791,0 | |
Считается, что существует значимое различие между наблюдаемой и ожидаемой частотой, если нормированный остаток больше или равен 2. Другие предельные значения принимаются в соответствии со следующей таблицей. |
Нормированный остаток |
Уровень значимости |
|
>=2,0 |
р<0,05 (*) |
|
>=2,6 |
р<0,01 (**) |
|
>=3,3 |
P<0,001 (***) |
Веса случаев
8.7 Веса случаевSPSS предоставляет возможность определения веса данных. При этом данным, относящимся к разным наблюдениям, присваиваются различные весовые коэффициенты посредством так называемой переменной взвешивания. Эта процедура может быть полезной в следующих ситуациях:
Первый пример: вычисление расхода бензина
8.8.1 Первый пример: вычисление расхода бензинаПредположим, что мы ведем книгу учета расхода бензина. При каждой заправке в нее записывается дата, пробег в километрах и объем заправки в литрах:
|
Дата |
Пробег |
Литров |
|
16.12.1992 |
20580 |
60,3 |
|
23.12.1992 |
21250 |
57,4 |
|
04.01.1993 |
21874 |
56,6 |
|
17.01.1993 |
22476 |
56,3 |
|
28.01.1993 |
22954 |
45,4 |
|
12.02.1993 |
23450 |
48,6 |
|
27.02.1993 |
24020 |
57,0 |
|
14.03.1993 |
24611 |
56,7 |
Это типичный случай, где рационально применить функций LAG и YRMODA. Используя пояснения к этим функциям, которые содержатся в разделе 8.1.2, попробуйте самостоятельно интерпретировать смысл следующих команд:
COMPUTE ntage=yrmoda(jahr,monat,tag) . COMPUTE difftage=ntage-lag(ntage,1) COMPUTE diffkm=kmstand-lag(kmstand/1). COMPUTE verbr=liter*100/diffkm . COMPUTE kmtag=diffkm/difftage . EXECUTE .
Второй пример: вычисление даты пасхи
8.8.2 Второй пример: вычисление даты пасхиНикейский собор в 325 г. установил, что пасху следует праздновать в первое воскресенье после первого весеннего полнолуния. На этом основан метод Гаусса для определения даты пасхального воскресенья. Согласно нему, если задан год jahr (например, 1994), то дату пасхального воскресенья, можно вычислить с помощью следующих операций:
k = целый результат деления jahr/100 р = целый результат деления k/3 q = целый результат деления k/4 m = 15 + k — p — q ml = остаток от деления т/30 n = 4 + k - q nl = остаток от деления п/7 а = остаток от деления jahr/19 Ь = остаток от деления jahr/4 с = остаток от деления jahr/7 d = 19 * а + ml dl = остаток от деления d/30 e = 2*b + 4*c + 6*dl + nl el = остаток от деления е/7 х = 22 + dl + el Для определения х существует два исключения
Сначала в редакторе данных следует создать файл данных, содержащий единственную переменную jahr. Затем в строках редактора необходимо ввести годы, для которых вы желаете вычислить дату пасхи. Можно также загрузить файл примеров ostern.sav, содержащий годы с 1995 по 2030.
Затем откройте редактор синтаксиса и введите следующую программу. Команды COMPUTE вплоть до вычисления х можно также ввести в соответствующем диалоговом окне (см. раздел 8.1). Команды, приведенные ниже, вводятся в редакторе синтаксиса. Для того, чтобы избежать ручного ввода этой программы, можно просто загрузить в редактор синтаксиса файл ostern.sps.
COMPUTE k=TRUNC(jahr/100) . COMPUTE p=TRUNC(k/3) . COMPUTE q=TRUNC(k/4) . COMPUTE m=15+k-p-q . COMPUTE ml=MOD(m,30) . COMPUTE n=4+k-g . COMPUTE nl=MOD(n,7) . COMPUTE a=MOD(jahr,19) . COMPUTE b=MOD(jahr,4) . COMPUTE c=MOD(jahr,7) COMPUTE d=19*a+ml . COMPUTE dl=MOD(d,30) . COMPUTE e=2*b+4*c+6*dl+nl . COMPUTE el=MOD(e,7) . COMPUTE x=22+dl+el . IF x=57 x=50 . IF dl=28 AND el=6 AND MOD (ll*m+ll,30)<19 x=49 . COMPUTE tag=x . COMPUTE monat=3 . IF (x > 31) tag=x-31 . IF (x > 31) monat=4 . COMPUTE odatum=DATE.MDY(raonat,tag,jahr) . FORMATS odatum(DATEll) . LIST odatum . Переменные tag и monat определяют дату пасхального воскресенья заданного года (переменной jahr). На их основе функция DATE.MDY вычисляет значение времени во внутреннем формате SPSS (число секунд после введения григорианского календаря). Затем это значение записывается в переменную odatum, которая преобразуется в формат даты DATE11.
После ввода программы или открытия файла в редакторе синтексиса с помощью меню Edit (Правка) выделите все строки и запустите программу. С помощью команды LIST в окне просмотра буде сформирована следующая таблица, фрагмент которой с 1995 до 2002 года, приводится ниже:
ODATUM 16-APR-1995 07-APR-1996 30-MAR-1997 12-APR-1998 04-APR-1999 23-APR-2000 15-APR-2001 31-MAR-2002 Обладая некоторой фантазией и знанием командного синтаксиса SPSS, можно решать задачи, не связанные непосредственно со статистическими вычислениями.
Примеры вычисления новых переменных
8.8 Примеры вычисления новых переменныхДва следующих примера демонстрируют возможности языка программирования SPSS.
Диалоговое окно Aggregate Data
Диалоговое окно Aggregate Data
Диалоговое окно Aggregate Data: Aggregate Function
Диалоговое окно Aggregate Data: Aggregate Function
После щелчка на кнопке Отбудет создан новый файл, содержащий 2 х 8=16 наблюдений и переменные stall, nr, wuehle_l, fresse_l и massag_l.
|
STALL |
N |
Mean (Среднее значение) |
Std. Deviation (Стандартное отклонение) |
Std. Error Mean (Стандартная ошибка среднего значения) |
|
FRESSE 1 1 2 |
8 8 |
339,0125 231,6750 |
98,2384 109,5381 |
34,7325 38,7276 |
|
MASSAG 1 1 2 |
8 8 |
2,2875 40,3625 |
3,3689 54,1795 |
1,1911 19,1553 |
|
WUEHLE 1 1 2 |
8 8 |
1996,587 1964.600 |
326,3919 642,5314 |
115,3970 227,1692 |
|
Levne's Test forEquality of Variancies (Tecт Левена на равенство дисперсий) | Т-Test for Equality of Means (Тест Стьюдента на равенство средних) | |||||||||
| F | Значи-мость | Т | df | (дву сторон-няя) | Разность средних | Стан-дартная ошибка разницы |
95% доверительный интервал разности Нижняя и Верхняя | |||
| FRES-SE_.1 | Equal variances assumed (Дис-персии равны) Equal variances not assumed (Дис-персии не равны) | .128 | .726 | 2,063 2,063 | 14 13, 837 | ,058 ,058 | 107 ,3375 107 ,3375 | 52, 0209 52 ,0209 | -4,2362 -4,3594 | 218, 9112 219, 0344 |
| MAS-SAG 1 | Equal variances assumed (Дис-персии равны) Equal variances not assumed (Дис-персии не равны) | 7.390 | ,017 | -1,984 -1,984 | 14 7,054 | ,067 ,087 | -38, 0750 -38,0750 | 19, 1923 19. 1923 | -79,2385 -83,3872 | 3,0885 7,2372 |
| WU-EHLE_1 | variances assumed (Дис-персии равны) Equal variances not assumed (Дис-персии не равны) | 2,274 | ,154 | ,126 ,126 | 14 10 ,387 | ,902 ,902 | 31, 9875 31 ,9875 | 254 ,7985 254 ,7985 | -514 ,5010 -532, 8844 | 578. 4760 596 ,8594 |
Диалоговое окно Automatic Recede
Диалоговое окно Automatic Recede
|
BESCHW Old Value |
BESCHWN New Value |
Жалобы Value Label |
|
Абсцесс |
1 |
Абсцесс |
|
Аллергия |
2 |
Аллергия |
|
Стенокардия |
3 |
Стенокардия |
|
Одышка |
4 |
Одышка |
|
Бактерии в моче |
5 |
Бактерии в моче |
|
Боли в позвоночнике |
6 |
Боли в позвоночнике |
|
Боли в животе |
7 |
Боли в животе |
|
Затруднения |
8 |
Затруднения |
|
Метеоризм |
9 |
Метеоризм |
|
Гипертония |
10 |
Гипертония |
|
Жжение |
11 |
Жжение |
|
Бронхит |
12 |
Бронхит |
|
Воспаление кишечника |
13 |
Bocпаление кишечника |
|
Диабет |
14 |
Диабет |
|
Диализ |
15 |
Диализ |
|
Нарушения кровообр . |
1б |
Нарушения кровообращения |
|
Понос |
17 |
Понос |
|
Воспаления |
18 |
Воспаления |
|
Лихорадка |
19 |
Лихорадка |
Диалоговое окно Compute Variable
Диалоговое окно Compute Variable
В поле Target Variable (Выходная переменная) указывается имя переменной, которой присваивается вычисленное значение. В качестве выходной переменной может служить уже существующая или новая переменная. В поле Numeric Expression (Численное выражение) вводится выражение, применяемое для определения значения выходной переменной. 3 этом выражении могут использоваться имена существующих переменных, константы, арифметические операторы и функции.
Здесь можно задать метку для новой переменной rrsdiff. В поле Label введите текст Изменение сист. кровяного давления и щелкните на кнопке Continue.
Диалоговое окно Compute Variable: Type and Label
Диалоговое окно Compute Variable: Type and Label
Примечание: Выбранные опции соответствуют следующему командному синтаксису:
COMPOTE rrsdiff = rrs0 - rrsl. VARIABLE LABELS rrsdiff = "Изменение сист. кровяного давления". EXECUTE. Общий формат команды COMPUTE имеет следующий вид:
COMPUTE целевая_переменная = арифметическое_выражение.
Команда EXECUTE считывает данные и выполняет предшествующие команды преобразования. В файл данных добавляется новая переменная rrsdiff. Теперь ее, как и прочие переменные, можно применять для вычислений. Для SPSS нет разницы, введены ли значения переменных через редактор данных или вычислены по формуле.
Вместо слова формула мы будем использовать в дальнейшем понятие численное выражение. При формулировке таких численных выражений нужно соблюдать определенные правила, которые представлены в следующем разделе.
Диалоговое окно Count Occurences of Values wirhin Cases
Диалоговое окно Count Occurences of Values wirhin Cases
Это диалоговое окно разделено на следующие части:
Диалоговое окно Count Values within Cases:values to Count
Диалоговое окно Count Values within Cases:values to Count
Это диалоговое окно служит для определения подсчитываемых значений. Можно задать отдельное значение, диапазон или сочетание того и другого. В группе Value (Значение) можно выбрать один из следующих вариантов:
Диалоговое окно Rank Cases
Диалоговое окно Rank Cases
Перечисленные четыре способа присвоения рангов можно пояснить с помощью простого примера, в котором семь значений расположены по убыванию.
Диалоговое окно Rank Cases: Ties
Диалоговое окно Rank Cases: Ties
|
Значение |
Mean |
Low |
High |
Sequential ranks to unique values |
|
190 |
1 |
1 |
1 |
1 |
|
187 |
2,5 |
2 |
3 |
2 |
|
187 |
2,5 |
2 |
3 |
2 |
|
185 |
5 |
4 |
6 |
3 |
|
185 |
5 |
4 |
6 |
3 |
|
185 |
5 |
4 |
6 |
3 |
|
184 |
7 |
7 |
7 |
4 |
Затем отсортируем файл данных по этой ранговой переменной.
Case Processing Summary a (Сводка случаев)
|
|
RANK TJU |
LAN |
Средняя дневная температура в июле |
|
1 |
1,00 |
GRI |
33 |
|
2 |
2,00 |
ITA |
31 |
|
3 |
3,50 |
ALB |
30 |
|
4 |
3,50 |
RUM |
30 |
|
5 |
5,50 |
JUG |
29 |
|
6 |
5,50 |
TUE |
29 |
|
7 |
7,50 |
BUL |
28 |
|
8 |
7,50 |
UNG |
28 |
|
9 |
9,50 |
FOR |
27 |
|
10 |
9,50 |
SPA |
27 |
|
11 |
13,00 |
DEU |
25 |
|
12 |
13,00 |
FRA |
25 |
|
13 |
13,00 |
OES |
25 |
|
14 |
13,00 |
SCH |
25 |
|
15 |
13,00 |
TSC |
25 |
|
16 |
17,00 |
DD |
24 |
|
17 |
17,00 |
POL |
24 |
|
18 |
17,00 |
SOW |
24 |
|
19 |
19,50 |
BEL |
23 |
|
20 |
19,50 |
LUX |
23 |
|
21 |
23,50 |
DAE |
22 |
|
22 |
23,50 |
FIN |
22 |
|
23 |
23,50 |
GRO |
22 |
|
24 |
23,50 |
NIE |
22 |
|
25 |
23,50 |
NOR |
22 |
|
26 |
23,50 |
SCH |
22 |
|
27 |
27,00 |
IRL |
20 |
|
28 |
28,00 |
ISL |
15 |
| Total (Всего)N | 28 | 28 | 28 |
|
a. Limited to first 100 cases(Ограничено первыми 100 случаями) | |||
Диалоговое окно Rank Cases: Types
Диалоговое окно Rank Cases: Types
|
Blom: |
(r-3/8)/(n+1/4) |
|
Tukey: |
(r-1/3)/(n+1/3) |
|
Rankit: |
(r-1/2)/n |
|
Van der Waerden: |
r/(n+1) |
|
Тип ранга |
Единственный тип ранга |
Несколько типов |
Метка переменной |
|
Ранг |
rlem |
rlem |
RANK of LEM |
|
Оценка Сэвиджа |
slem |
slem |
SAVAGE of LEM |
|
Относительный ранг |
rlem |
rfrOO-1 |
RFRACTION of LEM |
|
Относительный ранг в % |
plem |
perOO! |
PERCENT of LEM |
|
Сумма весов наблюдений |
nlem |
nOOl |
N of LEM |
|
N-процентили |
nlem |
ntiOOl |
NTILES of LEM |
|
Долевые оценки (по Блому) |
plern |
plem |
PROPORTION of LEM using BLOM |
|
Нормальные ранги (по Блому) |
nlem |
nlem |
NORMAL of LEM using BLOM |
Case Processinq Summary3 (Сводка наблюдений)
| LAN | RANK LE | SAVAG of | RFRACT Nof | PERCE of | Nof | NTILES LE | PROPOR Nof using | NORM of usin BLO | |
| 1 | ALB | 3,00 | ,107 | 10,7 | 28 | 1 | ,092 | ||
| 2 | BEL | 11,50 | ,410 | 41,0 | 28 | 2 | ,393 | ||
| 3 | BUL | 15,50 | ,553 | 55,3 | 28 | 3 | ,535 | ,088 | |
| 4 | DAE | 24,00 | ,843 | ,857 | 85,7 | 28 | 4 | ,836 | ,979 |
| 5 | DEU | 13,00 | ,464 | 46,4 | 28 | 2 | ,446 | ||
| 6 | DO | 17,00 | ,607 | 60,7 | 28 | 3 | ,588 | ,223 | |
| 7 | FIN | 4,00 | ,142 | 14,2 | 28 | 1 | ,128 | ||
| 8 | FRA | 19.00 | ,098 | ,678 | 67,8 | 28 | 3 | ,659 | ,410 |
| 9 | GRI | 11,50 | ,410 | 41,0 | 28 | 2 | ,393 | ||
| 10 | GRO | 20,00 | ,209 | ,714 | 71,4 | 28 | 3 | ,694 | ,509 |
| 11 | IRL | 15,50 | ,553 | 55,3 | 28 | 3 | ,535 | ,088 | |
| 12 | ISL | 27,00 | 1,927 | ,964 | 96,4 | 28 | 4 | ,942 | 1,575 |
| 13 | ITA | 18,00 | ,642 | 64,2 | 28 | 3 | ,623 | ,315 | |
| 14 | JUG | 1,00 | ,035 | 3,5 | 28 | 1 | ,022 | ||
| 15 | LUX | 14,00 | ,500 | 50,0 | 28 | 2 | ,482 | ||
| 16 | NIE | 25,00 | 1,093 | ,892 | 89,2 | 28 | 4 | ,871 | 1,134 |
| 17 | NOR | 28,00 | 2,927 | 1,000 | 100,0 | 28 | 4 | ,977 | 2,011 |
| 18 | OES | 9,00 | ,321 | 32,1 | 28 | 2 | ,305 | ||
| 19 | POL | 7,00 | ,250 | 25,0 | 28 | 1 | ,234 | ||
| 20 | POR | 2,00 | ,071 | 7,1 | 28 | 1 | ,057 | ||
| 21 | RUM | 6,00 | - | ,214 | 21,4 | 28 | 1 | ,199 | |
| 22 | SCH | 26,00 | 1,427 | ,928 | 92,8 | 28 | 4 | ,907 | 1,323 |
| 23 | SCH | 23,00 | ,643 | ,821 | 82,1 | 28 | 4 | ,800 | ,844 |
| 24 | sow | 22.00 | ,477 | ,785 | 78,5 | 28 | 4 | ,765 | ,724 |
| 25 | SPA | 21,00 | ,334 | ,750 | 75,0 | 28 | 3 | ,730 | ,613 |
| 26 | TSC | 5,00 | - | ,178 | 17,8 | 28 | 1 | ,163 | |
| 27 | TUE | 10,00 | - | ,357 | 35,7 | 28 | 2 | ,340 | - |
| 28 | UNG | 8,00 | ,285 | 28,5 | 28 | 2 | ,269 | ||
| Total (Всего) N | 28 | 28 | 28 | 28 | 28 | 28 | 28 | 28 | 28 |
Диалоговое окно Recede into Different Variables
Диалоговое окно Recede into Different Variables
Список исходных переменных содержит переменные файла данных. Здесь можно выбрать одну или несколько переменных для перекодирования. Если выбираются несколько переменных, все они должны быть одного типа.
Это диалоговое окно разделено на следующие части. В группе Old Value (Старое значение) можно выбрать один из следующих вариантов:
Диалоговое окно Recede into Different Variables: Old and New Values
Диалоговое окно Recede into Different Variables: Old and New Values
RECODE partei (1=2) (2=2) (3=1) (4=1) (5=1) (6=2) (ELSE=0) INTO lire . VARIABLE LABELS lire "Политический спектр" EXECUTE .
1 = левые
2 = правые.
|
|
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent |
|
Valid |
левые |
13 |
43,3 |
48,1 |
48,1 |
|
правые |
|
14 |
46,7 |
51,9 |
100,0 |
|
Total |
|
27 |
90,0 |
100,0 |
|
|
Missing |
не определено |
3 |
10,0 |
|
|
|
Total |
|
30 |
100,0 |
|
|
Диалоговое окно Weight Cases
Диалоговое окно Weight Cases
|
|
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent |
|
Valid |
да |
110 |
8,4 |
8,4 |
8,4 |
|
|
нет |
1189 |
91,6 |
61,6 |
100,0 |
|
|
Total |
1299 |
100,0 |
100,0 |
|
|
|
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent |
|
Valid |
первостепенная важность |
110 |
8,5 |
8,5 |
8,5 |
|
|
второстепенная важность |
239 |
18,4 |
18,4 |
26,9 |
|
|
важность третьей степени |
375 |
28,8 |
28,8 |
55,8 |
|
|
важность четвертой степени |
575 |
44,2 |
44,2 , |
100,0 |
|
|
Total |
1299 |
100,0 |
100,0 |
|
|
Служащий? | |||||
|
да |
Нет |
Total | |||
|
Борьба с инфляцией |
первосте- пенная важность |
Count |
5 |
105 |
110 |
|
% от Борьба с инфляцией |
4,5% |
95,5% |
100,0% | ||
|
%от Служащий? |
4,5% |
8,8% |
8,5% | ||
|
второсте- пенная важность |
Count |
11 |
228 |
239 | |
|
% от Борьба с инфляцией |
4,6% |
95,4% |
100,0% | ||
|
%от Служащий? |
10,0% |
19,2% |
18,4% | ||
|
важность третьей степени |
Count |
30 |
345 |
375 | |
|
% от Борьба с инфляцией |
,U /0 |
92,0% |
100,0% | ||
|
%от Служащий? |
27,3% |
29,0% |
28,9% | ||
|
важность четвертой степени |
Count |
64 |
511 |
575 | |
|
% от Борьба с инфляцией |
11,1% |
88,9% |
100,0% | ||
|
%от Служащий? |
58,2% |
43,0% |
44,3% | ||
|
Total |
Count |
110 |
1189 |
1299 | |
|
% от Борьба с инфляцией |
8,5% |
91,5% |
100,0% | ||
|
%от Служащий? |
100,0% |
100,0% |
100,0% | ||
|
Value |
Df |
Asymp. Sig. (2-sided) | |
|
Pearson Chi-Square |
12,156 a |
3 |
,007 |
|
Likelihood Ratio |
12,972 |
3 |
,005 |
|
Linear-by-Linear Association |
11,410 |
1 |
,001 |
|
N of Valid Cases |
1299 |
|
|
Общая частота осталась неизменной — 1299, но взаимное отношение частот изменилось. В переменной beamter количество служащих снизилось с 137 до 110, что соответствует реальной доле служащих 8,4%. Также незначительно изменилась частотная таблица для переменной themaS; взвешивание повлияло и на нее.
То же можно сказать и о таблице сопряженности. Однако здесь процентные значения по столбцам не изменились; сохранились соотношения между отдельными значениями переменных в ячейках.
Установленное взвешивание будет действовать до тех пор, пока вы снова не выберете в диалоговом окне Weight Cases опцию Do not weight cases (He взвешивать наблюдения).
Описанный метод взвешивания при отсутствии репрезентативности может привести к возникновению некоторых проблем, которые, впрочем, не проявляются в изученном примере.
Если мы рассмотрим, например, взвешенную частотную таблицу переменной «Борьба с инфляцией», то обнаружим, что общее количество наблюдений (1299) не меняется при взвешивании. Это связано с тем, что сумма весовых коэффициентов по всем случаям равна числу случаев. Однако в варианте взвешивания, который будет изложен в разделе 8.7.2, это не так.
Если вы попробуете вручную просуммировать частоты упоминания всех четырех вариантов ответов, то в результате вы также получите число 1299. Однако это не закономерность, а скорее счастливое совпадение, о чем свидетельствует следующий пример.
|
|
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent |
|
Valid |
женский |
77 |
28,4 |
28,4 |
28,4 |
|
|
мужской |
184 |
71,6 |
71,6 |
100,0 |
|
Total |
271 |
100,0 |
100,0 |
|
|
|
|
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent |
|
Valid |
Учащийся |
8 |
3,0 |
3,0 |
3,0 |
|
|
Рабочий |
47 |
17,3 |
17,3 |
20,3 |
|
|
Квалифици- рованный рабочий |
47 |
17,3 |
17,3 |
37,6 |
|
|
Специалист |
4 |
1,5 |
1,5 |
39,1 |
|
|
Служащий |
66 |
24,4 |
24,4 |
63,5 |
|
|
Менеджер |
8 |
3,0 |
3,0 |
66,4 |
|
|
Государствен- ный служащий |
31 |
11,4 |
11,4 |
77,9 |
|
|
Пенсионер |
42 |
15,5 |
15,5 |
93,4 |
|
|
Домохозяйка |
g |
3,3 |
3,3 |
96,7 |
|
|
Нетрудоспо- собный |
1 |
,4 |
,4 |
97,0 |
|
|
Безработный Total |
8 271 |
3,0 100,0 |
3,0 100,0 |
100,0 |
IF v2=2 w=135.5/194.
EXECUTE
|
|
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent |
|
Valid |
женский |
135 |
50,0 |
50,0 |
50,0 |
|
|
мужской |
135 |
50,0 |
50,0 |
100,0 |
|
|
Total |
271 |
100,0 |
100,0 |
|
|
|
|
Frequency |
Percent |
Valid Percent |
Cumulative Percent |
|
Valid |
Учащийся |
10 |
3,6 |
3,6 |
3,6 |
|
|
Рабочий |
46 |
16,8 |
16,8 |
20,4 |
|
|
Квалифици- рованный рабочий |
35 |
12,9 |
12,9 |
33,3 |
|
|
Специалист |
3 |
1,0 |
1,0 |
34,4 |
|
|
Служащий |
83 |
30,7 |
30,7 |
65,1 |
|
|
Менеджер |
7 |
2,5 |
2,5 |
67,5 |
|
|
Государствен- ный служащий |
32 |
11,9 |
11,9 |
79,4 |
|
|
Пенсионер |
36 |
13,2 |
13,2 |
92,6 |
|
|
Домохозяйка |
9 |
3,5 |
3,5 |
96,1 |
|
|
Нетрудоспо- собный |
2 |
,6 |
,6 |
96,8 |
|
|
Безработный |
9 |
3,2 |
3,2 |
100,0 |
|
|
Total |
271 |
100,0 |
100,0 |
|
Это особенно заметно для переменной Пол. Так как после определения переменной взвешивания обе категории должны иметь одинаковые частоты, с самого начала ясно, что сумма не может быть нечетной. Для переменной занятие сложение частот по категориям также дает результат 272, что на единицу отличается от общего количества наблюдений — 271, выводимого в окне просмотра. SPSS всегда, в том числе при взвешивании, выдает целочисленные частоты. Поэтому негативное влияние округления будет неизбежным. Другие статистические программы, например, Stata, обходят эту ситуацию, вычисляя взвешенные частоты с дробной частью.
Если сделать выборку наблюдений, то отображаемые программой суммы до и после взвешивания, как правило, также будут различаться. Это связано с тем, что в частичной выборке количество наблюдений обычно не соответствует сумме весовых коэффициентов, попадающих в эту выборку. Это можно проверить, создав на основе открытого файла данных частотную таблицу переменной «Занятие» до взвешивания и после взвешивания, но только для приверженцев партии СДПГ (v22=2). Тогда мы получим соответственно суммы 91 и 83.
Взвешивание для выравнивания характеристик при нарушении репрезентативности применяется в первую очередь при эпидемиологических исследованиях. Так как при весовом коэффициенте, превосходящем единицу, количество наблюдений искусственно увеличивается по сравнению с фактически измеренным, к результатам теста на значимость следует подходить весьма критически.
Модификация данных
Модификация данныхДля проведения анализа часто бывает необходимо выполнить преобразование данных. На основе первоначально собранных данных можно создать новые переменные и изменить кодирование. Подобные преобразования называются модификацией данных.
В SPSS существует много возможностей для модификации данных. К важнейшим из них относятся:
Задачи статистики в пакете SPSS
Описательная статистика
9.1 Описательная статистикаДля ознакомления с характеристиками описательной статистики рассмотрим переменную а, отражающую возраст.
Сводка наблюдений
9.2 Сводка наблюденийЭтот пункт меню позволяет как выводить значения переменных по наблюдениям, так и вычислять статистические характеристики.
Первую из этих возможностей мы рассмотрели в разделе 4.7; сейчас мы опишем вычисление статистических характеристик. В качестве примера снова выберем файл hyper.sav.
Диалоговое окно Descriptives
Диалоговое окно Descriptives
|
|
N |
Minimum |
Maximum |
Mean | |
|
Statistic |
Statistic |
Statistic |
Statistic |
Std. Error | Statistic |
|
Возраст |
174 |
36 |
87 |
62,11 |
,88 |
|
Valid N (listvise) (Допустимых значений (по списку)) |
174 |
|
|
|
|
Видно, что в файле данных появилась новая переменная za. Она содержит нормированные значения переменной а (Возраст). По умолчанию к имени исходной переменной спереди дописывается буква z. При этом стандартизация (z-преобразование) значения х выполняется по формуле
Здесь m — среднее значение переменной, a s — стандартное отклонение. Проведение стандартизации переменных может быть целесообразным при использовании некоторых статистических методов. Его также можно выполнять в тех случаях, когда несколько переменных, которые имеют различный размах или отличаются на порядки по значению, должны быть приведены к общему показателю. В подобной ситуации сначала необходимо провести стандартизацию этих переменных, а затем, путем усреднения, вывести общее значение из полученных стандартизованых значений (z-зна-чений).
Диалоговое окно Summarize Cases
Диалоговое окно Summarize Cases
Диалоговое окно Summary Report: Statistics
Диалоговое окно Summary Report: Statistics
В окне просмотра будут показаны следующие результаты:
Case Processing Summary (Обработанные наблюдения)
|
|
Cases (Случаи) | |||||
|
Included (Включенные) |
Excluded (Исключенные) |
Total (Всего) | ||||
|
N |
Percent |
N |
Percent |
N |
Percent | |
|
Возраст |
174 |
100,0% |
0 |
,0% |
174 |
100,0% |
|
Возраст |
|
|
| |||
|
Mean |
Median |
Harmonic Mean |
Geometric |
Mean | ||
|
62,11 |
63,00 |
59,80 |
60,98 | |||
Case Processing Summary
|
|
Cases | |||||
|
Included |
Excluded |
Total | ||||
|
N |
Percent |
N |
Percent |
N |
Percent | |
|
Холестерин, исходный * Пол |
174 |
100,0% |
0 |
,0% |
174 |
100,0% |
|
Холестерин, исходный | ||||
|
Пол |
Mean |
Std. Deviation |
Std. Error Mean |
Median |
|
мужской |
228,95 |
54,63 |
7,11 |
216,00 |
|
женский |
241,54 |
46,19 |
4,31 |
241,00 |
|
Total |
237,27 |
49,42 |
3,75 |
234,50 |
Здесь доступны те же характеристики, что и в меню Case summaries...
Метод вычисления в форме OLAP-кубов (Online Analytical Processing) впервые появился в версии 9 SPSS. Он отличается тем, что таблицы, получающиеся при разбиении по группирующим переменным, можно активировать, пользуясь мобильными таблицами.
Статистические характеристики
Статистические характеристикиСтатистические характеристики вычисляются в основном для переменных, относящихся к интервальной шкале. Для этого используются следующие четыре команды меню.
Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Descriptives.., (Описательная статистика). Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты). Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Explore... (Исследовать)Analyze (Анализ) Reports (Отчеты)Case summaries... (Итоги по наблюдениям)
Создание частотных таблиц рассматривается в главе 6, а исследование данных — в главе 10.
В нижеследующей таблице приведен обзор характеристик, рассчитываемых в SPSS. В меню Descriptives... можно также провести стандартизацию переменных (z-преобразование).
|
Характе- ристика |
Descrip-tives |
Frequen- cies |
Explore |
Case summaries |
|
Среднее значение |
X |
X |
X |
X |
|
Сумма |
X |
X |
|
X |
|
Медиана |
|
X |
X |
X |
|
Групповая медиана |
|
X |
|
X |
|
Квартиль |
|
X |
|
|
|
Процеитиль |
|
X |
X |
|
|
Мода |
|
X |
|
|
|
Стандартное отклонение |
X |
X |
X |
X |
|
Стандартная ошибка |
X |
X |
X |
X |
|
Дисперсия |
X |
X |
X |
X |
|
Минимум |
X |
X |
X |
X |
|
Максимум |
X |
X |
X |
X |
|
Размах |
X |
X |
X |
X |
|
Межквартильная широта |
|
|
X |
|
|
Эксцесс (вариация) |
X |
X |
X |
X |
|
Асимметрия |
X |
X |
X |
X |
|
Стандартная ошибка эксцесса |
X |
X |
X |
X |
|
Стандартная ошибка асимметрии |
X |
X |
X |
X |
|
Доверительный интервал |
|
|
X |
|
|
Гармоническое среднее |
|
|
|
X |
|
Геометрическое среднее |
|
|
|
X |
|
М-оценка (Хампеля) |
|
|
X |
|
|
Выброс |
|
|
X |
|
|
Усеченное среднее |
|
|
X |
|
В качестве примера для этой и следующей главы мы рассмотрим исследование, относящееся к области медицины — анализ действия двух различных лекарств (с вымышленными названиями альфасан и бетасан) на снижение кровяного давления у гипертоников. Эти данные хранятся в файле hyper.sav, содержащем 174 наблюдения и значения следующих переменных:
|
nr |
Номер пациента |
|
med |
Лекарство (1 = альфасан, 2 = бетасан) |
|
g |
Пол (1 = мужской, 2 = женский) |
|
а |
Возраст, лет |
|
gr |
Рост, см |
|
gew |
Вес, кг |
|
rrs0 |
Систолическое кровяное давление, исходное значение |
|
rrs1 |
то же, через 1 месяц |
|
rrs6 |
то же, через 6 месяцев |
|
rrs12 |
то же, через 12 месяцев |
|
rrd0 |
Диастолическое кровяное давление, исходное значение |
|
rrd1 |
то же, через 1 месяц |
|
rrd6 |
то же, через 6 месяцев |
|
rrd12 |
то же, через 12 месяцев |
|
chol0 |
Холестерин, исходное значение |
|
chol1 |
то же, через 1 месяц |
|
chol6 |
то же, через 6 месяцев |
|
chol12 |
то же, через 12 месяцев |
|
bz0 |
Сахар в крови, исходное значение |
|
bz1 |
то же, через 1 месяц |
|
bz6 |
то же, через 6 месяцев |
|
bz12 |
то же, через 12 месяцев |
|
ak | Возрастной класс (1 = до 55 лет, 2 = 56-65 лет, 3 = 66-75 лет, 4 = более 75) |
Организация: Управление - Планирование - Cтатистика
- Теория организации
- Управление организацией
- Культура организации
- Управление системой
- Методы управления системой
- Процесс планирования
- Финансы при планировании
- Планирование производства
- Теория планирования
- Structure CAD и планирование
- Планирование в Data Mining
- Статистика
- Статистический анализ
- Виды статистики
- Статистические данные
- Статистические измерения
- Статистические графики
- Российская статистика
- Статистика в SPSS
- Программирование статистики