Цветаева И. Л. - Инновационные социальные технологии. Прогнозирование инвалидности
В монографии изложены результаты научных исследований, проведенных в 1997-1998 гг. кафедрой информационного обеспечения Московского государственного социального университета совместно с департаментом по вопросам реабилитации и социальной интеграции инвалидов Министерства труда и социального развития РФ в рамках федеральной целевой программы "Научное обеспечение и информатизация проблем инвалидов и инвалидности".
Постановка задачи прогнозирования инвалидности и выработка подхода к ее решению осуществлена работниками министерства О.И. Лебединской, Е.А.
Савостиной.
Верификация модели проведена при большой поддержке руководителей департамента И.В. Лебедева и О.Н.
Демина.
ВВЕДЕНИЕ
Основным источником информации об уровне жизни и социальном положении населения являлись до настоящего времени результаты выборочных социологических исследований. Однако они становятся все менее репрезентативными для разработки социальной стратегии и выбора приоритетных направлений социальной политики в условиях резкого изменения социально-экономической структуры общества и как следствие - быстрого изменения параметров современной социально-экономической среды в России.
Все более очевидной становится необходимость внедрения в практику управления социальными процессами новейшей методологии прогностических исследований, способствующей выявлению основных тенденций в социальном положении различных категорий населения, его социальной адаптации, прогрессивной стратомиграции. Разработка долгосрочных прогнозов создает реальные возможности не только для более обоснованного предвидения темпов и характера социальных изменений, но и для оперативного маневрирования, предупреждения негативного развития процессов в социальной сфере.
Прогнозирование правомерно рассматривать, с одной стороны, как составную и наиболее значимую часть научной обоснованности социальной политики. Применение же компьютерных технологий при прогнозировании следует рассматривать как наиважнейший элемент общей культуры управления.
Настоящая работа посвящена решению одной из актуальных проблем создания нового информационного обеспечения социальной сферы - исследованию математического и программного обеспечения, разработке модели, методики и, в конечном итоге, концепции прогнозирования инвалидности как в целом для Российской Федерации, так и для отдельных регионов.
Инвалидизация населения должна быть отнесена к базовым, основным характеристикам качества населения, наряду с такими, как заболеваемость, смертность (предстоящая продолжительность жизни), и ряд других. Как и смертность, инвалидизация характеризует потери трудового потенциала общества.
Но значимость инвалидизации может оказаться еще большей, поскольку лица с первой и второй группой инвалидности не только умерли как производители национального продукта, но при этом сохранили свою функцию потребителей.
По своей природе инвалидизация понятие системное. С одной стороны, оно определяется чисто медицинскими составляющими, с другой стороны - социально-экономическими условиями.
Эти условия принято называть прогнозным фоном. Следует отметить, что социально-экономические условия на данном этапе в решающей мере определяют и будут определять какое-то время как статус, так и прогнозы инвалидизации населения, ибо, если нет денег на социальное обеспечение инвалидов, не будет и учтенной инвалидизации, тогда как истинная инвалидность в этих условиях должна расти.
Это диктует необходимость строить прогнозы инвалидности не как изолированные, не как вещь в себе, а как тесно связанные с прогнозами динамики развития общества, экономической ситуации, желания и способности общества выделить какую-то часть национального дохода на обеспечение инвалидов. Естественно, что это обстоятельство, с одной стороны, крайне усложняет задачу прогнозирования, так как формального прогноза социально-экономического развития в России не существует.
С другой стороны, это требует гибкого сочетания формального прогнозирования с интуитивным, концептуальным, экспертным прогнозом.
Резкое изменение социально-экономической структуры общества оказывает дифференцированное воздействие на различные социальные слои общества. Инвалиды являются одним из наиболее уязвимых социальных слоев.
Поэтому одной из важных задач социальной защиты населения Российской Федерации является разработка детализированного научно обоснованного плана мероприятий по социальной защите и социальной реабилитации инвалидов.
Организация и планирование социальной политики в этой области требует знания количественных данных и понимания роли основных факторов, влияющих на динамику инвалидности. Динамика соответствующих процессов может быть достаточно сложна и существенно отличаться по регионам. Статистические данные показывают, что во всех регионах в последние годы наблюдается устойчивый рост количества инвалидов и инвалидов труда, в частности.
Процент прироста числа инвалидов труда колеблется от одного до десятка процентов. Анализ результатов первичных освидетельствований показывает существенные изменения с годами роли различных источников инвалидности.
Так за двадцать последних лет резко (в среднем на 150%) выросло число инвалидов по болезни, связанной с злокачественными образованиями, и в то же время существенно (на 30-60%) сократилось число лиц, получивших инвалидность в силу производственной травмы.
В настоящее время быстро меняется стоимость основных продуктов питания, медикаментов, коммунальных услуг, изменяются размеры пенсий, пособий, социальных выплат. При этом центральным и местным органам социальной защиты населения приходится постоянно анализировать последствия таких изменений. Так, например, для такой категории инвалидов как диабетики быстрый рост цен на медикаменты и нерегулярность их поставки может создать ситуацию, опасную для их жизни.
Поэтому местные органы социальной защиты должны заблаговременно делать запросы на дополнительные финансовые средства или медикаменты для предотвращения кризисных ситуаций.
В отличие от предшествующего периода медленного эволюционного развития, в настоящее время основные количественные показатели,
характеризующие ситуацию, меняются резким и иногда необъяснимым, с первого взгляда, образом. При этом, во-первых, возникает необходимость в более сложном инструментарии анализа, а во-вторых, методы прогнозирования, хорошо работавшие в период эволюционного развития общества, такие как прогнозирование по тренду, становятся неэффективными в современной ситуации.
Таким образом, необходимость внедрения в практику управления социальными процессами новейшей методологии прогностических исследований связана в первую очередь с высокой скоростью и нерегулярным характером происходящих социальных изменений в России. Наиболее эффективным средством является использование автоматизированных технологий, что требует разработки гибкого компьютерно-ориентированного инструментария.
Предварим решение задачи формулировкой базовых положений концепции прогнозирования инвалидности населения.
1.Целью построения прогноза инвалидности является количественная оценка предстоящих в обозримом будущем тенденций процесса инвалидизации населения, обеспечивающая опережающей во времени информацией системы и службы, связанные с решением проблем инвалидности и инвалидов, с целью оптимизации планирования и развития их деятельности.
2.Основные закономерности процесса инвалидизации населения определяются совокупностью социально-экономических и политических условий в обществе. Соответственно, стабильность или нестабильность развития процесса инвалидизации определяется стабильностью или нестабильностью развития социально-экономических условий.
3.Объектом прогноза является контингент впервые вышедших на инвалидность, тенденции изменения его численности и структуры.
4.Учитывая, что инвалиды могут рассматриваться как демографическая группа, обладающая своими специфическими характеристиками, прогноз инвалидности населения может быть построен в соответствии с принципами, подходами и требованиями демографических прогнозов.
5.Как разновидность демографического прогноз инвалидности населения является по своему характеру реалистическим, аналитическим и поисковым прогнозом. В то же время прогноз инвалидности является составной частью прогноза социально-экономического развития страны.
6.В соответствии с требованиями к содержанию демографического прогноза прогноз инвалидности населения должен включать сведения о предполагаемой численности контингента инвалидов, темпах и направленности ее изменений, половозрастной структуре контингента инвалидов, географическом распределении. Идеальным вариантом прогноза инвалидности являлся бы прогноз в единстве количественных и качественных характеристик, так как именно такой прогноз позволил бы оценить не только изменение тенденций развития инвалидизации населения, но и их социально-экономические последствия.
Реализация такого прогноза возможна только на основе банка статистических данных и развития регистров инвалидов.
7.Специфика построения прогноза инвалидности населения в настоящий период и, соответственно, требований к нему определяется особенностями конкретных исторических условий построения прогноза. Они могут быть сформулированы как период реформирования социально-экономических отношений, который характеризуется сложным, зачастую противоречивым действием совокупности социально-экономических факторов.
8.Основные требования к прогнозу инвалидности, обусловленные особенностями современного социально-экономического этапа развития страны, могут быть сформулированы следующим образом:
-прогноз в своей основе должен иметь фактографический материал, его не следует строить на чисто эмпирической основе;
-прогноз должен иметь четкую привязку к временным параметрам, так как только в этом случае он может быть использован в практической работе систем и служб, связанных с решением проблем инвалидности и инвалидов;
-прогноз инвалидности должен быть ориентирован не столько на определение количественных показателей, сколько на определение тенденций и закономерностей их изменения;
-прогноз должен позволить предусмотреть последствия различных управленческих решений в социально-экономической и политической сфере с точки зрения изменения тенденций процесса инвалидизации населения.
9.Поскольку пятилетний период является наиболее оптимальным для планирования развития государственных систем и служб, предпочтительным является среднесрочный прогноз инвалидности населения.
10.В силу вышеперечисленных требований и условий прогноз инвалидности населения может быть построен на основании определения корреляционных зависимостей между развитием процесса инвалидизации населения и социально-экономическим развитием страны. Такой прогноз позволит раскрыть причинно-следственные зависимости, в соответствии с которыми развиваются процессы инвалидизации населения.
В качестве информационно-статистической базы для построения модели могут быть использованы статистические данные государственной отчетности о контингентах инвалидов и социально-экономическом развитии страны. Предпочтительным является использование данных о первичной инвалидности как наиболее полно и достоверно регистрируемых. Учет социально-экономических факторов также может быть построен на совокупности статистических данных государственной
отчетности.
Использование данных государственной отчетности в качестве информационно-статистической базы для построения прогноза соответствует рекомендациям международных организаций, занимающихся разработкой проблем прогнозирования. Преимуществом использования таких данных является безусловное наличие их в системе статотчетности, четкая периодичность сбора и обработки, достаточная для прогнозирования степень достоверности, высокая степень информативности.
Учитывая вероятностный характер развития процесса инвалидизации, в основу построения прогноза инвалидности населения может быть положена динамическая многомерная корреляционная статистическая стохастическая модель.
Нестабильность социально-экономической ситуации предопределяет нестабильность развития процесса инвалидизации населения, что в статистическом смысле резко ограничивает возможности построения прогноза инвалидности на основе трендов инвалидизации населения. Использование трендов в настоящее время является малоприемлемым также в силу короткого временного периода, прошедшего после "обвала" статистических показателей здоровья населения и инвалидности в 1991 году, в результате которого произошел слом тенденций.
Прогноз на основе трендов имеет в своей основе концептуальное допущение о достаточно высокой степени самостоятельности развития процессов инвалидизации и незначительном влиянии социально-экономических факторов, он не позволяет предсказать резкое изменение тенденций, возможное в силу нестабильности социально-экономического развития.
1.Эффективность прогноза инвалидизации населения следует оценивать не только и не столько с позиций точности данных прогноза, сколько по его содействию обоснованности, объективности и оптимизации решений, принимаемых на его основе.
2.Подтверждение прогноза инвалидности является логической и статистической верификацией основных положений концепции процесса инвалидизации населения. Таким образом, прогноз инвалидности представляет собой исключительно важный элемент развития теории инвалидности.
3.Подходы к реализации прогноза инвалидности как востребованной инновационной социальной технологии могут быть разработаны на основе принципов и подходов технологического прогнозирования.
ИСХОДНЫЕ СТАТИСТИЧЕСКИЕ ДАННЫЕ ПО ИНВАЛИДНОСТИ
В основе построения математической модели любого типа лежит определенная концепция моделируемого социально-экономического объекта (системы), основанная на учете его основных свойств. В качестве исходной была принята концепция инвалидности как сложная многофакторная проблема, изложенная в статье Л.П. Гришиной (11).
Согласно этой концепции показатели инвалидности зависят (в смысле наличия статистически значимой связи) от различных факторов на данной административной территории Российской Федерации: демографической ситуации, экологической обстановки, соцально-экономических показателей, заболеваемости, уровня медицинского обслуживания и др. (всего 171 показатель). При этом инвалидность интерпретируется как интегральный показатель среды существования и условий жизни. Ряд внешних факторов выступает как причина инвалидности (денежные доходы на душу населения, вредные условия труда, неблагоприятная экологическая обстановка и т.д.), а ряд факторов можно считать следствием инвалидности (показатели ВТЭК, количество врачей на душу
населения и т.п.).
Эффективность применения той или иной концепции в структуре модели любой социально-экономической системы существенно зависит от наличия соответствующей статистической информации. Имеющиеся статистические данные в значительной мере обусловливают выбор той или иной структуры математической модели.
Построению математической модели и разработке методики прогнозирования инвалидности предшествует изучение взаимосвязей показателей инвалидности с внешними факторами окружающей среды (социальными, экологическими, медицинскими и пр.), что возможно на основе анализа основных массивов статистической информации по регионам и выявления основных динамических закономерностей и корреляций между параметрами.
С этой целью были сформированы следующие компьютерные базы данных, характеризующих состояние инвалидности в России с 1980 года по 1994 год.
1.База данных основных характеристик первичной инвалидности населения за период 1980-1991 гг. создана в соответствии с современным административно-территориальным делением Российской Федерации, а именно в разрезе 73 административных единиц. В динамике представлена информация о причинах первичной инвалидности населения для основных возрастных групп в целом, по рабочим, служащим и колхозникам.
2.База данных основных характеристик инвалидности населения за 1992-1994 гг.
3.База внешних факторов инвалидности населения за 1992-1993 гг., содержательная часть которой определяется наличием статистических показателей социального развития территорий, сгруппированных по основным группам факторов:
-численность населения и демографические характеристики;
-основные фонды и капитальные вложения в непроизводственную сферу;
-уровень жизни населения (доходы, потребление продуктов питания, товаров культурно-бытового назначения и др.);
-реализация товаров народного пользования;
-транспортная инфраструктура;
-обеспеченность жильем и качество жилья;
-развитие связи;
-инфраструктура здравоохранения;
-уровень образования населения.
Включенная в компьютерные базы данных информация может быть классифицирована по следующим параметрам:
?структура впервые признанных инвалидами по группам
инвалидности;
?возрастная структура впервые признанных инвалидами;
?первичный выход на инвалидность в зависимости от ряда заболеваний;
?численность инвалидов, состоящих на учете в органах социальной защиты населения;
?численность детей-инвалидов в возрасте до 16 лет.
Анализ представленной в базах данных информации выявил следующие особенности.
1.В связи с происшедшими за последние годы в России переменами данные оказались неоднородными по годам и могут быть разбиты на три временных интервала:
-до 1991 года данные по инвалидности представлены для таких категорий населения как рабочие, служащие, колхозники;
-в 1991 году данные по инвалидности представлены для всех
трудящихся;
-с 1992 года данные по инвалидности характеризуют все население.
Таким образом, имеющиеся данные нельзя рассматривать как единый временной ряд. Вследствие этого для решения задачи прогнозирования оказываются пригодными только данные, начиная с 1992 года.
Однако рассматривать статистические данные этого временного интервала как отдельные временные ряды невозможно, поскольку их длина недостаточна для анализа. Поэтому для решения поставленной задачи нельзя использовать традиционный аппарат временных рядов (анализ трендов).
2.Среди большого числа ранее изученных факторов риска, влияющих на инвалидность в России, была выделена группа факторов, оказывающих наибольшее влияние. Они были отнесены к нескольким группам:
-заболеваемость;
-социально-экономические;
-демографические;
-медицинские;
-экологические.
Ввиду происшедших за последние годы перемен, ряд факторов оказался неприемлемым для анализа. Например, факторы, касающиеся денежных доходов населения в абсолютном выражении, или затраты на охрану труда в абсолютном выражении.
Ряд факторов (условия труда, качество диспансеризации, качество профосмотра и т.п.) трудно поддается формализации и данные по ним отсутствуют, как и по ряду экологических факторов, таких как выброс азота и серы в атмосферу.
Собранные статистические данные являются усредненными по России, а набор факторов из года в год является неизменным, в связи с чем можно сделать следующие выводы по факторам риска.
?Не исследовалось возможное изменение факторов риска, входящих в основную группу, по годам. Можно ожидать их изменение после 1991 года.
?Не исследовалось возможное изменение факторов риска, входящих в основную группу, по регионам. Правомерно ожидать влияние на инвалидность различных факторов в различных регионах России.
?Затруднительно использование факторов, имеющих абсолютное денежное выражение (денежные доходы на душу населения, уровень потребления товаров народного потребления и т.п.). Подобные факторы могут быть использованы для анализа только после нормирования и приведения их к безразмерным относительным величинам.
?Изменялась как во времени, так и в пространстве исследуемая структура внешних факторов (79 факторов за 1992 год и 15 факторов за 1993 и 1994 годы).
3.Данные о структуре инвалидов на разных временных интервалах различно сгруппированы по возрастным группам:
-до 1991 года:
16-29,
30-44,
45-54 для женщин и 45-59 для мужчин,
16-54 для женщин и 16-59 для мужчин,
старше 55 для женщин и старше 60 для мужчин;
-за 1991 год:
16-39,
40-54 для женщин и 40-59 для мужчин,
старше 55 для женщин и старше 60 для мужчин;
-с 1991 года:
16-44 для женщин и 16-49 для мужчин,
45-54 для женщин и 50-59 для мужчин,
старше 55 для женщин и старше 60 для мужчин.
Выявленная временная неоднородность возрастной структуры инвалидности также приводит к необходимости раздельного анализа трех временных интервалов. Как указывалось ранее, для решения задачи прогнозирования инвалидности полезными могут быть только данные, относящиеся к последнему интервалу.
4.Данные о числе инвалидов, состоящих на учете в органах социального обеспечения, могут быть рассмотрены как временные ряды.
Таким образом, анализ статистических данных показал, что для решения задачи прогнозирования инвалидности в России традиционные методы анализа временных рядов неприемлемы. Для построения прогноза инвалидизации населения реально могут быть использованы статистические данные 1992 и последующих годов, что обусловлено, с одной стороны, изменением структуры самих данных и, с другой стороны, коренным изменением социально-экономической структуры общества, произошедшим в результате перехода от командно-административного планового хозяйства к рыночной регулируемой экономике.
Представляется целесообразным изучение временных трендов, выражающих основные тенденции инвалидизации населения, как зависимость от внешних факторов, отражающих социально-экономическое развитие страны.
ИССЛЕДОВАНИЕ МАТЕМАТИЧЕСКОГО И ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ РЕШЕНИЯ ЗАДАЧИ ПРОГНОЗИРОВАНИЯ ИНВАЛИДНОСТИ
Как известно (2), большие и сложные системы обладают значительной инерцией, и для скачкообразного, резкого изменения такой системы требуются значительные затраты ресурсов, которые общество выделить не в состоянии. Поэтому столь коренное изменение, как переход от командно-административного планового хозяйства с характерными для него социальными процессами к рыночной регулируемой экономике с другим типом социальных процессов в масштабе нашей страны неизбежно займет достаточно большое время, за которое сформируются новые тенденции изменения народнохозяйственных показателей и социальных процессов.
Понадобится значительное время, чтобы выявить эти тенденции. Настоящий период времени можно, таким образом, рассматривать как переходный с неустоявшимися тенденциями изменения показателей инвалидности.
Поскольку мы находимся в начале нового периода (его началом можно считать 1992 год), имеющихся статистических данных недостаточно для построения модели, описывающей общие тенденции такого социального процесса, как изменение показателей инвалидности. Поэтому поставленная задача была конкретизирована до построения математической модели краткосрочного прогноза показателей инвалидности на основании статистических данных за последние годы.
Анализ математического обеспечения
Построение математической модели основано на анализе имеющихся статистических данных. На рис.
1. представлены математические методы универсального характера, которые обычно используются для обработки информации.
Рис 1. Типовые методы обработки информации
Поскольку мы занимаемся анализом коротких временных рядов, то на этапе первичной обработки данных были исключены методы фильтрации и анализ спектральной плотности.
Для построения математической модели необходимо провести первичный статистический анализ имеющихся данных, который включает следующие этапы:
1.Анализ трендов (методы сглаживания). В нашем случае играет вспомогательную роль и может быть опущен.
2.Получение статистических характеристик (математическое ожидание, дисперсия, асимметрия, эксцесс, мода, медиана).
Анализ программного обеспечения
3.Анализ функций распределения.
4.Анализ корреляционных функций.
Выбор математических методов вторичной обработки информации может быть сделан только на основе первичного анализа данных.
При изучении социально-экономических явлений исследователи сталкиваются с необходимостью формализованного описания стохастической и многомерной информации по сложным и плохо структурируемым объектам. Для анализа подобной информации весьма эффективным оказывается математико-статистический подход (7).
Экономико-статистическая модель (ЭСМ) есть особая форма экономико-математических моделей. Она описывает стохастические связи и закономерности, возникающие под действием множества причин и следствий в массовых повторяющихся явлениях.
Классическая экономико-статистическая модель чаще всего состоит из регрессионных уравнений и комплекса вспомогательных статистических характеристик (средние, дисперсии, коэффициенты корреляции, оценки точности аппроксимации и др.).
Экономико-статистические модели имеют исследовательский, прогнозный характер и могут быть названы моделями описания экономических процессов. Главным предметом изучения ЭСМ являются не способы достижения определенного состояния, а сам процесс развития объектов в пространстве и во времени.
Они приспособлены для выявления тенденций, имевших место в прошлом и ожидаемых в будущем.
Анализ программного обеспечения
Анализ программного обеспечения для решения задачи прогнозирования инвалидности основывается на изложенных выше результатах анализа математических методов.
Все статистические расчеты проводятся с использованием специального программного обеспечения. Для первичной обработки исходных статистических данных, представленных в форме таблиц, наиболее целесообразно использовать табличный процессор Excel, функционирующий в операционной среде WINDOWS. Этот выбор обусловлен следующими причинами:
1.Excel позволяет представить данные в табличной форме, что делает информацию наглядной и значительно облегчает расчеты.
2. Excel позволяет легко конвертировать данные в форматы других баз данных.
3. Excel позволяет работать с большими таблицами данных.
4. Excel значительно облегчает проведение многочисленных однотипных расчетов для большого числа данных.
5. Графические возможности Excel облегчают выявление закономерностей и интерпретацию результатов.
6. В Excel хорошо представлены универсальные методы для первичного статистического анализа данных.
7. Русскоязычная версия Excel позволяет проводить обработку данных не только профессионалам-математикам, но и специалистам других областей, так как в ней имеется удобный справочник по используемым статистическим процедурам.
8. Широкая распространенность и доступность Excel.
Однако для более полного и детального статистического анализа информации в дополнение к Excel следует использовать также пакет программ статистической обработки, предоставляющий значительно более широкий выбор процедур, которые позволят глубже изучить природу данных, обнаружить связи между переменными и изучить структуру этих связей. На этапе первичной обработки информации такой пакет программ играет вспомогательную роль, а на этапе вторичной обработки становится основным инструментарием.
Как известно, выбор программного обеспечения для анализа данных зависит от характера решаемых задач, объема обрабатываемых данных, квалификации пользователей, имеющегося оборудования и т.д.
Поскольку в рассматриваемой нами задаче объем данных можно считать умеренным и предполагается использование в основном стандартных методов статистической обработки данных, то целесообразно использовать универсальный пакет программ статистической обработки.
Из зарубежных систем, наиболее распространенных в нашей стране, рассмотрим возможности STATGRAPHICS, SyStat и SPSS. В системах SyStat и SPSS реализован широкий набор вычислительных методов. В них имеется встроенный командный язык, позволяющий решать сложные задачи обработки данных.
Однако изучить и использовать возможности этого командного языка непросто. Кроме того, система SPSS больше подходит для анализа качественных переменных. В нашей же задаче все переменные носят исключительно количественный характер. Пакет программ STATGRAPHICS, в отличие от SyStat и SPSS, содержит наибольшее количество методов статистического анализа.
Так, например, в нем значительно больше представлено возможностей для анализа закона распределения. К достоинствам этой системы можно также отнести хорошую двухмерную и трехмерную графику. Этот пакет программ довольно долго занимал одно из лидирующих мест в мире (5).
К "недостаткам" системы следует отнести то, что она рассчитана на специалистов, хорошо знакомых с концепциями применяемых процедур. Однако сегодня этот недостаток компенсируется удачно представленной в литературе (3) методикой использования СПП STATGRAPHICS.
Из новейших зарубежных статистических пакетов можно назвать SPSS и STATISTICA 5.0 для WINDOWS, которые позволяют значительно ускорить анализ данных благодаря мощному интерфейсу WINDOWS, располагающему богатейшими графическими возможностями, а также благодаря расширенному набору статистических процедур. Эти пакеты незаменимы для анализа больших объемов данных (в системе STATISTICA можно анализировать до 32000 переменных).
Из отечественных систем были исследованы возможности таких наиболее распространенных пакетов как Эвриста, Мезозавр и STADIA. Эвриста и Мезозавр относятся к специализированным пакетам, предназначенным для анализа временных рядов и регрессионного анализа. В них очень слабо представлены графические возможности, методы анализа закона распределения, непараметрические тесты.
Пакет STADIA по своим возможностям сопоставим с пакетом STATGRAPHICS (3).
В результате проведенного анализа для решения поставленной задачи был выбран статистический пакет программ STATISTICA, что обусловлено богатыми графическими возможностями пакета, реализацией большого набора статистических методов, возможностями обмена данными с Excel и возможностью включения данных, расчетных показателей и графиков в отчет, который может быть сформирован, например, с помощью текстового редактора WORD.
Первичный статистический анализ данных
Первичный статистический анализ имеющихся данных, состоящий в анализе показателей инвалидности, анализе внешних факторов и анализе взаимосвязи показателей инвалидности и внешних факторов, позволил выявить основные закономерности рассматриваемых процессов.
Результаты анализа могут быть сформулированы следующим образом.
1.По характеру динамики показателей инвалидности в период 1992-1994 г.г. все районы можно разделить на 4 группы:
с постоянным ростом показателей;
с постоянным уменьшением показателей;
с ростом показателей в 1993 году и последующим их уменьшением;
с уменьшением показателей в 1993 году и последующим их ростом.
Однако по коротким рядам динамики нельзя судить, отражает ли такая разбивка изменение тенденции или оно вызвано колебаниями временных рядов. Попытка описать динамику показателей инвалидности с помощью линейного тренда показала, что такое описание удовлетворительно не более чем для 10% районов.
Для остальных районов линейный тренд оказался незначимым: дисперсия, объясняемая с помощью линейного тренда, оказалась меньше дисперсии, связанной с отклонениями от тренда.
Соответственно ошибка прогнозирования показателей инвалидности на основе линейного тренда (без учета воздействия внешних факторов) может превышать 60% для тех районов, где в прогнозируемом году происходит смена направления тенденции. Это подтверждает ранее сделанное предположение о невозможности использования аппарата временных рядов для решения поставленной задачи.
Прогноз инвалидизации можно сделать только с учетом влияния внешних факторов на показатели инвалидности.
2.Пространственный анализ показателей инвалидности позволяет утверждать, что их законы распределения в основном отличны от нормального и, за редким исключением, могут быть хорошо описаны логнормальным распределением.
3.В имеющихся временных рядах с показателями инвалидности наблюдаются изменения по времени таких параметров распределения как математическое ожидание, дисперсия, асимметрия, эксцесс и т.п.
Следовательно, рассматриваемые временные ряды в общем случае являются нестационарными.
Например, для показателя "количество первично признанных инвалидами" наблюдается следующее изменение характеристик:
| Характеристика |
1992 год |
1993 год |
1994 год |
| Математическое ожидание |
3.50 |
3.47 |
3.56 |
| Среднеквадратическое отклонение |
1.06 |
1.32 |
1.13 |
| Мода |
3.1 |
2.78 |
3.42 |
| Медиана |
3.34 |
3.29 |
3.42 |
| Максимальное значение |
10.31 |
12.2 |
9.65 |
| Минимальное значение |
2.02 |
1.67 |
1.49 |
Изменение характеристик для показателя "количество первично признанных инвалидами по трудовому увечью или профессиональному заболеванию":
| Характеристика |
1992 год |
1993 год |
1994 год |
| Математическое ожидание |
1.52 |
1.37 |
1.35 |
| Среднеквадратическое отклонение |
0.77 |
0.58 |
0.63 |
| Мода |
1.09 |
1.0 |
1.33 |
| Медиана |
1.27 |
1.25 |
1.26 |
| Максимальное значение |
5.55 |
4.35 |
3.78 |
| Минимальное значение |
0.71 |
0.51 |
0.61 |
По остальным показателям картина аналогичная.
Однако изменения статистических показателей в соседних точках, как правило, не являются значительными. Поэтому на коротких временных отрезках можно с известной долей приближения рассматривать временные ряды с показателями инвалидности как стационарные.
4.Корреляции между соседними точками для всех показателей инвалидности выше для интервала 1994-1993 гг., чем для интервала 1993-1992 гг. Однако эта разница не превышает 0.1. Например, для показателя "количество первично признанных инвалидами" коэффициент корреляции между данными за 1992 и 1993 годы равен 0.94, а между данными за 1993 и 1994 годы равен 0.96.
Для показателя "количество первично признанных инвалидами по трудовому увечью или профессиональному заболеванию" коэффициент корреляции между данными за 1992 и 1993 годы равен 0.8, а между данными за 1993 и 1994 годы равен 0.87. Для показателя "количество первично признанных инвалидами вследствие общего заболевания" коэффициент корреляции между данными за 1992 и 1993 годы равен 0.94, а между данными за 1993 и 1994 годы равен 0.96.
Анализ значений коэффициентов корреляции позволяет сделать вывод о высокой зависимости показателей инвалидности от предыстории процесса.
5. Законы распределения внешних факторов могут быть приближены либо к нормальным, либо к логнормальным распределениям. Однако для внешних факторов характер распределения является менее выраженным, во многих случаях приближение к тем или иным законам распределения является спорным.
6. Анализ корреляций внешних факторов в 1992 году позволил выделить сильно коррелирующие (коллинеарные) факторы с коэффициентом корреляции, превышающим значение 0.8. Число таких факторов оказалось незначительным.
7. Каждый показатель инвалидности коррелирует с большим числом внешних факторов, причем коэффициенты корреляции при этом редко превышают 0.5. Например, показатель "количество женщин из числа первично признанных инвалидами" за 1993 год коррелирует с 20-ю внешними факторами за 1992 год (максимальный коэффициент корреляции 0.48); показатель "количество инвалидов-военных из общего числа признанных инвалидами" за 1993 год коррелирует с 30-ю внешними факторами за 1992 год (максимальный коэффициент корреляции 0.7; для пяти факторов коэффициент корреляции превышает 0.5); показатель "количество инвалидов детства из общего числа признанных инвалидами" за 1993 год коррелирует с 24-мя внешними факторами за 1992 год (максимальный коэффициент корреляции 0.58; для одного фактора коэффициент корреляции превышает 0.5).
По остальным показателям данные аналогичные.
8. Степень взаимосвязи внешних факторов с показателями инвалидности во времени для разных факторов изменяется по-разному. Для некоторых факторов наиболее сильна взаимосвязь в текущем году, а в последующие годы она уменьшается.
Например, для значений показателя "число женщин из числа первично признанных инвалидами", взятых за 1992, 1993 и 1994 годы, и значений внешнего фактора "удельный вес автомобильных дорог с твердым покрытием" за 1992 год соответствующие коэффициенты корреляции равны -0.58, -0.38, -0.33.
Для других факторов наблюдается обратная зависимость: наиболее слабая взаимосвязь в текущем году, в последующие годы она увеличивается. Например, для значений показателя "количество первично признанных инвалидами вследствие общего заболевания", взятых за 1992, 1993 и 1994 годы, и значений внешнего фактора "продажа всех видов алкогольных напитков в расчете на душу населения" за 1992 год соответствующие коэффициенты корреляции равны 0.3, 0.31, 0.36.
Для третьих факторов взаимосвязь наиболее сильная на следующий год: связь 1992-1993 годов больше, чем связь 1992-1992 и 1992-1994 годов. Например, для значений показателя "число женщин из числа первично признанных инвалидами", взятых за 1992, 1993 и 1994 годы, и значений внешнего фактора "оборудование городского, государственного, общественного жилищного фонда и фонда ЖСК газом" за 1992 год соответствующие коэффициенты корреляции равны 0.24, 0.32, 0.31.
Такого рода закономерности могут быть связаны с тем, что влияние одних факторов на показатели инвалидности проявляется сразу же, в текущем году, а влияние других сказывается на следующий год или через год.
Для четвертых факторов наиболее слабая взаимосвязь наблюдается на следующий год: связь 1992-1993 годов меньше, чем связь 1992-1992 и 1992-1994 годов. Например, для значений показателя "число женщин из числа первично признанных инвалидами", взятых за 1992, 1993 и 1994 годы, и значений внешнего фактора "число родившихся на 1000 человек населения" за 1992 год соответствующие коэффициенты корреляции равны 0.43, 0.22, 0.27.
9. Парные коэффициенты корреляции внешних факторов с показателями инвалидности с лаговым интервалом в один год (значения факторов взяты за предыдущий год относительно значений показателей инвалидности) могут значительно изменяться со временем. Например, для показателя "количество инвалидов 3 группы из числа первично признанных инвалидами":
|
Внешние факторы |
Лаговый
интервал: |
Удельный вес
городского
населения |
Денежные
доходы на душу
населения |
Кол-во легковых автомобилей
на 1000 человек |
| 1992-1993 г.г. |
0.256 |
0.354 |
0.315 |
| 1993-1994 г.г. |
0.363 |
0.462 |
0.415 |
| 1994-1995 г.г. |
0.351 |
0.441 |
0.466 |
Использование корреляционно-регрессионной МОДЕЛИ ДЛЯ ПРОГНОЗИРОВАНИЯ ИНВАЛИДНОСТИ
Основой регионального прогноза инвалидности является рассмотрение инвалидности как социально-экономического процесса, характеризующегося изменяющимися во времени и в пространстве связями между показателями инвалидности и внешними факторами окружающей среды. В качестве объектов, порождающих эти процессы, можно рассматривать как территорию России в целом, так и отдельные административные территории Российской Федерации как конгломерат социально-экономических условий. Таким образом, административные территории Российской Федерации могут быть рассмотрены как большие сложные системы.
При этом учитываются такие их основные свойства как стохастичность и инерционность.
Под стохастичностью мы понимаем невозможность однозначного определения будущих значений выходных показателей инвалидности на основе информации о предыстории и о значениях внешних показателей. Это связано с рядом причин:
?с неполнотой наших знаний о механизме, порождающем инвалидность;
?со случайным поведением определенной части внешних факторов (экологических и субъективных факторов - выбросов вредных веществ в атмосферу, сбросов загрязненных сточных вод, миграции населения);
?с тем, что любая математическая модель носит приближенный
характер;
?с погрешностью исходных статистических данных.
Второе важное для построения прогноза свойство - инерционность, связанная с невозможностью резкого скачкообразного изменения показателей инвалидности в соседние моменты времени. Это обусловлено тем, что для такого изменения требуются ресурсы, которые общество выделить не в состоянии.
Поэтому при построении краткосрочного прогноза инвалидности необходимо учитывать преемственность значений показателей инвалидности в соседние периоды времени и влияние внешних факторов окружающей среды.
Дополнительный анализ взаимосвязи годовых изменений показателей внешних факторов F(t+1)-F(t) и годовых изменений показателей инвалидности y(t+1)-y(t) показал, что полученные значения парных коэффициентов корреляции оказались незначимыми для всех показателей инвалидности (приложение 6). Поэтому нельзя строить прогноз изменений показателей инвалидности как зависимость от изменений внешних факторов.
Таким образом, краткосрочный прогноз того или иного показателя инвалидности на один год вперед может быть построен в виде корреляционно-регрессионной зависимости абсолютных значений показателей инвалидности и абсолютных значений внешних факторов:

, где
y(t+1) - искомый прогноз показателя инвалидности y в следующем году;
y(t) - известное значение показателя инвалидности в текущем году;
a0 - скалярный коэффициент регрессии;
F(t) - известные значения вектора внешних факторов в текущем году;
A1 - матричный коэффициент регрессии;
В силу инерционности системы можно ожидать, что характер регрессионной зависимости для прогнозируемого периода времени изменится несущественно по сравнению с текущем периодом времени.
Поэтому оценивание коэффициентов регрессии следует проводить по данным для текущего периода времени:

, где
y(t) - известные значения показателя инвалидности y в текущем году;
y(t-1) - известные значения показателя инвалидности в предыдущем году;
a0- оцениваемый скалярный коэффициент регрессии;
F(t-1) - известные значения вектора внешних факторов в предыдущем году;
A1 - оцениваемый матричный коэффициент регрессии.
При построении уравнения задача состоит в выделении значимых внешних факторов, включаемых в уравнение регрессии для того или иного показателя инвалидности. Для этого необходимо вычислить и проанализировать парные коэффициенты корреляции рассматриваемого показателя инвалидности и всех имеющихся внешних факторов. Для выделения факторов, имеющих устойчивую взаимосвязь с рассматриваемым показателем инвалидности, рекомендуется исследовать корреляционные зависимости со всеми имеющимися внешними факторами за последние несколько лет, а именно:
?для значений внешних факторов и значений показателей инвалидности с лагом 0: F(t)-y(t); F(t-1)-y(t-1); F(t-2)-y(t-2);
?для значений внешних факторов и значений показателей инвалидности с лагом 1: F(t-1)-y(t); F(t-2)-y(t-1); F(t-3)-y(t-2);
?для значений внешних факторов и значений показателей инвалидности с лагом 2: F(t-2)-y(t); F(t-3)-y(t-1).
Анализ имеющихся статистических данных показал, что наблюдается устойчивая связь показателей инвалидности и внешних факторов в основном при парных коэффициентах корреляции Ryf0.3. Причем такая взаимосвязь прослеживается на протяжении нескольких лет.
Таким образом, в регрессионную модель вначале следует включить те внешние факторы, которые имеют значимые парные коэффициенты корреляции с рассматриваемым показателем инвалидности в течение последних нескольких лет. Не следует включать в модель те внешние факторы, для которых коэффициенты корреляции либо оказались незначимыми для всех рассматриваемых периодов, либо оказались значимыми для одних периодов и незначимыми для остальных периодов времени.
После выделения факторов-кандидатов на включение в уравнение регрессии следует оценить степень их взаимосвязи. Для этого строится матрица взаимных корреляций по внешним факторам.
Если среди факторов-кандидатов оказались группы сильно взаимосвязанных факторов, то из каждой такой группы в итоговой модели должен остаться только один фактор.
Особо следует рассмотреть случай нестабильной структуры внешних факторов. Основная причина нестабильности - невозможность получения данных по тем или иным факторам за отдельные периоды времени.
В этом случае описанная выше методика относится к факторам, значения которых имеются по всем годам. Факторы, значения которых имеются только в отдельные периоды времени, рассматриваются отдельно.
Если в текущем году добавились значения по новым факторам по сравнению с предыдущим периодом времени, то из этих "лишних" факторов кандидатами на включение в регрессионную модель целесообразно выбирать те, у которых коэффициенты корреляции превышают 0.3.
Если в текущем году число имеющихся внешних факторов уменьшилось, то следует рассмотреть как коррелируют с показателем инвалидности "лишние" факторы за предшествующие годы (лаг 1). При обнаружении существенных взаимосвязей (коэффициенты корреляции 0.3) эти факторы могут считаться кандидатами на включение в регрессионную модель с соответствующими лагами. Таким образом, в регрессионной модели могут появиться дополнительные члены: f(t-2), f(t-2) и т.п.
Однако включение таких факторов в регрессионное уравнение целесообразно делать после построения регрессии с целью возможного улучшения модели.
Если факторы с лагами большими 1 не дают улучшения регрессионной модели, то они исключаются из уравнения регрессии.
После получения первоначального варианта регрессионной зависимости необходимо проанализировать статистику по включенным в модель внешним факторам. При обнаружении факторов, дающих незначительный вклад в регрессию, необходимо попробовать их исключить и оценить параметры новой регрессионной зависимости. Если качество оценивания (по остаточной сумме квадратов) окажется существенно хуже, чем до исключения факторов из модели, нужно вернуть исключенные факторы в модель.
Эти операции необходимо проделывать до тех пор, пока не будет получена регрессионная зависимость, дающая удовлетворительное качество оценивания показателя инвалидности за текущий год.
Для получения прогнозируемого значения показателя инвалидности в полученное регрессионное уравнение необходимо подставить вместо y(t-1) значения y(t), а вместо F(t-1) - значения внешних факторов F(t).
Рассмотрим пример прогнозирования показателя инвалидности "из общего числа первично признанных инвалидами: инвалиды детства" на 1995 год. Имелись следующие исходные статистические данные: значения показателя инвалидности за 1992, 1993, 1994, 1995 годы
по 75-ти регионам РФ; значения 79-ти внешних факторов за 1992 год, значения 15-ти внешних факторов за 1993 год и за 1994 год по 75-ти регионам РФ. В приложении 1 представлен список показателей инвалидности, в приложении 2 - внешних факторов.
Построение прогноза осуществлялось в три этапа.
Этап 1. Выделение внешних факторов, имеющих устойчивую взаимосвязь с рассматриваемым показателем инвалидности. Для этого были вычислены парные коэффициенты корреляции между внешними факторами и показателем инвалидности для следующих периодов:
? с лагом 0:
| фак- |
инва- |
F_2 |
F_9 |
F_10 |
F_15 |
F_26 |
F_37 |
F_39 |
F_40 |
F_41 |
F_44 |
F_56 |
F_57 |
F_59 |
F_71 |
F_72 |
| торы |
лиды |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1992 |
1992 |
-0,36 |
-0,44 |
0,00 |
-0,25 |
-0,22 |
-0,37 |
-0,24 |
0,00 |
0,00 |
0,00 |
0,00 |
0,34 |
0,00 |
0,00 |
0,31 |
| 1993 |
1993 |
-0,42 |
-0,46 |
0,00 |
0,00 |
-0,30 |
-0,31 |
-0,26 |
0,00 |
0,00 |
0,00 |
0,00 |
0,44 |
0,00 |
0,00 |
0,00 |
| 1994 |
1994 |
-0,50 |
-0,52 |
0,00 |
0,00 |
- |
- |
-0,30 |
0,00 |
0,00 |
0,00 |
0,00 |
0,30 |
0,00 |
0,00 |
0,00 |
?с лагом 1:
Концептуальный прогноз
тяжесть заболевания, а именно прогрессирование болезни, приведшее к инвалидности, несмотря на то, что все меры медицинской и социально-трудовой реабилитации были использованы правильно и в полной мере;
ошибки в экспертном освидетельствовании (неверная трудовая рекомендация, несвоевременный перевод на другую работу, необоснованное установление группы инвалидности, неиспользование возможностей продления временной нетрудоспособности, отсутствие своевременного рационального трудоустройства через ВКК лечебно-профилактических заведений). Для профилактики инвалидности важна такая функцию ВТЭК, как продление больничных листов, которая эффективна для предотвращения инвалидности, сохранения трудовой направленности больного, его связи с коллективом, предупреждения социальной дезадаптации. Отмечено, что чем чаще продлевается больничный лист, тем меньше показатель инвалидности.
Чем больше измененных решений по контролю и обжалованию, тем меньше этот показатель.
Приведенные материалы позволяют сделать ряд содержательных
заключений.
? Инвалидность - сложный медико-социальный феномен, определяемый комплексом факторов различной природы, включая не только объективные параметры внешней среды, но и субъективные, зачастую неизмеряемые признаки.
? Адекватная оценка инвалидности требует учета ее сложной внутренней структуры, включая нозологические, возрастно-половые и другие аспекты, что предполагает использование в качестве выходных параметров модели описания и прогноза инвалидности не одного, а системы показателей.
? При отсутствии сопоставимой динамики основных параметров первичной инвалидизации населения за продолжительное время следует ориентироваться при построении прогнозов не на динамические, а на пространственные распределения инвалидности и описывающие их модели, поскольку различия между развитыми и отсталыми территориями в пространственных рядах можно интерпретировать как результат динамики конкретной территории в определенном направлении: по пути прогресса, или, наоборот, регресса тех или иных показателей.
Концептуальный прогноз
Изложим в систематизированном виде основные принципы концептуального прогноза инвалидности.
С этой целью рассмотрим три круга вопросов:
? здоровье в контексте индивидуальной и общественной системы ценностей;
? инвалидность в структуре потерь здоровья;
? границы прогнозного коридора: соотношение медицинских и социальных составляющих прогноза.
О месте здоровья в системе социальных ценностей и приоритетов однозначно свидетельствуют следующие аргументы:
расхождение между конституционными нормами и реальной политикой в социальной сфере;
нищенское и продолжающее сокращаться финансирование всей социальной инфраструктуры, обеспечивающей воспроизводство здорового населения, а именно здравоохранения, образования, культуры, природоохранной деятельности, сферы социальной поддержки;
отсутствие основы для преодоления отношения к социальной сфере как исключительно затратной.
Место здоровья в системе индивидуальных ценностей характеризуется противоречием между нормативными представлениями и реальной практикой. Здоровье не рассматривается индивидом как ценность фундаментальная, а как средство достижения других индивидуально значимых целей - высокооплачиваемой работы, жилья и т.д.
Эксплуатация здоровья как единственного источника позитивной социальной мобильности говорит об отсутствии у населения иных резервов и возможностей.
Существенно то, что отмеченные процессы характерны не только для кризисного этапа развития России. Переход от советского к современному этапу развития ничего принципиально не изменил в отношении к здоровью ни на уровне социума, ни на уровне индивида.
Единственное, что можно констатировать, так это то, что с уходом социализма ушел и лозунг о том, что здоровье является важнейшей социальной ценностью.
В прогностическом плане существенно, что процессы, определяющие лицо периода реформ, ведут к дальнейшему снижению цены человека и, следовательно, к дальнейшей деградации социальной инфраструктуры, ответственной за здоровье населения. Очевидно при этом, что число людей, нуждающихся в медицинской и социальной помощи и поддержке, не только не сократится, но и возрастет.
Конкретизация прогноза инвалидности во многом зависит от того, какое место она занимает в структуре потерь здоровья.
Приоритеты в охране здоровья четко сформулированы в стратегии Всемирной организации здравоохранения Здоровье для всех к 2000 году: снижение смертности и рост продолжительности жизни; увеличение продолжительности здоровой жизни без болезней и инвалидности и, наконец, максимально полная интеграция в полноценную активную жизнь лиц с ограниченными вследствие болезней возможностями. Для экономически развитых стран на первый план выходят задачи улучшения качества жизни больных и инвалидов.
Это связано с тем, что на фоне роста продолжительности жизни населения Европы за последнее время произошло неадекватное увеличение больных, инвалидов и нуждающихся в поддержке. В настоящее время в странах Европы продолжительность жизни в состоянии инвалидности составляет от 11% до 27% общей продолжительности жизни.
Отечественная статистика не позволяет получить аналогичные показатели по России, поэтому можно использовать только косвенные оценки. По продолжительности жизни населения Россия отстала не только от всех развитых, но и от многих развивающихся стран, занимая 113-ое место в мире по продолжительности жизни мужчин и 90-ое - для женщин.
Вместе с тем, по официальным данным, в России насчитывается как минимум вдвое меньше инвалидов, чем в странах, придерживающихся близких критериев в определении этого понятия. Характерно, что среди российских инвалидов 4/5 составляют лица практически полностью утратившие трудоспособность (1 и 2 группы инвалидности), тогда как в цивилизованных странах соотношение тяжелых и легких инвалидов обратное.
Кроме того, ухудшение здоровья населения России проявляется прежде всего в росте смертности, тогда как инвалидизация остается относительно стабильной. В отличие от экономически развитых стран структура потерь здоровья населения России носит преимущественно безвозвратный характер.
В прогностическом плане очевидно, что число людей с ограниченной трудоспособностью будет расти, тогда как учтенная инвалидизация будет отставать. То есть динамика здоровья населения по-прежнему будет характеризоваться динамикой смертности, тогда как социально контролируемые характеристики (инвалидность) окажутся менее подвижны.
Вместе с тем, некоторая динамика инвалидизации будет сопровождаться ее структурными изменениями.
Концептуальная конкретизация параметров прогноза во многом зависит от принятой позиции в отношении плохо формализуемых субъективных обстоятельств.
Коридор возможных сценариев в ближайшей перспективе определяется, видимо, двумя основными процессами.
Первый - это стремительный рост экономического компонента мотивации обращения за медицинской помощью. Обычно мы обращаем внимание лишь на сокращение числа обращений в связи с боязнью лишиться работы и т.д.
Однако этот этап уже закончился и статистика свидетельствует о возвращении тенденции роста заболеваемости.
Причины этого различны, но тенденция носит не коньюнктурный, а долгосрочный характер. О том, что существуют и другие аспекты, свидетельствует опыт стран, раньше нас столкнувшихся с проблемами здоровья населения в период реформ. Новый феномен был обозначен термином экономическая инвалидность".
Суть этого понятия состоит в том, что в качестве причины инвалидности, понимаемой как стойкая утрата трудоспособности, выступила не объективная тяжесть заболевания, а неспособность значительного числа лиц с пограничными состояниями найти свое место в новых экономических условиях. Можно себе представить, что аналогичная мотивация будет влиять на рост числа госпитализаций одиноких, пожилых, экономически несостоятельных людей, объективно не нуждающихся в госпитализации. Та же аргументация справедлива и в отношении обращения за инвалидностью. Таким образом, речь идет о попытках переложить на медико-социальные службы дополнительные функции социальной защиты.
Усиление экономической мотивации приведет к существенному росту спроса на медицинские услуги.
Методические проблемы Достоинства и ограничения классических экономико-статистических моделей
Применение экономико-статистических моделей в практическом социально-экономическом исследовании сталкивается с серьезными затруднениями. Оно обусловлено тем, что при использовании классических подходов трудно обеспечить адекватность модели изучаемому процессу.
Формальные критерии адекватности модели определить заранее крайне трудно, особенно для случая прогнозирования. Наиболее часто для решения этого вопроса пользуются ретроспективной проверкой точности модели. В конечном счете главным критерием адекватности созданной модели является практика. Вопрос применимости некоторой модели к описанию социально-экономической системы не является чисто математическим, он должен решаться в рамках конкретной задачи, для которой строится модель.
Оценку адекватности экономико-статистической модели никогда нельзя считать абсолютной. Установить условия ее применимости и наметить пути уточнения модели в тех случаях, когда эти условия перестают выполняться, позволяет анализ практики приложения моделей. Вторая задача оценки адекватности связана с типичностью ситуации, при которой одну и ту же задачу можно решить с помощью разных видов моделей.
В этих случаях возникает необходимость сравнения моделей между собой и выбора из них наиболее простой, обеспечивающей в то же время необходимую точность результатов.
Уровень адекватности модели определяется на всех этапах ее построения: при постановке задачи, разработке содержательной концепции о структуре и динамике изучаемого процесса, при формировании исходной совокупности признаков и в самом процессе конструирования модели.
Одна из основных причин нарушения требования адекватности на этапе построения модели - несоответствие условий и посылок классического аппарата теории вероятностей и математической статистики специфике экономических процессов. Теория вероятностей и математическая статистика разрабатывались для исследования природных явлений, и ряд их постулатов не выполняется в реальных экономических задачах.
Рассмотрим эти положения для наиболее распространенного типа экономико-статистической модели - уравнения линейной множественной регрессии. Для того чтобы модели подобного типа адекватно описывали изучаемое явление или процесс, необходимо соблюдение целого ряда содержательных и формальных требований к исходной информации. К основным содержательным требованиям относятся (7):
однородность совокупности;
устойчивость структуры совокупности и зависимостей во времени;
возможность описания моделируемого объекта одной или несколькими не связанными в систему регрессиями;
количественное измерение всех показателей;
достаточный объем выборки;
линейная или приводимая к линейной форма связи;
отсутствие априорных ограничений на параметры модели;
постоянство структуры модели во времени.
Среди формальных условий важнейшими являются:
отсутствие линейной корреляции среди входных переменных;
отсутствие ошибок измерения входных переменных.
Для реальных экономических данных эти предпосылки полностью не удовлетворяются, имеет место большее или меньшее отступление от них. В зависимости от цели построения модели невыполнение всех или некоторых предпосылок влечет за собой различные последствия.
В одних случаях построенная модель, даже при нарушении предпосылок, может иметь практическое значение, в других - нарушение предпосылок приводит к результатам трудно интерпретируемым, а зачастую и абсурдным.
Рассмотрим наиболее важные причины и следствия нарушения основных содержательных и формальных условий адекватности классической регрессионной модели изучаемому экономическому явлению.
Весьма существенной причиной, вызывающей нарушение адекватности моделей реальным процессам, является использование жестких фиксированных конструкций моделей для описания всей совокупности. Между тем, для экономических явлений характерна изменчивость, нестабильность структуры влияния как в пространстве, так и во времени. Анализ показывает, что совокупности объектов большинства экономических систем даже в фиксированный момент неоднородны, они распадаются на ряд подсовокупностей, имеющих свой специфический характер зависимости экономических показателей от влияющих факторов.
Еще большую изменчивость претерпевает структура влияния в динамике.
При рассмотрении таких изменений как структура модели (набор переменных) и параметры модели (коэффициенты при переменных), обычно изучается поведение параметров модели во времени при фиксированной структуре. Однако факт существования пространственной и временной неоднородности в статистических совокупностях определяет настоятельную необходимость поиска способов учета этого обстоятельства при построении модели.
Неадекватность модели часто может возникнуть из-за того, что при оценке ее параметров с использованием классических процедур не предусматривается наличие априорных ограничений на значение параметров и допустимые комбинации переменных. Для отдельных переменных или оцениваемых коэффициентов могут быть сформулированы некоторые ограничения как на основе содержательного анализа социально-экономических процессов, так и исходя из здравого смысла.
Актуальность этих проблем возрастает при построении многофакторных моделей. При увеличении числа факторов в модели возрастает вероятность того, что хотя бы при одном из них значение коэффициента примет знак, не соответствующий теоретическим предпосылкам.
В этом случае модель носит формальный характер, не отражая истинной взаимосвязи экономических показателей. Она годится лишь для аппроксимации на исследуемый период, по данным которого ее строили, и не пригодна для прогнозов и экстраполяции на будущее.
Для экономических совокупностей характерен малый объем выборки. Для пространственных выборок это связано с относительно небольшим числом объектов в генеральной совокупности или с неоднородностью рассматриваемых наблюдений. Для временных рядов причиной ограниченности выборки зачастую является подвижность социально-экономических процессов, их изменчивость во времени. В силу этого приходится ограничиваться короткими рядами.
Количество информации в выборке заданного объема неразрывно связано с возможностью достижения вполне определенной точности и достоверности оценок.
Экономико-статистическое моделирование на базе классической схемы регрессионного анализа преимущественно сводится к построению одного регрессионного уравнения или, реже, к построению не связанных в единую модель нескольких регрессий, каждая из которых оценивается независимо друг от друга. В результате сам моделируемый объект рассматривается как простая сумма регрессионных зависимостей.
Однако в экономической науке укрепилось понимание модели объекта как определенной системы взаимосвязанных соотношений, каждое из которых описывает наиболее существенные стороны его функционирования. Таким образом, необходим системный подход к моделированию, учитывающий, что почти всегда моделируемый объект описывается не одним, а системой показателей, между которыми, как правило, имеются весьма существенные связи.
Коротко остановимся на последствиях несоблюдения основных формальных условий применимости метода наименьших квадратов для оценивания параметров экономико-статистических моделей.
Экономические данные очень часто содержат различного рода погрешности, вытекающие из самой природы данных, различного рода их агрегирования и способов их получения. Если эти погрешности незначительны по сравнению с величинами независимых переменных, то при проведении регрессионного анализа ими можно пренебречь. Наличие значительных погрешностей приводит к искажению коэффициентов корреляции и регрессии. Пока не найдены удовлетворительные пути преодоления влияния ошибок наблюдений в переменных, характерезующих экономические показатели.
В этом случае при статистической оценке как самого уравнения регрессии, так и его параметров, значительную роль должен играть качественный, содержательный анализ.
Нарушение условия независимости входных переменных приводит к возникновению явления мультиколлинеарности, которое представляет собой одну из самых сложных проблем статистического исследования зависимостей. Под мультиколлинеарностью понимается наличие сильной корреляции между независимыми переменными, входящими в уравнение регрессии.
Присутствие этого эффекта затрудняет проведение анализа (усложняется процесс выделения наиболее существенных факторов), искажает смысл коэффициентов регрессии при попытке их экономической интерпретации.
Анализ признакового пространства
Построение и использование экономико-статистической модели во многом зависит от описания экономической сущности решаемой задачи. Этот этап в практике экономико-статистического моделирования получил название априорного анализа пространства признаков. Основными моментами этого этапа являются:
1. Формирование признакового пространства;
2. Анализ структурных связей переменных и их формализация;
3. Сужение круга переменных, отбор существенных факторов для моделирования.
Рассмотрим каждый из этапов подробнее.
Формирование признакового пространства, в свою очередь, складывается из решения нескольких подзадач.
Первая из них - априорная оценка информативности признаков. Сбор информации связан с большими затратами времени, сил и средств.
Кроме того, для многих экономических исследований типична ситуация, когда общее число единиц совокупности ограничено. Поэтому на практике число учитываемых характеристик значительно меньше, чем хотелось бы исследователю по его первоначальной гипотезе.
Для решения задачи априорной оценки информативности признаков может быть использован обобщенный опыт специалистов. В частности, одной из форм обобщения коллективного мнения специалистов может быть анкетный опрос. С помощью такого опроса выявляются оценки значимости факторов и на их основе устанавливаются критерии, по которым следует вести сбор информации.
Материалы опроса могут оказаться полезными и на других этапах экономико-статистического исследования, например, при определении очередности введения переменных в модель. Организация экспертного опроса, анализ полученных результатов и их интерпретация - это самостоятельные научные проблемы, которые здесь не рассматриваются.
Еще одна форма обобщения коллективного опыта - аналитический обзор литературы по интересующей проблеме.
Следующей задачей является формирование информационного массива (8). На стадии формирования информационного массива можно выделить два основных относительно независимых момента: определение списка исследуемых переменных (списка признаков), то есть определение профиля исследуемого явления; определение объектов наблюдения как в смысле уровня наблюдений или уровня агрегирования исходных данных, так и в смысле широты охвата, то есть списка объектов.
Обе задачи должны решаться в точном соответствии с целью исследования, так как результаты всей работы в очень большой степени предопределяются именно на стадии отбора признаков и объектов.
Набор признаков должен включать те из них, которые несут самую существенную информацию об исследуемом явлении. При отборе признаков исследователь в неявной форме производит взвешивание различных характеристик явления: наиболее существенные свойства или характеристики, как правило, представлены в исследуемом наборе наибольшим числом признаков.
Весьма часто при формировании исходного массива информации приходится считаться с доступностью информации. По этой причине анализируются не те признаки и объекты, включение которых представляется желательным, а те, которые доступны исследователю и лишь косвенно отражают интересующий нас признак. В таких случаях необходимо попытаться заранее оценить влияние вынужденного искажения профиля или единиц наблюдения.
Следует ответить на вопрос: отражает ли искаженный профиль изучаемое явление с достаточной степенью приближения.
Не всегда принятый в статистике или поддающийся непосредственному измерению показатель адекватно отражает то или иное свойство, интересующее исследователя. Если адекватность вызывает сомнение, целесообразно привлечь несколько дополнительных показателей, отображающих изучаемую исследователем характеристику с разных сторон.
Важным критерием отбора является точность. Следует оценить точность анализируемых данных и сопоставить ее с допустимой величиной ошибки.
Важно учитывать надежность и сопоставимость: совпадают ли определения признаков и отражаемых ими свойств для различных наблюдений, то есть не изменяется ли содержание признаков от объекта к объекту. Изложенное подчеркивает важность строгого содержательного отбора показателей.
При формировании исходного информационного массива необходимо определить тот уровень агрегирования данных - уровень наблюдений, на котором будет осуществляться сопоставление признаков.
Полученные выводы, как правило, действительны для определенного уровня агрегирования и не могут без специального обоснования распространяться на другие уровни. В зависимости от выбранного уровня наблюдения могут быть получены диаметрально противоположные выводы.
Следующим этапом определения информационной среды исследования является задача преобразования матрицы данных с целью изменения характера эмпирического распределения для приведения его в соответствие с целью исследования. Чаще всего таким образом пытаются ослабить влияние экстремальных значений признаков на результаты расчетов, компенсировать влияние возможных ошибок в исходных данных, сделать сопоставимыми изменения значений признаков на разных участках шкалы его значений.
Это сводится к решению следующих проблем.
? Влияние характера распределения на результаты расчетов весьма велико. В социально-экономических исследованиях преобладают ряды, имеющие правую скошенность (резкий спад частот с ростом значений признака). При работе с такими распределениями часто переходят к логарифмической шкале. Переход от xj к

уменьшает интервалы по мере роста значений xj.
В результате становится возможным исследование сильно различающихся по масштабу данных в одной задаче.
? Как правило, признаки, отобранные исследователем для всестороннего описания того или иного явления, имеют различную размерность, а потому и различные единицы масштаба. Чтобы устранить влияние размерности и сопоставлять признаки, матрицу исходных данных обычно нормируют, вводя единый для всех признаков масштаб.
? Для учета качественной априорной информации об исследуемых данных, непосредственно в исходной матрице не содержащейся, используют специальные преобразования. К таким преобразованиям относятся различные способы пополнения исходной матрицы данных производными параметрами.
Часто в качестве новых параметров фигурируют отношения некоторых из исходных параметров или отношения сумм одних из исходных параметров к суммам других.
Анализ структуры причинно-следственных связей (7) является важным этапом экономико-статистического моделирования.
Даже в случае неполной информации о логике поведения моделируемого процесса практически всегда могут быть высказаны некоторые профессиональные соображения о характере и направлении связей.
Необходимость поиска методов априорного анализа связей в первую очередь вызвана тем, что связи признаков, описывающих процесс функционирования реального объекта, всегда имеют определенную структуру и ориентацию. Одним из способов решения данной проблемы является использование аппарата теории графов (8).
Известно, что первоначальный набор переменных весьма избыточен.
Корреляционная матрица
| фак- |
инва- |
F_2 |
F_9 |
F_10 |
F_15 |
F_26 |
F_37 |
F_39 |
F_40 |
F_41 |
F_44 |
F_56 |
F_57 |
F_59 |
F_71 |
F_72 |
| торы |
лиды |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1992 |
1993 |
-0,42 |
-0,44 |
0,00 |
-0,24 |
-0,26 |
-0,38 |
0,00 |
-0,24 |
0,00 |
0,00 |
0,00 |
0,44 |
0,00 |
0,00 |
0,33 |
| 1993 |
1994 |
-0,50 |
-0,51 |
0,00 |
0,00 |
-0,31 |
-0,30 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,41 |
0,00 |
0,00 |
0,00 |
| 1994 |
1995 |
-0,43 |
-0,45 |
0,00 |
0,00 |
- |
- |
-0,24 |
0,00 |
0,00 |
0,00 |
0,00 |
0,38 |
0,00 |
0,00 |
0,00 |
?с лагом 2:
| фак- |
инва- |
F_2 |
F_9 |
F_10 |
F_15 |
F_26 |
F_37 |
F_39 |
F_40 |
F_41 |
F_44 |
F_56 |
F_57 |
F_59 |
F_71 |
F_72 |
| торы |
лиды |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1992 |
1994 |
-0,50 |
-0,48 |
0,00 |
-0,26 |
-0,26 |
-0,38 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,37 |
-0,23 |
|
0,00 |
| 1993 |
1995 |
-0,43 |
-0,44 |
0,00 |
0,00 |
-0,27 |
-0,25 |
0,00 |
0,00 |
0,00 |
0,00 |
0,00 |
0,43 |
0,00 |
0,00 |
|
Анализ коэффициентов корреляции позволят выделить следующие внешние факторы-претенденты на включение в уравнение регрессии: F_2, F_9, F_26, F_37, F_57.
Из этих внешних факторов нужно исключить сильно коррелирующие между собой. Корреляционная матрица для них имеет вид:
|
F_2 |
F_9 |
F_15 |
F_26 |
F_37 |
F_39 |
F_40 |
F_41 |
F_44 |
F_56 |
F_57 |
F_59 |
F_71 |
| F_2 |
1,00 |
|
|
|
|
|
|
|
|
|
|
|
|
| F_9 |
0,46 |
1,00 |
|
|
|
|
|
|
|
|
|
|
|
| F_15 |
-0,46 |
-0,24 |
1,00 |
|
|
|
|
|
|
|
|
|
|
| F_26 |
0,48 |
-0,04 |
-0,64 |
1,00 |
|
|
|
|
|
|
|
|
|
| F_37 |
-0,50 |
-0,18 |
0,53 |
-0,69 |
1,00 |
|
|
|
|
|
|
|
|
| F_39 |
-0,43 |
-0,22 |
0,34 |
-0,36 |
0,28 |
1,00 |
|
|
|
|
|
|
|
| F_40 |
0,09 |
0,02 |
0,01 |
0,12 |
-0,05 |
-0,12 |
1,00 |
|
|
|
|
|
|
| F_41 |
0,17 |
0,20 |
-0,20 |
0,15 |
-0,08 |
0,00 |
0,03 |
1,00 |
|
|
|
|
|
| F_44 |
-0,05 |
0,08 |
0,01 |
-0,03 |
0,02 |
0,01 |
0,07 |
0,16 |
1,00 |
|
|
|
|
| F_56 |
0,04 |
0,03 |
-0,06 |
0,24 |
-0,09 |
-0,06 |
-0,04 |
0,10 |
0,05 |
1,00 |
|
|
|
| F_57 |
-0,01 |
0,06 |
0,09 |
-0,08 |
-0,11 |
-0,16 |
0,17 |
0,14 |
0,09 |
-0,02 |
1,00 |
|
|
| F_59 |
0,25 |
0,11 |
-0,12 |
0,15 |
-0,33 |
-0,34 |
0,15 |
0,07 |
0,03 |
-0,15 |
0,27 |
1,00 |
|
| F_71 |
0,03 |
-0,06 |
0,08 |
0,12 |
0,04 |
-0,08 |
0,28 |
0,03 |
0,06 |
0,01 |
0,35 |
-0,10 |
1,00 |
| F_72 |
-0,39 |
-0,08 |
0,17 |
-0,33 |
0,27 |
0,31 |
-0,31 |
-0,01 |
0,03 |
-0,13 |
-0,05 |
-0,16 |
-0,26 |
Анализ этой матрицы показывает, что имеет смысл оставить факторы F_9, F_57, а из остальных факторов - только один, так как они сильно коррелируют между собой.
Этап 2. Построение первоначальной регрессионной модели.
Уравнение регрессии ищется в виде:

Момент времени t соответствует 1994 году, а (t-1) - 1993 году. По методу наименьших квадратов получены следующие значения коэффициентов регрессии:
|
Коэффициенты |
Стандартная ошибка |
| Свободный член |
2,518331 |
0,807525 |
| y(t-1) |
0,623338 |
0,065276 |
| F_2 |
-0,01565 |
0,007639 |
| F_9 |
-0,15978 |
0,098367 |
| F_57 |
0,002848 |
0,005017 |
Статистический анализ полученной регрессии:
|
df |
SS |
MS |
F |
Значимость F |
| Регрессия |
6 |
74,21074 |
12,36846 |
36,95291 |
1,49E-19 |
| Остаток |
68 |
22,76019 |
0,334709 |
|
|
| Итого |
74 |
96,97093 |
|
|
|
Таким образом, большая часть дисперсии рассматриваемого показателя инвалидности по пространственной выборке объясняется линией регрессии (SS регрессии SS остатка). Полученную зависимость следует признать значимой.
Этап 3. Модификация полученного уравнения регрессии осуществляется на основе анализа полученных коэффициентов и с учетом взаимных корреляций внешних факторов. В результате в уравнение регрессии включаются факторы: F_57 и F_9. Регрессионный анализ дает новую модель:
|
Коэффициенты |
Стандартная ошибка |
| Свободный член |
1,704855 |
0,699168 |
| y(t-1) |
0,635231 |
0,064368 |
| F_9 |
-0,20933 |
0,079657 |
| F_57 |
0,004427 |
0,004869 |
Статистический анализ вновь полученной регрессии:
|
df |
SS |
MS |
F |
Значимость F |
| Регрессия |
3 |
72,76425 |
24,25475 |
71,14099 |
2,37E-21 |
| Остаток |
71 |
24,20668 |
0,340939 |
|
|
| Итого |
74 |
96,97093 |
|
|
|
Анализ остатков показывает незначительное уменьшение доли дисперсии (с 74,21 до 72,76), объясняемой регрессией. Однако по-прежнему SS регрессии SS остатка и полученную зависимость следует признать удовлетворительной.
Реальные и прогнозируемые значения показателей инвалидности для рассматриваемых районов РФ приведены на графике в приложении 5.
Итак, на первом этапе построения математической модели были изучены взаимосвязи показателей инвалидности с внешними факторами. С целью построения модели прогнозирования на год вперед прежде всего была рассмотрена взаимосвязь с лаговым интервалом в один год. В качестве исходных данных были взяты значения показателей инвалидности за 1993 год и значения внешних факторов за 1992 год по 79-ти районам Российской Федерации. Для выявления величины взаимосвязи были рассчитаны парные коэффициенты корреляции, чтобы представить как увеличение или уменьшение значений внешних факторов связано с увеличением или уменьшением рассматриваемых показателей инвалидности.
Однако большие значения коэффициентов корреляции еще не говорят о наличии причинно-следственной связи. Они могут быть обусловлены одинаковым влиянием неучтенных факторов как на показатель инвалидности, так и на внешний фактор.
Интерпретацию полученных коэффициентов корреляции может сделать только специалист, углублено занимающийся проблемой инвалидности.
Аналогично были получены парные коэффициенты корреляции для других лаговых интервалов.
На основе рассчитанных показателей была предложена математическая модель прогноза в виде корреляционно-регрессионных зависимостей.
АНАЛИЗ РЕЗУЛЬТАТА ВЕРИФИКАЦИИ МОДЕЛИ
Любая предлагаемая математическая модель должна быть адекватна изучаемому явлению. Это основное условие эффективного применения статистической модели. В данном случае адекватность - не отражение в модели всех деталей описываемого явления, а принципиальное соответствие результатов моделирования изменениям и соотношениям, имеющим место в действительности.
Для проверки адекватности модели производят верификацию модели на данных, не используемых при построении модели.
Процесс построения модели для прогнозирования всегда основан на анализе исходных данных, так как прогностическая модель должна адекватно отражать закономерности, присущие реальным процессам.
Таким образом, этапы построения математической модели для прогноза и верификация реальных данных должны выполняться параллельно. На рис.
2 приведены основные этапы, связанные с верификацией реальных данных и построением математической модели.
Выполненная верификация реальных статистических данных при построении прогностической математической модели заключалась в следующем.
1. Исследована возможность построения прогноза показателей инвалидности с помощью линейного тренда. Исследование показало, что такое описание динамики удовлетворительно не более чем для 10% районов.
В остальных районах линейный тренд оказался незначимым: дисперсия, объясняемая с помощью линейного тренда, оказалась меньше дисперсии, связанной с отклонениями от тренда.
2. С целью выяснения применимости тех или иных статистических процедур изучены законы распределения временных рядов с показателями инвалидности. Анализ реальных данных показал, что их законы распределения в основном отличны от нормального и за редким исключением могут быть хорошо описаны логнормальным распределением. Гистограммы, построенные по реальным данным для нескольких показателей инвалидности, приведены в приложении 2.
Рис.2 Этапы построения математической модели
3. Аналогично исследованы законы распределения внешних факторов. Анализ реальных статистических данных за 1992 год показал, что их законы распределения могут быть приближены либо нормальным, либо логнормальным распределениями.
Однако для внешних факторов характер распределения является менее выраженным и во многих случаях приближение тем или иным законом распределения является спорным. Примеры гистограмм для нескольких внешних факторов приведены в приложении 4.
4. Исследовано, являются ли имеющиеся временные ряды стационарными, то есть наблюдается ли изменение во времени таких характеристик как математическое ожидание, дисперсия, мода, медиана, эксцесс, асимметрия. Анализ реальных данных по показателям инвалидности за 1992, 1993 и 1994 годы показал, что эти временные ряды следует в целом считать нестационарными. При этом в соседние годы изменение характеристик незначительно.
Поэтому на коротких временных отрезках (порядка 3-х лет) изучаемые временные ряды можно с известной долей приближения рассматривать как стационарные.
5. По реальным рядам динамики (показатели инвалидности) частично исследовано поведение автокорреляции. Анализ статистических данных за 1992 - 1994 годы показал, что корреляции между соседними точками для всех показателей инвалидности выше для интервала 1994-1993 гг., чем для интервала 1993-1992 гг. Однако эта разница не
превышает 0.1.
6. По реальным данным изучена взаимосвязь показателей инвалидности (за 1992, 1993 и 1994 годы) и внешних факторов (за 1992 год). Было выявлено, что каждый показатель инвалидности коррелирует с большим числом внешних факторов, причем коэффициенты корреляции при этом редко превышают 0.5.
Кроме того было установлено, что степень взаимосвязи факторов с показателями инвалидности во времени для разных факторов изменяется по-разному.
7. По реальным значениям внешних факторов (за 1992 год) изучен характер взаимосвязи внешних факторов между собой. Внешние факторы, коэффициент корреляции которых превышает 0.07, можно считать коллинеарными и в модели использовать только один фактор из каждой такой пары.
Рассмотренный корреляционно-регрессионный подход к решению задачи прогнозирования инвалидности может дать удовле-творительное качество прогноза по большинству регионов только в случае унимодального характера распределений по пространственным выборкам как показателей инвалидности, так и внешних факторов. Следует отметить, что качество прогноза тем не менее существенно снижается для небольшой группы регионов, в которых значения используемых показателей сильно отличаются от остальных регионов.
Поэтому можно сказать, что область применения классической экономико-статистической модели ограничивается однородными пространственными выборками.
Кроме того, классическая экономико-статистическая модель не учитывает случай, когда можно выделить несколько групп регионов со сходными значениями показателей инвалидности и (или) внешних факторов внутри каждой группы и значимыми отличиями между группами. Тем более ситуация усложняется, если с течением времени наблюдается картина перехода отдельных регионов из одной группы в другую.
В этом случае потребуется разработка более сложной прогнозной модели, основанной на методах классификации.
МЕТОДИКА ПРОГНОЗИРОВАНИЯ ИНВАЛИДНОСТИ
Построение прогноза показателей инвалидности по территориям РФ можно реализовать с использованием системы Excel for WINDOWS. Ниже представлен сценарий построения прогноза.
1. Подготовка исходных данных.
? Ввести исходные данные по рассматриваемому показателю
инвалидности:
столбец 1 - номер территории РФ,
столбец 2 - значение показателя инвалидности.
За каждый год данные вводятся на отдельном листе рабочей книги Excel.
? Ввести исходные данные по имеющимся факторам:
столбец 1 - номер территории РФ,
каждый из последующих столбцов - для очередного внешнего
фактора.
За каждый год данные вводятся на отдельном листе рабочей книги Excel.
Все данные должны быть приведены для одних и тех же территорий РФ: лишние территории (строки таблиц) удаляются. Порядок перечисления территорий во всех таблицах должен быть одинаковым.
2. Выделение внешних факторов, связанных с рассматриваемым показателем инвалидности.
? Рассчитать парные коэффициенты корреляции между показателем инвалидности за текущий год и внешними факторами за последние годы (с разными лагами). Полученные коэффициенты корреляции целесообразно свести в общую таблицу (см. пример выше).
? В качестве факторов, имеющих устойчивую взаимосвязь с рассматриваемым показателем инвалидности, выделить имеющие значимые коэффициенты корреляции для разных лагов. Выделенные факторы - претенденты на включение в регрессионную модель.
3. Расчет парных коэффициентов корреляции, соответствующих "лишних" факторов и показателей инвалидности за текущий год в случае нестабильной временной структуры внешних факторов (по некоторым факторам отсутствуют данные за отдельные периоды времени).
Претендентами на включение в регрессионную модель считать факторы с коэффициентами корреляции, превышающими 0.3. Включение должно осуществляться с соответствующим лагом (f(t-2), f(t-3) и т.п.).
4. Выявление взаимосвязи для "лишних" факторов - претендентов на включение в уравнение регрессии с остальными факторами в период времени, за который эти факторы предполагается включить в уравнение регрессии.
Рассчитать матрицу взаимных парных коэффициентов корреляции между всеми факторами за соответствующий год. Если факторы-претенденты значимо коррелируют (коэффициенты корреляции превышают 0.5) с факторами, включаемыми в уравнение регрессии на предыдущих шагах, их следует исключить из числа претендентов.
5. Выделение факторов, сильно коррелирующих друг с другом.
Вычислить взаимные коэффициенты корреляции между факторами за каждый из рассматриваемых годов. Сильно взаимосвязанные факторы - с коэффициентами корреляции, превышающими 0.5.
Из каждой полученной группы взаимосвязанных факторов в итоговую регрессионную модель может быть включен только один фактор.
6. Формирование исходных данных для оценивания параметров регрессии.
Осуществить на отдельном рабочем листе Excel после определения факторов-претендентов. Данные целесообразно представить в виде:
столбец 1 - номер района;
столбец 2 - значение показателя инвалидности за текущий год (y(t)) играет роль отклика;
столбец 3 - значение показателя инвалидности за предыдущий год (y(t-1));
остальные столбцы - значения отобранных факторов с соответствующими лагами.
7. Анализ параметров уравнения регрессии.
В Excel для этого следует использовать режим "Сервис"-"Анализ данных"-"Регрессия". Если в меню "Сервис" отсутствует "Анализ данных", его можно подключить в режиме "Сервис"-"Дополнения"-"Пакет анализа". Выбрав режим "Регрессия", необходимо задать следующие параметры:
"Входной интервал Y" - вводится или выделяется диапазон ячеек, содержащий значения откликов (значения показателя инвалидности за текущий год);
"Входной интервал X" - вводится или выделяется диапазон ячеек, содержащий значения независимых переменных: показателя инвалидности за предыдущий год y(t-1) и все включаемые в уравнение факторы;
"Метки" - помечается, если в заданные перед этим диапазоны ячеек попали ячейки с заголовками столбцов (целесообразно осуществлять для более легкой читаемости результатов);
"Параметры вывода" - целесообразно задать "Новый рабочий лист" (в этом случае результаты регрессионного анализа будут представлены на отдельном рабочем листе);
"Остатки" - помечаются "Остатки" и "Стандартизованные остатки";
остальные параметры необязательны.
Может представлять интерес задание "Уровня надежности" в процентах. В этом случае будут получены доверительные интервалы для параметров регрессии не только с надежностью 95% (по правилу умолчания), но и с заданной.
8. Анализ таблицы дисперсионного анализа (ANOVA) (1).
Полученную регрессию следует считать значимой, если сумма квадратов отклонений относительно среднего SS, обусловленная регрессией, будет много больше, чем SS относительно регрессии (остаток), или, что аналогично, Rквадрат близок к значению 1. Средний квадрат относительно регрессии (MS остатка) дает оценку дисперсии регрессии. Множественный коэффициент корреляции Rквадрат определяет значение корреляции между истинным значением оцениваемого показателя инвалидности (откликом) и предсказанным значением показателя инвалидности по регрессии.
9. Возможное исключение незначимых факторов из уравнения регрессии. Пересчет параметров итоговой регрессии.
10. Получение прогноза значения показателя инвалидности на следующий год y(t+1) по всем регионам.
В полученное уравнение регрессии для каждого региона следует подставить соответствующие значения показателя инвалидности и внешних факторов, взятые со сдвигом на один год вперед.
КОНЦЕПЦИЯ ПРОГНОЗА ПЕРВИЧНОГО ВЫХОДА
НА ИНВАЛИДНОСТЬ
В настоящее время как статус, так и прогнозы инвалидизации населения в решающей мере определяются и будут определяться какое-то время социально-экономическими условиями. Формального прогноза социально-экономического развития в России не существует.
Это определяет необходимость гибкого сочетания формального прогнозирования с интуитивным, концептуальным, экспертным прогнозом.
Предпрогнозная ориентация
Эндогенная ситуация
В долгосрочной динамике первичной инвалидизации населения отчетливо выделяется три этапа.
Первый - с 1980 по 1989 г. включительно, когда показатель инвалидности был относительно стабилен и на этом фоне отмечались всплески коньюнктурного характера, принципиально не менявшие общей
ситуации.
Второй этап, начавшийся в 1990 г. и продолжавшийся до 1992 г., - этап стремительного роста первичной инвалидизации - на 46,4% за три года. Рост инвалидизации был практически целиком стимулирован перекосами пенсионного законодательства и введением дополнительных льгот для инвалидов.
Таким образом, рост инвалидности не имел отношения к динамике других показателей здоровья, в частности смертности.
С 1993 г. наступил третий этап, фактически означающий возвращение к прежней тенденции, то есть к отсутствию систематической динамики инвалидности.
Региональная группировка территорий РФ по уровню инвалидизации выглядит следующим образом. Группа с низким уровнем формируется в основном за счет национальных республик и территорий с молодой структурой населения, расположенных, как правило, на европейском и азиатском Севере. Группа со стабильно высоким уровнем - это столичные города (Москва и Санкт-Петербург).
Среднюю, наиболее многочисленную группу образуют территории европейской части России, а также преимущественно русские регионы Северного Кавказа, Урала и Сибири с относительно стабильным населением и нормальной (для России) поло-возрастной структурой населения.
Структурно причина первичного выхода на инвалидность выглядит следующим образом. Половина всей первичной инвалидизации населения обусловлена болезнями системы кровообращения.
В пять раз менее значимы злокачественные новообразования. Третье, четвертое и пятое места занимают соответственно травматизм и отравления, болезни нервной системы и органов чувств, психические расстройства. Эти пять классов причин обусловливают 80% всей первичной инвалидизации
населения.
Среди новых инвалидов 12% имеют 1 группу, порядка 72% - 2 группу, соответственно 16% инвалидов имеют 3 группу. Инвалидность первой группы в двух из трех случаев определяется болезнями системы кровообращения и злокачественными новообразованиями.
Значимость всех других причин несопоставимо меньше. Структура инвалидности 3-ей группы значительно более пестрая.
Наряду с болезнями системы кровообращения, на долю которых приходится почти третья часть новых инвалидов этой группы, еще три класса причин вносят существенный вклад: травмы и отравления, болезни нервной системы, болезни костно-мышечной системы.
Среди новых инвалидов четвертая часть - это лица в возрасте не старше 45-50 лет. Еще около 20% инвалидов дает последнее предпенсионное десятилетие. Таким образом, более половины новых инвалидов - это пожилые люди. Главными причинами инвалидности молодых людей являются травмы и отравления, а также психические расстройства.
В предпенсионном возрасте на первые места выходят болезни системы кровообращения и новообразования. У пожилых главной и, пожалуй, единственной причиной инвалидности становятся болезни системы кровообращения.
Структурно инвалидность городских и сельских жителей довольно близка. Различие только в возрастной структуре новых инвалидов, связанное, с одной стороны, с различиями возрастно-половой структуры городского и сельского населения, с другой - с тем обстоятельством, что в селе выше инвалидность молодых людей, а в городе - пожилых.
В связи с тем, что система учета инвалидности за последние несколько лет дважды претерпела принципиальные изменения, отсутствует возможность оценить сдвиги в структурных характеристиках инвалидности по мере изменения масштабов этого явления.
Экзогенная ситуация
Анализ и прогноз инвалидности как сложного системного феномена означает, что мы рассматриваем инвалидность как одну из характеристик здоровья населения во всем многообразии действующих на нее факторов, что принципиально отличается от привычного подхода к оценке инвалидизации населения как характеристике работы службы ВТЭК.
По данным экспертов Всемирной организации здравоохранения, специфическими факторами, которые влияют и будут влиять на будущую пропорцию инвалидов в мире, являются пять групп факторов:
изменения в возрастной структуре населения;
изменения в структуре заболеваемости и смертности;
изменения в развитии служб здравоохранения;
рост урбанизации;
развитие индустриализации.
Было выявлено, что в 54,7% случаев наступление инвалидности в основном обусловлено быстрым проградиентным течением хронического заболевания и в 41,6% случаев - влиянием неблагоприятных факторов.
В инвалидизации населения активного трудоспособного возраста наибольшее значение имеют следующие конкретные факторы риска:
неблагоприятные условия жизнеобеспечения людей, наличие хронических стрессовых ситуаций, напряженность во взаимоотношениях в семье, плохие жилищно-бытовые и материальные условия, а также вредные привычки (гипо- и адинамия, ожирение, гипертензия);
неудовлетворительные условия производственной среды (вредные производственные факторы, высокое нервно-эмоциональное и физическое напряжение в ходе выполняемой работы, неблагоустроенное рабочее место, вынужденная рабочая поза, неудобная сменность работы, плохие санитарно-гигиенические условия);
некачественное медицинское обслуживание (несвоевременное выявление заболевания, ошибки в диагностике, несвоевременное и неадекватное лечение, отсутствие диспансерного наблюдения до определения группы инвалидности, отсутствие или некачественное проведение профосмотров и динамического наблюдения за инвалидами);
Методы динамизации пространственных моделей
Возможны и другие способы решения данной задачи.
Принципиально другой подход к проверке гипотезы устойчивости основан на анализе поведения параметров пространственных моделей во времени. Может исследоваться устойчивость модели в целом и устойчивость ее отдельных элементов.
В качестве критерия общей устойчивости моделей принимается разность оценки моделируемого показателя по моделям прошлого и своего периодов. В случае, когда разность не выходит за пределы двух-трех среднеквадратичных отклонений, модель считается в целом устойчивой, а если к тому же степень потери точности находится в допустимых пределах, то модель прошлого периода в целом может выступать как прогностическая.
Это утверждение относится лишь к прогнозированию уровня моделируемого показателя, но не к характеру влияния факторов. Более обоснован путь анализа устойчивости отдельных элементов моделей. В него входят (в порядке ужесточения требований) оценки устойчивости:
а) структуры пространственных моделей (то есть набора информативных переменных) и их совокупного влияния на моделируемый показатель;
б) соотношений по степени влияния отдельных факторов;
в) абсолютных значений свободного члена и коэффициентов регрессий.
Способ решения первой задачи сравнительно прост. Для каждого из пространственных уравнений регрессии независимо определяется набор информативных переменных и рассчитываются коэффициенты множественной корреляции.
Полное или близкое совпадение информативных наборов позволяет сделать вывод о временной устойчивости структуры моделей, а перекрытие доверительных интервалов множественных коэффициентов корреляции свидетельствует об устойчивости совокупного влияния информативных признаков на моделируемый показатель.
Один из простых примеров проверки устойчивости соотношения величины параметров при отдельных переменных заключается в анализе результатов их ранжирования по степени влияния на анализируемый показатель. Постоянная величина рангов отдельных параметров или слабое изменение их во времени свидетельствует об определенной
устойчивости.
Материалы целого ряда прикладных исследований позволяют сделать следующие выводы о поведении пространственных моделей во времени.
Как правило, характеристики исходной выборки устойчивы по парам последующих лет и неустойчивы за более длительный период.
Из параметров регрессий наиболее неустойчив свободный член, он меняется от года к году. Более стабильны коэффициенты регрессий, которые для двух последующих лет различаются несущественно.
Наиболее устойчивыми во времени элементами пространственной модели являются набор существенных (информативных) факторов, их ранжирование по степени влияния на моделируемый показатель и коэффициенты множественной корреляции. Эти характеристики чаще всего остаются стабильными в течение пяти-восьми и более лет.
Характер изменения отдельных коэффициентов регрессии различен, по большинству из них не удается выявить монотонной устойчивой тенденции.
Возникает вопрос о причинах столь резкого изменения значений коэффициентов регрессии во времени. Можно предположить, что динамика коэффициентов пространственных моделей обусловливается воздействием изменений собственного влияния данной переменной и типологической структуры совокупности. Содержательный анализ и опыт многих исследований позволяет утверждать, что основным, преобладающим источником неустойчивости параметров пространственных регрессий во времени являются изменения структуры при сравнительно стабильном влиянии отдельных переменных.
Отсюда следует вывод о сравнительной устойчивости параметров модели в пределах однородного класса (типа) объектов.
Таким образом, практический анализ временной устойчивости пространственных моделей дает основание рекомендовать для использования в краткосрочном прогнозе пространственных моделей прошлого года. В среднесрочном прогнозе пространственные модели прошлого периода без их корректировки неприменимы.
Возникает необходимость в построении общей динамической модели и прогнозировании ее параметров.
Методы динамизации пространственных моделей
Рассмотрим подходы к построению динамической модели в следующих случаях:
а) типологическая структура совокупности однородна;
б) мы имеем дело со структурно-неоднородными совокупностями, меняющимися во времени.
Возможная процедура преобразования набора пространственных моделей в общую динамическую состоит из двух этапов:
построение новых уравнений регрессии, учитывающих лаги и
тенденции;
выявление и учет динамики коэффициентов полученных уравнений регрессии.
Общая схема динамизации статических многофакторных моделей совокупности объектов вкратце сводится к следующему:
? строится набор пространственных регрессий за каждый год исследуемого периода;
? на основе динамических моделей отдельных типичных объектов с длительной предысторией выявляются лаги и тенденции;
? с учетом полученных характеристик производится преобразование исходной информации (сдвиг факторов во времени, введение новых переменных, введение разных форм фактора времени);
? строится новый набор пространственных моделей по преобразованной информации;
? исследуется динамика параметров полученного набора пространственных уравнений регрессии.
Основное содержание описанной схемы сводится к прогнозированию параметров модели будущего периода. Эта же задача может быть решена и другим путем: вместо того чтобы прогнозировать параметры модели, перенести саму выборку в планируемый период путем прогнозирования значений показателей и факторов.
В этом случае модель строится по перенесенной, спроектированной в будущее информации.
Построение динамических моделей совокупности объектов с неоднородной пространственно-временной структурой сопряжено с некоторыми трудностями, обусловленными тем, что в процессе работы необходимо учесть не только динамику взаимосвязей показателей с влияющими факторами, но и изменение классификации во времени.
Изменение типологической структуры включает следующие процессы:
дрейф характеристик существующих классов (их центров и границ);
изменение численности классов за счет перемещения объектов из класса в класс и появление новых объектов;
появление новых классов и исчезновение отдельных старых классов.
Задача построения динамической модели сводится к выявлению, оформлению и анализу процессов в однородных пространственно-временных блоках. Выделяют два аспекта: выделение объектов одного характера развития в рассматриваемом интервале времени; выбор для этих однородных (в смысле истории развития) объектов участков траектории со стабильным характером взаимосвязи показателей и факторов.
Для решения задачи в общем случае необходимо провести разбивку объектов за весь исследуемый временной интервал и для каждой из полученных групп построить динамическую модель. Выделение однородных групп объектов за общее число лет при большом числе объектов довольно громоздкая и порой неразрешимая задача. Дело в том, что в связи с дрейфом характеристик классов во времени такая пространственно-временная разбивка может привести к получению большого числа малочисленных классов, к которым невозможно применить статистические методы анализа.
Поэтому чаще всего приходится использовать однородные группы объектов за каждый год исследуемого периода и анализировать характер изменения элементов развития во времени.
Таким образом, моделирование динамического процесса включает следующие действия: выделение устойчивых классов, оценку динамики характеристик классов и определение пространственно-временных типов, построение динамических многофакторных внутриклассовых моделей.
Информационная база исследования
При выборе существенных параметров первичной инвалидизации населения следует исходить из того, что они должны отражать основные структурные характеристики инвалидности, такие как:
причины инвалидности,
тяжесть инвалидности,
возрастно-половые особенности,
место жительства.
Непосредственный перечень показателей представлен в приложении 1.
Наиболее полным и близким по времени к нашему исследованию, является работа по изучению факторов первичной инвалидизации населения, предпринятая специалистами в области эпидемиологии инвалидности совместно со специалистами в области математической обработки и анализа данных. Результатом работы оказался перечень существенных факторов, значимо влияющих на состояние и региональную вариацию инвалидности в России.
Для каждого фактора приведен набор статистических индикаторов.
Проанализируем ограничения исследования, не позволяющие непосредственно использовать его результаты для прогноза инвалидности.
Для сбора данных о факторах инвалидности предпринято специальное исследование по существенно более широкой программе, чем та, по которой ведется сбор данных социальной статистики в соответствии с программой статотчетности. Таким образом, для того чтобы получить сведения о всех факторах в динамике, необходимо продублировать аналогичное исследование в течение нескольких лет, что не является реальной задачей.
Несмотря на то, что от исследования нас отделяет всего несколько лет, возникает проблема устойчивости результатов и необходимость в связи с этим обновления информационного массива. Прошедшие годы привели к качественным социальным сдвигам, что повлияло на оценку существенности тех или иных факторов инвалидности.
Наконец, существенным является то обстоятельство, что в рамках данного исследования не ставилась задача анализа влияния факторов на масштабы инвалидности с учетом ее внутренней структуры. Причиной этого были объективные обстоятельства, прежде всего - отсутствие адекватной статистики о структурных параметрах инвалидизации населения.
Таким образом, при создании базы данных о факторах инвалидности в рамках собственного исследования мы опирались на известные результаты, скорректировав их с учетом публикуемой программы разработки данных социальной статистики и с учетом воспроизводимости основного набора данных о факторах в динамике.
ЗАКЛЮЧЕНИЕ
Под влиянием резко изменившихся политических, экономических и социальных условий в России перестройка структуры общества привела к изменению социального статуса миллионов граждан, к снижению достигнутого ими жизненного уровня. Особенно существенно эти процессы отразились на инвалидах.
Для выработки социального прогноза и определения путей дальнейшего развития и совершенствования системы социальной защиты потребовалась разработка методов, позволяющих оценивать и прогнозировать динамику инвалидности.
Используемые до настоящего времени методы прогнозирования в современных условиях оказались неприемлемыми, так как они ориентированы на период стабильного развития общества и не позволяют учитывать влияние резко изменяющихся условий в экономической, политической и социальной сферах общества. Поэтому особенно актуальной являлась задача оценки динамики инвалидности и разработки прогностической математической модели инвалидности в условиях резко изменяющихся общественных явлений.
Решение этой задачи было разбито на несколько этапов:
1. Разработка концепции социально-экономических показателей
инвалидности;
2. Построение прогностической математической модели, учитывающей основные тенденции динамики показателей инвалидности;
3. Сбор статистических данных;
4. Верификация математической модели на реальных данных.
На первом этапе в качестве исходной была принята концепция инвалидности как сложная многофакторная проблема, согласно которой показатели инвалидности зависят от различных факторов на данной административной территории РФ: от демографической ситуации, экологической обстановки, социально-экономических показателей, заболеваемости, уровня медицинского обслуживания и др. Инвалидность при этом интерпретируется как интегральный показатель среды существования и условий жизни.
Ряд внешних факторов (денежные доходы на душу населения, вредные условия труда, неблагоприятная экологическая обстановка) рассматриваются как причина инвалидности, а ряд факторов (например, количество врачей на душу населения) в том числе и как следствие инвалидности. Таким образом, инвалидность рассматривается как социально-экономический процесс, характеризующийся изменяющимися во времени и в пространстве связями между показателями инвалидности и внешними факторами окружающей среды, а в качестве объектов, порождающих такие процессы, рассматриваются как территория России в целом, так и отдельные административные
территории РФ.
Такие объекты представляют собой большие сложные системы, обладающие свойствами управляемости, стохастичности поведения, неполноты информации о будущих состояниях и свойством инерционности.
Выбор структуры математической модели на втором этапе в большой степени определяется особенностью имеющихся статистических данных. Поскольку последние должны удовлетворять свойству сопоставимости, следует ограничиться короткими рядами динамики.
Объем пространственных выборок соответствует количеству административных территорий РФ.
Первичный статистический анализ имеющихся данных включает следующие этапы:
1. Анализ трендов;
2. Получение статистических характеристик - математического ожидания, дисперсии, асимметрии, эксцесса, моды, медианы;
3. Анализ функций распределения;
4. Анализ корреляционных зависимостей, при котором особое внимание уделяется анализу временных изменений корреляционных зависимостей.
Первичный анализ данных позволил выявить следующие основные закономерности рассматриваемых процессов.
? По характеру динамики показателей инвалидности выявлены не только районы с постоянным ростом и постоянным уменьшением показателей, но и районы, где происходит смена направления тенденции изменения показателей инвалидности. Соответственно для таких районов ошибка прогнозирования на основе линейного тренда может превысить 60%.
? Пространственный анализ показателей инвалидности показал, что законы их распределения в основном отличны от нормального и за редким исключением могут быть хорошо описаны логнормальным распределением.
? В имеющихся временных рядах с показателями инвалидности наблюдаются изменения по времени таких параметров распределения как математическое ожидание, дисперсия, асимметрия, эксцесс и, следовательно, рассматриваемые временные ряды являются нестационарными.
? Анализ корреляции между соседними точками для всех показателей инвалидности позволил сделать вывод о высокой зависимости значений показателей инвалидности от предыстории процесса.
? Для внешних факторов характер распределения является слабо выраженным и в большинстве случаев приближение к тем или иным законам распределения является условным.
? Число сильно коррелирующих (коллинеарных) внешних факторов оказалось незначительным.
? Каждый показатель инвалидности коррелирует с большим числом внешних факторов.
? Степень взаимосвязи внешних факторов с показателями инвалидности во времени для разных факторов изменяется по-разному.
? Парные коэффициенты корреляции внешних факторов с показателями инвалидности с лаговым интервалом в один год могут значительно изменяться со временем.
Таким образом, первичный анализ статистических данных позволил сделать следующие выводы.
1. Для описания и прогнозирования инвалидности непригоден традиционный аппарат трендов, поскольку в переходный нестабильный период времени показатели инвалидности подвержены резким изменениям.
2. Применение традиционного корреляционно-регрессионного анализа из-за изменения структуры внешних факторов со временем,
из-за дрейфа характеристик распределений показателей инвалидности и внешних факторов, из-за изменения со временем взаимных коэффициентов корреляции между внешними факторами и показателями инвалидности может быть использовано лишь для описания взаимосвязи между изменениями внешних факторов и изменениями значений показателей инвалидности.
Наиболее перспективной представляется концепция прогностической математической модели, основанной на учете изменений структуры процесса, порождающего инвалидность.
Пути построения адекватных моделей
В него включаются все известные переменные, которые с содержательной точки зрения могут оказаться значимыми. В окончательном варианте исследователь ограничивается конечным и, как правило, небольшим числом переменных. За пределами его внимания по разным причинам остается большое число переменных, связанных друг с другом отношениями влияния. Таким образом, реально исследователь всегда рассматривает часть (или несколько частей) некоторой схемы влияния.
Преобразуя графы, можно уменьшить размерность набора переменных, не искажая структуры причинно-следственных связей оставшихся переменных. Другими словами, используя операции над графом, можно выделить необходимую часть структуры таким образом, чтобы связи, опосредованные исключаемыми характеристиками новой структуры,
сохранились.
Преобразование пространства признаков состоит в отборе существенных факторов. В процессе моделирования приходится разрешать противоречие между многомерностью экономических явлений, связанных между собой, и стремлением упростить модель с целью выделения наиболее существенных связей. В модель должны быть включены все факторы, которые с содержательных позиций оказывают влияние на зависимую переменную.
Но в то же время их количество не должно быть слишком большим. Таким образом, исходное пространство признаков должно подвергаться предварительному анализу и преобразованию с целью уменьшения числа переменных, включаемых в модель.
Необходимость и целесообразность такого преобразования объясняется тем, что анализ взаимосвязи признаков и их группировка дают дополнительную содержательную информацию, позволяют выявить определенные закономерности в описании объекта, более обоснованно подойти к формированию модели и оценке ее оптимального размера.
Принципиальная и практическая необходимость снижения размерности признакового пространства обусловлена рядом обстоятельств. Во-первых, возникает необходимость устранения явления мультиколлинеарности.
Во-вторых, необходимо учитывать максимально возможное для данных условий число переменных модели. Конечное число переменных должно быть в несколько раз меньше числа единиц наблюдения.
Наконец, необходимость снижения размерности признакового пространства обусловливается соображениями удобства построения и последующей интерпретации модели.
Конечная цель решения задачи минимизации описания более глубока, чем простое представление большого массива исходных данных: коль скоро удалось коротко представить обширную информацию, то появляется уверенность, что вскрыта некоторая объективная закономерность, существующая в структуре признакового пространства и позволяющая провести это сокращение.
Методические подходы к выбору существенных признаков зависят от того, на какой стадии моделирования они осуществляются. Процесс выбора существенных признаков не заканчивается на стадии предварительного анализа информации, а продолжается в процессе построения экономико-статистической модели.
Однако идеи, лежащие в основе выбора существенных признаков на этих двух стадиях экономико-статистического исследования, различны.
На этапе предварительного анализа сужение набора переменных производится исходя из внутренних свойств пространства признаков и учета их взаимосвязи. При этом отбор и упорядочение признаков основаны на оценке их относительной важности для характеристики единицы совокупности независимо от специфической цели исследования и типа используемого в дальнейшем математического аппарата моделирования.
Критерий выбора информативной подсистемы признаков в ходе построения модели учитывает конкретную цель исследования и специфику используемых методов моделирования. Этот критерий помимо учета взаимосвязи переменных основан на оценке важности отдельных признаков для аппроксимации и прогнозирования моделируемого показателя, учета их влияния на точность модели.
Можно выделить следующие типичные задачи анализа и преобразования исходного пространства признаков:
а) редукция описания объекта непосредственно в ходе корреляционно-регрессионного анализа;
б) группировка признаков, состоящая в выделении групп тесно связанных между собой признаков с последующим выбором представителей групп. Она может быть дополнена требованием формирования групповых факторов вместо выбора представителей групп. Возможна модификация этой задачи, заключающаяся в выделении относительно независимых групп признаков;
в) снижение размерности признакового пространства, основанное на переходе к новым координатам, замене исходных признаков их линейными комбинациями.
Рассмотрим более подробно каждую задачу с учетом не только преимуществ, но и ограничений результатов ее решения.
Одна из существенных трудностей (9) многофакторного регрессионного анализа - наличие мультиколлинеарности, то есть линейных связей между независимыми переменными. Явная мультиколлинеарность обнаруживается при высоких значениях парных коэффициентов (

0,7).
В этом случае один из признаков должен быть исключен из анализа. Вопрос о том, какую переменную исключить, решается на основе сравнения Ryxi с Ryxj (оставляют переменную с большим значением Ryx) и целей анализа. Однако даже при исключении сильно коррелированных признаков общий суммарный эффект мультиколлениарности может оказаться довольно существенным при сравнительно малых значениях Rxixj. Это проблема методического уровня.
Но и в методологическом плане статистические методы не могут определить меры полностью изолированного влияния факторов, так как роль факторов проявляется только в их взаимодействии. Возможно получение не чистой оценки действия факторов, а выявление значимости каждого из них в определенной структуре.
Это накладывает известные ограничения на интерпретацию и использование результатов анализа.
Задача группировки признаков сводится к выявлению на основе анализа структуры матрицы данных групп тесно связанных между собой признаков и выбора затем из каждой группы признаков-представителей для использования их при построении модели. Это позволяет существенно сократить размерность исходного признакового пространства.
Кроме того, анализ структуры связей и формирование групп тесно связанных признаков представляет самостоятельный интерес, так как позволяют выявить определенные объективные закономерности в структуре пространства признаков, что дает дополнительную ценную с содержательных позиций информацию для выбора переменных модели.
Дело в том, что существует достаточно много способов прямого определения информативного набора признаков для регрессионной модели. С их помощью непосредственно из исходного набора можно получить сокращенный набор максимальной информативности. Однако прямые методы выбора информативного набора представляют собой формализованные процедуры и набор максимальной информативности не всегда будет наилучшим с содержательной точки зрения.
Между тем, имея результаты анализа структуры связей признаков, можно подобрать из тех же групп другие, более характерные признаки и при очень небольшой потере в аппроксимирующей способности сконструировать более совершенные с позиций качественного анализа модели.
Основной причиной широкого распространения методов группировки признаков в экономико-статистических исследованиях является то, что в качестве представителей групп выступают сами исходные признаки. Тем самым снимается проблема интерпретации, которая возникает при использовании методов факторного анализа и других подобных подходов.
К недостаткам метода группировки признаков следует отнести определенные потери информации, особенно если сформированы группы со сравнительно небольшим уровнем тесноты внутригрупповых связей.
Кроме того, отобранные таким способом признаки-представители не являются ортогональными, хотя взаимосвязь между ними очень часто слаба.
В случае использования симметричных матриц связи решение задачи группировки признаков сводится по существу к диагонализации матрицы: в преобразованной матрице вдоль главной диагонали выделяются блоки с большими элементами (значениями показателей силы связи), а элементы, расположенные вне блоков, относительно малы.
Признаки, входящие в одну группу, обладают большей силой связи между собой, чем признаки, принадлежащие к разным группам. Существует целый ряд алгоритмов решения задачи диагонализации: от эвристических до строго формальных.
Помимо описанных методов группировки признаков для снижения размерности признакового пространства можно использовать процедуры факторного и компонентного анализа.
Существо методов факторного анализа (7) состоит в переходе от описания некоторого множества изучаемых объектов, заданного большим набором косвенных, непосредственно измеряемых признаков, к описанию меньшим числом максимально информативных глубинных переменных, отражающих наиболее существенные свойства явления. Такого рода переменные, называемые факторами, являются некоторыми функциями исходных признаков.
Описание фактора отыскивается в виде так называемой факторной матрицы или матрицы факторных нагрузок A размерностью n х m
(n - число признаков, m - число факторов), которая строится на основе матрицы парных корреляций R размерностью n х n. Корреляционная матрица отражает степень взаимосвязи между каждой парой признаков; факторная матрица характеризует степень связи между каждым из n рассматриваемых признаков и m факторами, выявленными в процессе анализа. При этом число m факторов выбирается исходя из двух условий: m должно быть много меньше n, а уровень потерь информации достаточно мал.
Факторная матрица позволяет выделить для каждого фактора группу параметров, наиболее тесно с ним связанных. Тем самым открывается возможность сопоставить факторы друг с другом, дать им содержательное толкование и наименование, то есть осуществить интерпретацию факторов.
Преобразование корреляционной матрицы в факторную не является однозначным. Для выбора факторной матрицы, на основе которой будет проводиться интерпретация факторов, разрабатываются специальные приемы. Обычно выбирается та матрица, в которой исходные параметры сильно связаны с одним из факторов и слабо связаны со всеми
другими.
Общая идея методов факторного анализа состоит в следующем.
Требуется, чтобы данная система исходных параметров была хорошо представлена (описана, аппроксимирована) с помощью некоторой системы факторов. Для этого строится критерий (последовательность критериев), имеющий смысл степени качества представления данной системой факторов системы исходных параметров. Значение критерия можно определить по матрице факторных нагрузок.
После того как такой критерий построен, задача о нахождении искомой матрицы факторных нагрузок ставится как задача экстремизации построенного критерия. Таким образом, факторный анализ с формальной точки зрения - это, прежде всего, несколько критериев качества матрицы факторных нагрузок и набор алгоритмов поиска экстремумов этих критериев.
Различные критерии формализуют различные содержательные представления о том, что означает хорошее сжатие информации. Поэтому при практическом использовании факторного анализа полезно проведение анализа исходного материала многими методами. Сопоставление результатов дает возможность выделить существенное, общее в проведенных преобразованиях.
В частности, наличие большого сходства между результатами, полученными с помощью различных методов обработки, означает, что сжатое представление исходного материала действительно отражает существо информации, представленной в этом материале, так как практически не зависит от способа формализации.
Факторный анализ тесно связан с другими многомерными статистическими методами, особенно с компонентным анализом (10). Несмотря на внешнее сходство моделей и вычислительных процедур, постановки задач факторного и компонентного анализа существенно различаются.
Компонентный анализ приводит к выделению статистически независимых обобщенных факторов, которые называются главными компонентами. В получаемых компонентах воспроизводится суммарная дисперсия исходных факторов, однако для описания основной доли дисперсии достаточна лишь небольшая их часть. В компонентном анализе осуществляется жесткая процедура выбора главных компонент и исключен субъективный подход.
Исходные переменные преобразуются в новые переменные - главные компоненты, являющиеся линейными комбинациями исходных факторов. Главные компоненты обладают рядом свойств, которые делают их удобными для экономического анализа:
статистическая независимость;
ранжирование по степени их вклада в суммарную дисперсию исходных переменных, что дает возможность выразить информацию, содержащуюся в большом наборе взаимосвязанных исходных переменных, с помощью меньшего числа независимых главных компонент.
Для проведения дальнейшего анализа требуется рассмотреть, насколько тесно каждая переменная в отдельности может быть связана с выделенным набором главных компонент. Исследование ведется на основании так называемых нагрузок, которые фактически являются оценкой тесноты связи исходных переменных и компонент. Именно через эти оценки каждая компонента получает свою содержательную
интерпретацию.
Ограничение применения компонентного анализа связано с более высокими требованиями к точности исходных данных. В случае существенных ошибок измерения исходных данных более оправдано применение факторного анализа, который наряду со сжатием информации позволяет выделить ошибки в характерные факторы и исключить из анализа.
Факторный и компонентный анализы могут использоваться как основной, а также как дополнительный аппарат исследования, позволяющий упростить и сделать более корректным применение других статистических методов.
Переход от множества первоначальных независимых переменных к меньшему числу общих факторов позволяет существенно снизить размерность пространства входных переменных и таким образом решить проблему отбора существенных факторов. Это позволяет производить построение уравнений регрессии и оценку параметров даже при небольших объемах совокупностей.
Зачастую невозможно включить в модель переменные, важные с точки зрения поставленной задачи, из-за отсутствия необходимых данных в действующей отчетности и т.д. Между тем, общие факторы отражают также свойства и переменных, не включенных в анализ, но относящихся к тому же классу, что и переменные, выбранные для исследования.
Общие факторы ортогональны между собой, благодаря чему решается проблема мультиколлинеарности.
Пути построения адекватных моделей. Некоторые решения
Построение адекватных моделей связано с решением следующих задач.
1. Учет многомерности выходного параметра модели.
Существенный недостаток применения корреляционно-регрессионного статистического инструмента исследования при моделировании и прогнозировании инвалидности состоит в том, что игнорируется существенная комплексность механизма формирования инвалидности, выражающаяся в частности во взаимосвязях и взаимообусловленности отдельных показателей инвалидности. Пофакторный подход, когда отдельно устанавливается регрессионная связь каждого из показателей инвалидности со своим набором факторов-детерминант, искусственно разъединяет систему характеристик, описывающих единое явление, на отдельные компоненты, рассматриваемые изолированно от остальных показателей.
Для решения подобных задач была предложена принципиально иная логика использования математико-статистического аппарата, опирающаяся на методы классификации многомерных наблюдений и методы снижения размерности (10).
Многомерная статистика рассматривает совокупность изучаемых многомерных объектов как совокупность точек или векторов в пространстве описывающих их признаков. Каждый объект социальной сферы характеризуется, с одной стороны, некоторым набором факторов-детерминант (например, социально-демографических и других признаков, описывающих условия существования объекта), а с другой - набором параметров поведения.
Решение общей проблемы, связанной с выявлением структуры и дифференциации, распадается в соответствии с принятой в данной работе логической схемой на следующие этапы:
сбор и первичная обработка данных;
выявление основных типов с помощью разбивки исследуемого множества точек-объектов на классы в пространстве признаков, описывающих тип поведения;
отбор наиболее информативных типообразующих признаков (факторов-детерминант). Неправомерно рассчитывать на то, что диапазоны возможных значений каждого из типообразующих признаков окажутся непересекающимися для объектов разных типов потребительского поведения. Естественно считать наиболее информативными те факторы-детерминанты или те их наборы, разница в законах распределения которых оказывается наибольшей при переходе от одного класса к другому.
Эта идея была положена в основу метода отбора наиболее информативных типообразующих признаков.
Отобрав небольшое число наиболее информативных факторов-детерминант, исследуемая совокупность объектов вновь разбивается на классы, но уже в пространстве отобранных типообразующих признаков. При этом результат разбивки существенно зависит не только от состава группы наиболее информативных типообразующих признаков, но и от того, каким образом вычисляется расстояние между двумя точками-объектами в этом пространстве и, в частности, с какими весами участвуют в этом расстоянии отобранные типообразующие признаки. Веса подбирают таким образом, чтобы результат разбивки объектов на классы в пространстве наиболее информативных факторов-детерминант в некотором смысле наименее отличался бы от разбивки тех же объектов, которая получается в пространстве их поведения.
Таким образом находится однозначное соответствие этих структур.
2. Учет неоднородности совокупности (статика).
Анализируя возможность построения моделей с применением корреляционно-регрессионного анализа, мы вновь возвращаемся к сформулированным в предыдущем разделе проблемам адекватности модели.
Важной частью экономико-статистического исследования является анализ однородности сформированной совокупности и выбор наиболее рационального для данных условий типа модели.
Общеизвестно, что статистические закономерности носят усредненный характер и многофакторные регрессионные модели, как правило, дают хорошую аппроксимацию лишь для объектов, близких к средним. Таким образом, регрессионная модель применима к индивидуальному объекту только в однородных совокупностях.
Однородность здесь понимается в смысле справедливости полученных статистических закономерностей формирования социально-экономических показателей для каждой единицы совокупности.
В терминах статистического моделирования достаточная степень однородности будет обеспечена, если многомерное распределение моделируемого показателя и существенно влияющих на него факторов близко к нормальному, иначе говоря, когда статистическая совокупность состоит из одного образа, одного класса, а искажение происходит за счет влияния несущественных с точки зрения цели моделирования факторов и некоторых шумов.
Рассмотрим сферу приложения двух классических подходов к достижению однородности рассматриваемых групп объектов: комбинационных группировок и методов многомерной классификации.
При использовании методов комбинационной группировки классификация осуществляется путем последовательного логического деления совокупности по отдельным признакам. Все элементы сформированных групп обладают одинаковыми значениями комплекса признаков группировки.
Другими словами, достаточным и необходимым условием принадлежности единицы совокупности к данной группе является наличие соответствующих значений комплекса группировочных признаков. В пределах набора признаков группировки элементы групп неразличимы.
В ходе развития научных исследований было установлено, что принципы чистой логики, лежащие в основе метода комбинационной группировки, нелегко применять к эмпирическому материалу. Часто можно обнаружить естественные типы явлений, каждый из которых объединяет индивидуальные явления, обладающие большим числом общих признаков, но никакой естественный тип невозможно выразить через небольшой набор совпадающих признаков.
В некоторых случаях те или иные объекты можно без всяких сомнений отнести к определенному типу, несмотря на отсутствие или несовпадение у них нескольких признаков из числа использованных при формировании групп. Все это обусловило необходимость разработки новых принципов многомерной классификации, отличных от классических, суть которых состоит в том, что классификация объектов производится не последовательно по отдельным, а одновременно по большому числу признаков.
При использовании комбинационной группировки объект, отклоняющийся от нормы, характерной для группы, по одному единственному признаку набора, будет автоматически исключен из группы. Более того, если этот признак используется на первом этапе группировки, то объект может легко попасть в группу, очень далекую от той, с которой он в действительности имеет наибольшее сходство. Таким образом, осуществляя классификацию методом комбинационных группировок, исследователь часто искусственно разрушает реально существующие в пространстве признаков обособленно-однородные классы жестко заданными интервалами признаков.
Этот основной недостаток делает комбинационные группировки неэффективными для выделения типов объектов по комплексу признаков, так как с добавлением каждого нового признака опасность разрушения объективно существующих однородных групп возрастает. Следовательно, основное преимущество методов многомерной классификации заключается в том, что они позволяют с той или иной степенью приближения наметить и выделить реально существующие в признаковом пространстве скопления точек-объектов, что связано с одновременной группировкой по большому числу признаков и использованием в качестве границ сложных поверхностей.
Приведенная краткая характеристика корреляционно - регрессионного анализа и методов многомерной классификации свидетельствует о том, что эти два вида методов эмпирического изучения связей хорошо дополняют друг друга. Комплексное применение обоих методов позволяет существенно расширить сферу приложения методов регрессионного анализа, хотя во многих случаях аппарат многомерной классификации может выступать и как самостоятельный инструмент построения модели социально-экономического процесса. При совместном их применении на первом этапе проводится разбивка совокупности объектов на классы близких точек. В каждом из выделенных классов строится своя функция регрессии.
В отличие от обычной регрессионной функции, параметры которой остаются стабильными для всех объектов совокупности, здесь параметры модели различны для выделенных областей. Сходства и различия полученных моделей для разных типов объектов несут в себе содержательную информацию о характере и степени влияния факторных признаков.
3. Анализ устойчивости зависимостей во времени
Существует два принципиально различных подхода к анализу устойчивости статистических зависимостей во времени. Первый из них сводится к анализу устойчивости характеристик исходной выборки, второй - к анализу устойчивости параметров модели.
Суть первого подхода состоит в проверке идентичности не самих уравнений, а условий, которые обеспечивают эту идентичность. Этим условием является стабильность во времени основных параметров исследуемой совокупности. В качестве критерия стабильности может выступать близость классификации объектов по данным нескольких лет.
Алгоритм реализации этой проверки может выглядеть следующим образом. Если имеются данные о некотором числе объектов, характеризующихся определенным набором признаков за два года, то вначале производится группировка этих объектов независимо от года.
Образуется некоторое число классов - s. Затем производится разбивка на k новых групп - по году. Результаты двойной группировки представляют в виде таблицы взаимной сопряженности номеров групп и числа лет.
По таблице взаимной сопряженности вычисляется значение

2 - Пирсона и сравнивается с табличным.
Экономика: Общество - Социология