Несколько лет назад нам посчастливилось обнаружить поразительный феномен в области факторного анализа. Его поразительность состоит в том, что хотя многие тысячи людей за множество прошедших десятилетий прикасались к нему, но ни один из прикасавшихся не обратил на него никакого внимания.
Откуда это пошло? Различные методы вращения были изобретены западными математиками, вовлеченными в масштабные государственные программы психологического и социального тестирования. Следующие в их фарватере системные аналитики без тщательной верификации в других областях приложения и необходимых оговорок включили вращения в свои статистические пакеты. Отсюда постепенно и развилась всеобщая “вращательная эйфория” — все начали всё и везде вращать, это постепенно стало “хорошим аналитическим тоном”.
Какова же цель? Целью вращения провозглашается получение более просто интерпретируемой системы факторов (так называемая простая структура), при которой каждая переменная имеет большие нагрузки на малое число факторов и малые нагрузки на остальные факторы. Иными словами — чтобы поменьше себе голову ломать над интерпретацией факторов и тем сильно облегчить себе жизнь. Очевидно, что формулировка подобной цели в методическом плане принадлежит к области лженауки. В классической науке это называется подгонкой исходных данных, промежуточных и конечных результатов. Представьте себе, что Уотсон и Крик начали бы вращать рентгеноскопические данные с целью облегчить себе жизнь и более быстро получить максимально простую модель ДНК.
Обоснование. Некоторых может сбить с толку кочующее по гуманитарной среде утверждение, что методы факторного анализа дают решение с точностью до вращения факторов, из чего делается вывод, что вращение принципиально не меняет найденного решения. Действительно, факторное решение обеспечивает хорошее приближение общностей переменных (которые равны сумме их факторных нагрузок) к исходным корреляциям, а общности переменных (в отличие от нагрузок) при вращении не меняются. Но такое “обоснование” аналогично следующей ситуации: пусть гражданин А платит квартплату миллион, а гражданин Б — тысячу. И мы говорим: а давайте-ка “повращаем” платежи до наоборот, ведь общий-то доход в бюджет от этого не изменится!
Для каких
данных? Операции вращения факторов начали применяться
для данных опросного типа (номинальные и ранговые данные), которые
сами по себе глубоко субъективны, вариативны, неточны. Такие данные преимущественно
распространены в социологических и психологических исследованиях (хотя
там много имеется и данных метрического типа), и к ним неприменимо понятие
точности измерений, как это имеет место в случае данных, полученных
с помощью измерительных приборов. Поэтому в результате вращения исследователь
мало теряет в обоснованности выводов (поскольку сами исходные данные очень
“рыхлые”, “относительные”), но может получить более простую интерпретацию
факторов. И слава богу! Чего еще можно ожидать от “вторичных” факторов
“человеческих мнений”, преломленных в кривом зеркале инфернального сознания.
Сегодня это мнение одно, а через час оно уже совершенно другое.
Однако каждый критически
мыслящий исследователь экспериментально легко может убедиться в том простом
неприглядном факте, что различные методы вращения и изменение числа общих
факторов дают несопоставимые результаты. Тем самым эти методы несомненно
облегчают одну задачу: если очень хочется что-то доказать относительно
исследуемого объекта, то часто удается подыскать для этого подходящий метод
вращения.
В этом плане показателен
пример монографии [1], во всех других аспектах, безусловно, относящейся
к фундаментальной и образцовой классике. В разделе факторного анализа там
всесторонне рассматривается пример измерения базовых физиологических показателей
у 113 больных в отделении интенсивной терапии. Исходная компонентная структура
подвергается различным методам вращения, и каждый раз получается разное
число главных факторов и разная их интерпретация. Тем самым физиологические
механизмы изменяют свою работу в зависимости от метода вращения! Но этот
абсурд нисколько не смущает уважаемых авторов, и они не делают ни одного
предостерегающего комментария к столь странному поведению биологических
законов.
Объекты
и субъекты. Есть еще одно важное отличие. В гуманитарно-опросных
исследованиях сами объекты (респонденты) обычно никого не интересуют. Они
лишены индивидуальности, это действительно “объекты”, просто говорящие
орудия, поэтому и общая задача ограничивается только факторизацией их мнений
(чтобы, например, эффективнее провести избирательную компанию, выявить
национальные, региональные, половые или профессиональные предпочтения и
т.п.).
Другая ситуация имеет
место в естественно-научных исследованиях. Там объекты имеют индивидуальность
и важность (спортсмены, предприятия, больные, экономические поквартальные
показатели, функциональные изменения физиологических показателей и т.п.)
Это в полном смысле — субъекты, и наряду с изучением главных действующих
на них факторов, не менее важна задача их индивидуального и межиндивидуального
исследования и управления, для чего необходимо тщательное и разностороннее
изучение их проекций на главные факторы. А вращения факторов кардинально
изменяют проекции объектов вплоть до полного абсурда. Следует отметить,
что многие социологи и психологи с подобными постановками задач никогда
не сталкивались и представить себе их значимость не в состоянии.
Почему это продолжается? У аудитории может возникнуть законный вопрос: а почему раньше никто не обратил на это наше внимание? Тогда мы зададим встречный вопрос: а где и как на это можно обратить внимание широкой научной, исследовательской и преподавательской аудитории? Оказывается — никак и нигде! Действительно, математические журналы отклонят такой материал по причине отсутствия теоретической новизны. Популярные журналы отклонят его по причине неинтересности для их читателей и узкой специальности. Единственно где его можно опубликовать — это в каком-нибудь малотиражном отраслевом сборнике (и то “по блату”), где его никто реально не прочтет.
Другие данные. Однако мир не столь тесен и оказывается, что кроме опросных бывают в науке и другие данные, метрические, в том числе и полученные с помощью измерительных приборов, к которым применимо понятие точность измерений. А среди этих данных попадаются и такие, которые отражают фундаментальные и первичные природные закономерности. Именно эти факторы мы будем для определенности называть естественно-научными. И для них категорически противопоказаны методы вращения.
Доказательства.
Как недоуменно возмутился в свое время незабвенный Берлиоз: “Но нужны же
какие-то доказательства?” И хотя профессор Воланд придерживался на этот
счет обратной точки зрения, посмотрим, что же дарят нам вращения факторов:
антропометрические
показатели перестают зависеть от роста (пример 1), ведущие хоккеисты становятся
аутсайдерами (пример 2), сердце перестает влиять на работу организма (пример
3), финансового дефолта августа 1998 не происходит (пример 4).
.
Возьмем сначала очень простые и понятные данные с высокими корреляциями между переменными, а именно: измерения роста, веса и жизненной емкости легких (ЖЕЛ) у множества людей. Ясно, что в данном случае все эти переменные определяются общим главным фактором, который можно условно назвать фактором “антропометрического масштаба”. Можно придать предметный смысл и двум другим факторам следующим образом. Пусть мы производим эти антропометрические измерения у двух профессиональных категорий: штангистов и марафонцев. Очевидно, что вторым фактором будет фактор профессии, определяющий значительный систематический сдвиг значений (дисперсию) в плоскости вес-рост. С другой стороны, третий фактор пола будет определять сдвиг (дисперсию) в перпендикулярном направлении, поскольку при тех же соотношениях роста и веса женщины в среднем будут иметь меньшую ЖЕЛ, чем мужчины.
а) |
б) |
а) |
б) |
Теперь рассмотрим ситуацию
априорно неизвестных факторов. Будем анализировать действия хоккеистов
Динамо (Рига) — одного из лидеров сезона 1980-1981 (данные предоставлены
в ноябре 2004 из информационной базы, собранной профессором РГУФК В.К.
Зайцевым). При этом вспомним, что рассматриваемый временной период относится
к наивысшему взлету советского хоккея, когда физический, технический и
психологический уровень игроков того времени, а также тренерский и методический
уровень были неизмеримо выше нынешних. В те далекие времена велся детальный
учет действий каждого игрока в сезоне. Все это отражалось в личной карточке,
куда входило несколько десятков различных показателей. Чтобы сгладить индивидуальную
вариативность, зависящую от текущего физического и психологического состояния
спортсмена, для анализа желательно выбирать не отдельную игру, а усредненные
значения показателей по всем играм сезона. В исходную таблицу входят 15
показателей (переменные), не связанные линейными функциональными или высокими
корреляционными зависимостями, для 18 игроков (объекты).
В результате вычисления
главных компонент выделяются 3 главных фактора, покрывающих 41, 21.6, 9.69%
общей дисперсии и в соответствии со своими факторными нагрузками допускающих
следующую интерпретацию: «эффективность командной игры с участием игрока»
— “личная эффективность” (броски и борьба) — «неэффективность» (штрафы
и броски мимо). После этого открывается еще более важная спортивно-методическая
задача: исследования различного рода соотношений между игроками в пространстве
главных факторов (рис. 3, а) для сравнительной оценки их возможностей,
физических кондиций, эффективности, рейтинга и т. п.
а) |
б) |
Если в предыдущих примерах
мы анализировали многомерные данные общего вида “переменные—объекты”, то
здесь будем иметь дело со специальным видом многомерных данных — связные
временные ряды и экспериментальные зависимости, которые представляют
собой измерения значений нескольких переменных, производимые у одного объекта
через равные интервалы времени или для ряда значений некоторого определяющего
показателя.
В качестве показательного
примера такого типа данных мы будем использовать результаты велотренажерных
испытаний (хоккеисты московского Динамо 2000 г. из информационной базы,
собранной профессором РГУФК В.К. Зайцевым), которые сами по себе являются
универсальным средством оценки работоспособности организма человека и его
энергообеспечивающих систем. Обычно велотренажерные испытания проводятся
в течение 15-20 мин, при этом первый 2-минутный отрезок проводится без
нагрузки для “врабатывания” испытуемого, а затем нагрузка возрастает 2-минутными
ступенями по 50 ватт до максимума в 350-400 ватт. Регистрация физиологических
показателей проводится через каждые 30 с, поэтому на каждый уровень нагрузки
приходится по четыре измерения. Тем самым результаты испытаний представляют
собой, с одной стороны, экспериментальные зависимости от нагрузки, а с
другой стороны — процессы, развивающиеся во времени, при этом на каждую
ступень физической нагрузки приходится четыре временных измерения.
После отсева функционально
зависимых и высококоррелированных переменных в матрице данных остаются
5 переменных и 38 измерений. В результате вычисления главных компонент
выделяются два главных фактора, покрывающие 80.41 и 15.75 % дисперсии и
имеющие прямую физиологическую интерпретацию, а именно: изменения физиологических
показателей при велоэргономических испытаниях определяются (рис. 4, а):
1) работой сердечно-сосудистой системы, выражающейся главным образом в
росте ЧСС; 2) клеточным метаболизмом, связанным с мышечным энергообеспечением,
выражаемым показателями, отражающими выделение из легких конечного продукта
— СО2 и относительное потребление кислорода
(респираторный коэффициент RQ).
а) |
б) |
Обратимся с проекциям
измерений на плоскость первых двух факторов (рис. 4, б). По первому
фактору измерения практически строго упорядочены по времени или по возрастанию
нагрузки, что вероятно определяется линейным характером возрастания ЧСС.
По второму фактору наблюдается другая динамика:
а) сначала имеет место уменьшение значений измерений
на этапе “вкатывания” и первых двух ступенях нагрузки (до 150 ватт); это
соответствует анаэробной стадии мышечного энергообеспечения за счет АТФ,
запасенной в скелетных мышцах и печени;
б) затем идет возрастание значений достаточно
линейного характера, что соответствует переходу к аэробной стадии мышечного
энергообеспечения;
в) в области высоких нагрузок (300-350 ватт)
изменения приобретают нелинейный характер (организм подходит к точке энергетического
срыва).
Проведем теперь вращение
двух выделенных факторов методом варимакс и сравним результаты. В результате
вращения факторы повернулись на 47 градусов и практически сравнялись, покрывая
49.16 и 47% дисперсии. Предметный смысл факторов принципиально изменился
(рис. 5, а), а именно:
а) первый фактор теперь всецело определяется
выделением СО2 (FCo2), который ранее занимал промежуточное
положение, а по фактору 2 нес основную положительную по знаку нагрузку;
б) второй фактор теперь всецело определяется
респираторным коэффициентом RQ, который ранее занимал промежуточное положение,
а по фактору 2 нес основную отрицательную по знаку нагрузку;
в) показатели, связанные с ЧСС и ранее всецело
определявшие первый фактор, теперь заняли промежуточное положение.
Расположение измерений
(рис. 5, б) по второму фактору стало пологим в первой фазе и резко
возрастающим во второй фазе и возвратным по первому фактору.
а) |
б) |
В заключение мы рассмотрим
более объемный пример. Исходными данными будут 64 базовых экономических
показателей Российской федерации с 1996 по 1999 с ежемесячным измерением
(предоставлены весной 2000 аналитическим отделом Министерства обороны РФ
в ходе проведенных там консультаций). Напомним, что данный период относится
к последнему четырехлетию президентства Ельцина с неоднократными сменами
правительства (Черномырдин до 03.98, Киреенко до 09.98, Примаков до 05.99,
Степашин до 08.99, Путин) и со знаменитым дефолтом августа 1998.
После удаления функционально
зависимых и корреляционно связанных переменных в матрице данных остается
45 показателей. В результате вычисления главных компонент выделяются всего
лишь три основных фактора, покрывающие 30.2, 20.1, 18.3% дисперсии измерений.
Четвертый компонент ответственен всего лишь за 8,2% дисперсии. Согласно
факторным нагрузкам этим трем главным факторам можно дать следующую интерпретацию:
основной финансово-социальный фактор, фактор “производство-энергия-транспорт”,
фактор бюджетного финансирования.
Обратимся теперь к исследованию
распределения измерений на плоскости первых двух факторов (рис. 6, а).
Здесь явно прослеживается логичная временная упорядоченность измерений.
Первые 33 месяца (правительству Черномырдина принадлежат 27 из них) видна
отчетливо линейная тенденция ухудшения ситуации по обоим двум главным факторам
(положительный экономический смысл имеет отрицательное направление по второму
фактору), в которой можно выделить “островок стабилизации” с 13-го по 25-й
месяц. Небольшой островок стабилизации заметен и в 9-12 месяцах (обычное
оживление последнего квартала года), после чего идет скачок к 13-му месяцу.
а) |
б) |
Вот такая вот загогулина вырисовывается. И как вам это все нравится? Да с такими вращениями совершенно невозможно управлять государством!