Лекция: О феномене фальсификации естественно-научных факторов в результате вращения
г А.П. Кулаичев. Методы и средства комплексного анализа данных. Изд. 4-е, перераб. и доп. - М.: ИНФРА-М, 2006, С. 315-350, 421-436, 475-484
Кулаичев А.П. О принципиальных искажениях метрических факторов в результате вращения.Моделирование и анализ данных, 2013, №1, С. 78-87. Скачать PDF

    Несколько лет назад нам посчастливилось обнаружить поразительный феномен в области факторного анализа. Его поразительность состоит в том, что хотя многие тысячи людей за множество прошедших десятилетий прикасались к нему, но ни один из прикасавшихся не обратил на него никакого внимания.

    Откуда это пошло? Различные методы вращения были изобретены западными математиками, вовлеченными в масштабные государственные программы психологического и социального тестирования. Следующие в их фарватере системные аналитики без тщательной верификации в других областях приложения и необходимых оговорок включили вращения в свои статистические пакеты. Отсюда постепенно и развилась всеобщая “вращательная эйфория” — все начали всё и везде вращать, это постепенно стало “хорошим аналитическим тоном”.

    Какова же цель? Целью вращения провозглашается получение более просто интерпретируемой системы факторов (так называемая простая структура), при которой каждая переменная имеет большие нагрузки на малое число факторов и малые нагрузки на остальные факторы. Иными словами — чтобы поменьше себе голову ломать над интерпретацией факторов и тем сильно облегчить себе жизнь. Очевидно, что формулировка подобной цели в методическом плане принадлежит к области лженауки. В классической науке это называется подгонкой исходных данных, промежуточных и конечных результатов. Представьте себе, что Уотсон и Крик начали бы вращать рентгеноскопические данные с целью облегчить себе жизнь и более быстро получить максимально простую модель ДНК.

    Обоснование. Некоторых может сбить с толку кочующее по гуманитарной среде утверждение, что методы факторного анализа дают решение с точностью до вращения факторов, из чего делается вывод, что вращение принципиально не меняет найденного решения. Действительно, факторное решение обеспечивает хорошее приближение общностей переменных (которые равны сумме их факторных нагрузок) к исходным корреляциям, а общности переменных (в отличие от нагрузок) при вращении не меняются. Но такое “обоснование” аналогично следующей ситуации: пусть гражданин А платит квартплату миллион, а гражданин Б — тысячу. И мы говорим: а давайте-ка “повращаем” платежи до наоборот, ведь общий-то доход в бюджет от этого не изменится!

    Для каких данных? Операции вращения факторов начали применяться для данных опросного типа (номинальные и ранговые данные), которые сами по себе глубоко субъективны, вариативны, неточны. Такие данные преимущественно распространены в социологических и психологических исследованиях (хотя там много имеется и данных метрического типа), и к ним неприменимо понятие точности измерений, как это имеет место в случае данных, полученных с помощью измерительных приборов. Поэтому в результате вращения исследователь мало теряет в обоснованности выводов (поскольку сами исходные данные очень “рыхлые”, “относительные”), но может получить более простую интерпретацию факторов. И слава богу! Чего еще можно ожидать от “вторичных” факторов “человеческих мнений”, преломленных в кривом зеркале инфернального сознания. Сегодня это мнение одно, а через час оно уже совершенно другое.
        Однако каждый критически мыслящий исследователь экспериментально легко может убедиться в том простом неприглядном факте, что различные методы вращения и изменение числа общих факторов дают несопоставимые результаты. Тем самым эти методы несомненно облегчают одну задачу: если очень хочется что-то доказать относительно исследуемого объекта, то часто удается подыскать для этого подходящий метод вращения.
        В этом плане показателен пример монографии [1], во всех других аспектах, безусловно, относящейся к фундаментальной и образцовой классике. В разделе факторного анализа там всесторонне рассматривается пример измерения базовых физиологических показателей у 113 больных в отделении интенсивной терапии. Исходная компонентная структура подвергается различным методам вращения, и каждый раз получается разное число главных факторов и разная их интерпретация. Тем самым физиологические механизмы изменяют свою работу в зависимости от метода вращения! Но этот абсурд нисколько не смущает уважаемых авторов, и они не делают ни одного предостерегающего комментария к столь странному поведению биологических законов.

    Объекты и субъекты. Есть еще одно важное отличие. В гуманитарно-опросных исследованиях сами объекты (респонденты) обычно никого не интересуют. Они лишены индивидуальности, это действительно “объекты”, просто говорящие орудия, поэтому и общая задача ограничивается только факторизацией их мнений (чтобы, например, эффективнее провести избирательную компанию, выявить национальные, региональные, половые или профессиональные предпочтения и т.п.).
        Другая ситуация имеет место в естественно-научных исследованиях. Там объекты имеют индивидуальность и важность (спортсмены, предприятия, больные, экономические поквартальные показатели, функциональные изменения физиологических показателей и т.п.) Это в полном смысле — субъекты, и наряду с изучением главных действующих на них факторов, не менее важна задача их индивидуального и межиндивидуального исследования и управления, для чего необходимо тщательное и разностороннее изучение их проекций на главные факторы. А вращения факторов кардинально изменяют проекции объектов вплоть до полного абсурда. Следует отметить, что многие социологи и психологи с подобными постановками задач никогда не сталкивались и представить себе их значимость не в состоянии.

    Почему это продолжается? У аудитории может возникнуть законный вопрос: а почему раньше никто не обратил на это наше внимание? Тогда мы зададим встречный вопрос: а где и как на это можно обратить внимание широкой научной, исследовательской и преподавательской аудитории? Оказывается — никак и нигде! Действительно, математические журналы отклонят такой материал по причине отсутствия теоретической новизны. Популярные журналы отклонят его по причине неинтересности для их читателей и узкой специальности. Единственно где его можно опубликовать — это в каком-нибудь малотиражном отраслевом сборнике (и то “по блату”), где его никто реально не прочтет.

    Другие данные. Однако мир не столь тесен и оказывается, что кроме опросных бывают в науке и другие данные, метрические, в том числе и полученные с помощью измерительных приборов, к которым применимо понятие точность измерений. А среди этих данных попадаются и такие, которые отражают фундаментальные и первичные природные закономерности. Именно эти факторы мы будем для определенности называть естественно-научными. И для них категорически противопоказаны методы вращения.

    Доказательства. Как недоуменно возмутился в свое время незабвенный Берлиоз: “Но нужны же какие-то доказательства?” И хотя профессор Воланд придерживался на этот счет обратной точки зрения, посмотрим, что же дарят нам вращения факторов: антропометрические показатели перестают зависеть от роста (пример 1), ведущие хоккеисты становятся аутсайдерами (пример 2), сердце перестает влиять на работу организма (пример 3), финансового дефолта августа 1998 не происходит (пример 4).
.

Пример 1. Известные факторы.

        Возьмем сначала очень простые и понятные данные с высокими корреляциями между переменными, а именно: измерения роста, веса и жизненной емкости легких (ЖЕЛ) у множества людей. Ясно, что в данном случае все эти переменные определяются общим главным фактором, который можно условно назвать фактором “антропометрического масштаба”. Можно придать предметный смысл и двум другим факторам следующим образом. Пусть мы производим эти антропометрические измерения у двух профессиональных категорий: штангистов и марафонцев. Очевидно, что вторым фактором будет фактор профессии, определяющий значительный систематический сдвиг значений (дисперсию) в плоскости вес-рост. С другой стороны, третий фактор пола будет определять сдвиг (дисперсию) в перпендикулярном направлении, поскольку при тех же соотношениях роста и веса женщины в среднем будут иметь меньшую ЖЕЛ, чем мужчины.

а)

б)

Рис. 1. Проекции объектов (люди) на плоскости исходных переменных (рост-вес-ЖЕЛ, после их нормализации) с новой факторной системой координат по главным осям эллипсоида рассеяния: а — плоскость переменных х1, х2; б — плоскость переменных х1, х3
        Здесь мы имеем расположение объектов (рис. 1), которое представляет собой облако рассеяния, по форме близкое к эллиптическому. Если теперь провести новые оси x1’, x2’, x3’ соответственно главным осям этого эллипсоида рассеяния, то это и будут главные компоненты, из которых фактор x1’ (фактор “антропометрического масштаба”) оказывает значительно большее влияние на дисперсию объектов, чем факторы x2’ и x3’, дисперсия по которым определена не измеренными в эксперименте показателями, связанными с полом, национальностью, профессией и т.п.).
        Проведем теперь анализ главных компонент, а затем варимакс-вращение в плоскости первых двух факторов и сравним результаты. Четыре коэффициента вращения факторных осей (синусы и косинусы):
  Перем/Факт:    1        2
        1   0.7547   0.6561
        2  -0.6561   0.7547
показывают, что наиболее употребительный в практике метод варимакс осуществляет поворот первых двух факторов примерно на 45°. Это же видно в повороте факторных нагрузок из сравнения рис. 2, а и  б. Тем самым проекции исходных переменных на факторные оси (а, следовательно, и предметный смысл факторов) кардинально меняются.

а)

б)
Рис. 2. Факторные нагрузки 3–х переменных в проекции на плоскость факторов 1–2: а — исходные; б — после варимакс-вращения в пространстве двух главных факторов
        После вращения вместо подавляющего преимущества первого фактора (96,59% против 3,246%) мы имеем практическую эквивалентность двух главных факторов (55,34% и 44,53%). Фактически в ходе вращения две факторные оси опять повернулись к двум исходным переменным, то есть результаты проведенной факторизации были полностью отменены. Очевидный абсурд этой ситуации состоит в том, что главный фактор “антропометрического масштаба” перестал действовать в мире сапиенсов!
        Убедительность данного примера состоит в том, что против него и возразить-то по существу нечего, поскольку предметный смысл главного фактора априори известен и для всех очевиден. Можно, конечно, возразить, что здесь мы имеем очень мало переменных, что ставит под сомнение применимость факторного анализа. Однако спросим, при чем здесь абсурдность результатов вращения, разве ее степень зависит от числа переменных? К тому же эту матрицу данных можно без труда расширить, включив в нее еще множество переменных, зависящих от фактора антропометрического масштаба. При этом результирующие выводы не изменятся.
.
Пример 2. Оценка квалификации в коллективных действиях

        Теперь рассмотрим ситуацию априорно неизвестных факторов. Будем анализировать действия хоккеистов Динамо (Рига) — одного из лидеров сезона 1980-1981 (данные предоставлены в ноябре 2004 из информационной базы, собранной профессором РГУФК В.К. Зайцевым). При этом вспомним, что рассматриваемый временной период относится к наивысшему взлету советского хоккея, когда физический, технический и психологический уровень игроков того времени, а также тренерский и методический уровень были неизмеримо выше нынешних. В те далекие времена велся детальный учет действий каждого игрока в сезоне. Все это отражалось в личной карточке, куда входило несколько десятков различных показателей. Чтобы сгладить индивидуальную вариативность, зависящую от текущего физического и психологического состояния спортсмена, для анализа желательно выбирать не отдельную игру, а усредненные значения показателей по всем играм сезона. В исходную таблицу входят 15 показателей (переменные), не связанные линейными функциональными или высокими корреляционными зависимостями, для 18 игроков (объекты).
        В результате вычисления главных компонент выделяются 3 главных фактора, покрывающих 41, 21.6, 9.69% общей дисперсии и в соответствии со своими факторными нагрузками допускающих следующую интерпретацию: «эффективность командной игры с участием игрока» — “личная эффективность” (броски и борьба) — «неэффективность» (штрафы и броски мимо). После этого открывается еще более важная спортивно-методическая задача: исследования различного рода соотношений между игроками в пространстве главных факторов (рис. 3, а) для сравнительной оценки их возможностей, физических кондиций, эффективности, рейтинга и т. п.

а)

б)

Рис. 3. Проекции игроков на факторную плоскость1-2: а — исходные факторы; б — после вращения варимакс (стрелками показаны перемещения игроков)
        Уже из простого визуального анализа этих проекций можно сделать далеко идущие выводы: По первому фактору (“участие в игре”) игроки разделяются на две большие и заметно отстоящие друг от друга группы, а по второму фактору (“игровая активность”) из всех игроков несомненно выделяется Балдерис, являющийся основным бомбардиром, на которого работает вся команда. Невдалеке находятся еще два ведущих нападающих Абалмасов и Антипов. В соответствии с количественным соотношением с нападающими много участвуют в игре и защитники Крикунов, Дудин, Хатулин, Назаров, хотя личная активность у них не высока. Среди оставшихся можно выделить дополнительно 2—3 группировки. Тем самым факторные проекции не только качественно подтверждает известные каждому болельщику игровые соотношения, но выявляют более тонкую структуру команды, а также позволяют количественно оценить различия между игроками.
        Посмотрим, что происходит после вращения по трем главным факторам (рис. 3, б факторные дисперсии уравниваются: 29.6, 26.4 и 16.2%). Набольшие изменения происходят по первому фактору. В аутсайдеры откатывается Балдерис. Из лидеров в середнячки переходят Абалмасов и Антипов. В лидеры выходит аутсайдер Васильев. Резкие перемещения наблюдаются и у других игроков. Тем самым вращение кардиальным образом меняет игровые соотношения: кто был всем, тот стал никем!
        В добавление к этому без детальных иллюстраций (см. в [2]) отметим, что для данного примера различные вращения с различным числом факторов (выбор которого является субъективным произволом предметного исследователя) приводят к совершенно различным и абсолютно несопоставимым между собой результатам.
        При этом полностью теряется вышеуказанный логичный предметный смысл факторов, а также:
а) переменные, которые хорошо проецировались на некоторый фактор, становятся плохо проецируемыми на все факторы;
б) переменные, которые плохо проецировались на все факторы, становятся хорошо проецируемыми на один фактор;
в) переменные, которые имели малые нагрузки на фактор, приобретают большие нагрузки и наоборот.
        Тем самым если кому-то очень хочется что-то доказать относительно исследуемого объекта, то часто удается подыскать для этого подходящий метод вращения.
.
Пример 3. Многомерные ряды и зависимости

        Если в предыдущих примерах мы анализировали многомерные данные общего вида “переменные—объекты”, то здесь будем иметь дело со специальным видом многомерных данных — связные временные ряды и экспериментальные зависимости, которые представляют собой измерения значений нескольких переменных, производимые у одного объекта через равные интервалы времени или для ряда значений некоторого определяющего показателя.
        В качестве показательного примера такого типа данных мы будем использовать результаты велотренажерных испытаний (хоккеисты московского Динамо 2000 г. из информационной базы, собранной профессором РГУФК В.К. Зайцевым), которые сами по себе являются универсальным средством оценки работоспособности организма человека и его энергообеспечивающих систем. Обычно велотренажерные испытания проводятся в течение 15-20 мин, при этом первый 2-минутный отрезок проводится без нагрузки для “врабатывания” испытуемого, а затем нагрузка возрастает 2-минутными ступенями по 50 ватт до максимума в 350-400 ватт. Регистрация физиологических показателей проводится через каждые 30 с, поэтому на каждый уровень нагрузки приходится по четыре измерения. Тем самым результаты испытаний представляют собой, с одной стороны, экспериментальные зависимости от нагрузки, а с другой стороны — процессы, развивающиеся во времени, при этом на каждую ступень физической нагрузки приходится четыре временных измерения.
        После отсева функционально зависимых и высококоррелированных переменных в матрице данных остаются 5 переменных и 38 измерений. В результате вычисления главных компонент выделяются два главных фактора, покрывающие 80.41 и 15.75 % дисперсии и имеющие прямую физиологическую интерпретацию, а именно: изменения физиологических показателей при велоэргономических испытаниях определяются (рис. 4, а): 1) работой сердечно-сосудистой системы, выражающейся главным образом в росте ЧСС; 2) клеточным метаболизмом, связанным с мышечным энергообеспечением, выражаемым показателями, отражающими выделение из легких конечного продукта — СО2  и относительное потребление кислорода (респираторный коэффициент RQ).

а)

б)

Рис. 4. Проекции результатов вычисления главных компонент велоэргономических испытаний на факторную плоскость1-2: а — нагрузки переменных; б — измерения

        Обратимся с проекциям измерений на плоскость первых двух факторов (рис. 4, б). По первому фактору измерения практически строго упорядочены по времени или по возрастанию нагрузки, что вероятно определяется линейным характером возрастания ЧСС. По второму фактору наблюдается другая динамика:
    а) сначала имеет место уменьшение значений измерений на этапе “вкатывания” и первых двух ступенях нагрузки (до 150 ватт); это соответствует анаэробной стадии мышечного энергообеспечения за счет АТФ, запасенной в скелетных мышцах и печени;
    б) затем идет возрастание значений достаточно линейного характера, что соответствует переходу к аэробной стадии мышечного энергообеспечения;
    в) в области высоких нагрузок (300-350 ватт) изменения приобретают нелинейный характер (организм подходит к точке энергетического срыва).

        Проведем теперь вращение двух выделенных факторов методом варимакс и сравним результаты. В результате вращения факторы повернулись на 47 градусов и практически сравнялись, покрывая 49.16 и  47% дисперсии. Предметный смысл факторов принципиально изменился (рис. 5, а), а именно:
    а) первый фактор теперь всецело определяется выделением СО2 (FCo2), который ранее занимал промежуточное положение, а по фактору 2 нес основную положительную по знаку нагрузку;
    б) второй фактор теперь всецело определяется респираторным коэффициентом RQ, который ранее занимал промежуточное положение, а по фактору 2 нес основную отрицательную по знаку нагрузку;
    в) показатели, связанные с ЧСС и ранее всецело определявшие первый фактор, теперь заняли промежуточное положение.
        Расположение измерений (рис. 5, б) по второму фактору стало пологим в первой фазе и резко возрастающим во второй фазе и возвратным по первому фактору.

а)

б)

Рис. 5. Результаты вращения двух главных велоэргономических факторов: а — нагрузки переменных; б — измерения
        Тем самым после вращения сердце перестает оказывать решающее влияние на основные физиологические процессы, а организм приобретает способность работать в анаэробном режиме неограниченно длительное время! Это феноменальное открытие достойно не менее как Нобелевской премии по физиологии человека.
.
Пример 4. Экономика государства

        В заключение мы рассмотрим более объемный пример. Исходными данными будут 64 базовых экономических показателей Российской федерации с 1996 по 1999 с ежемесячным измерением (предоставлены весной 2000 аналитическим отделом Министерства обороны РФ в ходе проведенных там консультаций). Напомним, что данный период относится к последнему четырехлетию президентства Ельцина с неоднократными сменами правительства (Черномырдин до 03.98, Киреенко до 09.98, Примаков до 05.99, Степашин до 08.99, Путин) и со знаменитым дефолтом августа 1998.
        После удаления функционально зависимых и корреляционно связанных переменных в матрице данных остается 45 показателей. В результате вычисления главных компонент выделяются всего лишь три основных фактора, покрывающие 30.2, 20.1, 18.3% дисперсии измерений. Четвертый компонент ответственен всего лишь за 8,2% дисперсии. Согласно факторным нагрузкам этим трем главным факторам можно дать следующую интерпретацию: основной финансово-социальный фактор, фактор “производство-энергия-транспорт”, фактор бюджетного финансирования.
        Обратимся теперь к исследованию распределения измерений на плоскости первых двух факторов (рис. 6, а). Здесь явно прослеживается логичная временная упорядоченность измерений. Первые 33 месяца (правительству Черномырдина принадлежат 27 из них) видна отчетливо линейная тенденция ухудшения ситуации по обоим двум главным факторам (положительный экономический смысл имеет отрицательное направление по второму фактору), в которой можно выделить “островок стабилизации” с 13-го по 25-й месяц. Небольшой островок стабилизации заметен и в 9-12 месяцах (обычное оживление последнего квартала года), после чего идет скачок к 13-му месяцу.

а)

б)

Рис. 6. Проекции ежемесячных экономических показателей на факторную плоскость 1-2: а — главные компоненты; б — после вращения
        При правительстве Киреенко (27-32 месяц) общая тенденция не изменилась. 31-й месяц — это дефолт, откуда идет позитивный скачок в производственной сфере к 33-му месяцу (экономика немного облегчается от безумных “скачек” в черномырдинской “пирамиде” ГКО — государственных краткосрочных обязательств). И далее ситуация начинает улучшаться (правительство Примакова), сначала по второму, а затем и по первому фактору, и это направление продолжает правительство Степашина. В последние 5 месяцев новое правительство Путина сосредотачивает улучшение экономической ситуации только на первом (финансово-социальном) факторе. Еще более зримо эти тенденции можно проследить на временных графиках для каждого фактора отдельно (см. [2]).
        Подвергнем наши три фактора различным методам вращения. Оказывается, что в данном случае большого количества переменных все они в рамках фиксированного числа факторов дают качественно близкие результаты. Факторы подравниваются по своей значимости, покрывая 26.3, 23.7 и 19.2% дисперсии измерений. Преимущественно наблюдаются миграции переменных из первого фактора во второй и из второго в третий (23 и 21% переменных, соответственно), в обратную же сторону (в различных сочетаниях) перемещаются  только 15% переменных. В результате этого смысловые нагрузки факторов смешиваются, и их однозначная интерпретация становится невозможной.
        Посмотрим, что же творится с измерениями (рис. 6, б). Первые 15 месяцев Черномырдин рулит только первым фактором, затем он делает поворот на 90 градусов и начинает управлять только вторым фактором. В начале третьего года он делает резкий скачок с поворотом на 180 градусов, и через три месяца его заменяют на Киреенко. Тот продолжает траекторию “скачка” Черномырдина, подправляя ее направление в сторону политики 1996. Последствия дефолта августа 1998 (31-34 месяц) особенно не проявляются, это просто повторение “скачка” Черномырдина в меньшем масштабе. После этого Примаков 4 месяца топчется на месте, затем делает резкий скачок под углом 45 градусов к “скачку” Черномырдина и опять 4 месяца топчется на месте. Затем Степашин очень робко двигается в направлении, обратном “раннему Черномырдину”, после чего Путин поворачивает на 90 градусов и энергично возвращается к продолжению политики Черномырдина второй половины 1997.

    Вот такая вот загогулина вырисовывается. И как вам это все нравится? Да с такими вращениями совершенно невозможно управлять государством!

Литература
1. Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ. М.: Мир, 1982.
2. Кулаичев А.П. Методы и средства комплексного анализа данных. Изд. 4-е. М.: ФОРУМ—ИНФРА-М, 2006.