Главная » 2015 » Май » 13 » Как лгать с помощью статистики
16:08
Как лгать с помощью статистики

Как лгать с помощью статистики

3 методика:Лжем при помощи среднестатистическогоЛжем при помощи выборок (наборов данных)Лжем при помощи графиков

Как знает каждый неравнодушный к деталям человек, статистика - штука коварная, особенно если не знать, как именно нужно ее интерпретировать. Эта статья научит вас тому, как обманывать людей при помощи статистики.

Шаги

Метод 1 из 3: Лжем при помощи среднестатистического

  1. 1 Выучите терминологию. Словом "среднестатистический” сегодня бросаются налево и направо, едва лишь речь заходит об обсуждении чего-то, относящегося к статистике. На первый взгляд термин звучит вполне ясно: среднестатистическое - это то, что в середине. Тем не менее, есть несколько видов среднестатистических данных, каждый из которых может быть весьма и весьма обманчив для человека, не умеющего с ним работать.
    • Среднее арифметическое: его мы знаем со школы. Складываем все цифры, делим на количество цифр - и готово. К примеру, есть цифры 3, 3, 5, 4, 7. Среднее арифметическое высчитывается так: сперва сложим (22), потом поделим на 5 (5 цифр).
      • Среднее арифметическое равняется 4.4
      • Медиана: некое число, которое находится строго в середине выборки. Если взять тот же набор чисел - 3, 3, 5, 4, 7 - то медианой в его случае будет 4, так как есть 2 числа меньше четверки и два числа больше.
      • Мода: это то число, которое чаще всего повторяется в выборке. Так, в нашем случае это 3, так как в этом - 3, 3, 5, 4, 7 - наборе чисел есть две тройки.
      • 2 Когда лжет среднее арифметическое. Может казаться, что среднее арифметическое лгать не может просто по определению, но это только кажется. Аномальное высокие или аномальное низкие данные в выборке могут существенно исказить картину и, собственно, само среднее арифметическое! Чтобы лгать с его помощью, вам нужно найти выбросы значений данных и воспользоваться ими.
        • Пример: вы проводите опрос среди 50 домохозяйств в вашем районе. Тема опроса - уровень дохода. Допустим, все соседи получают доход в долларах. И все соседи зарабатывают около 40-60 тысяч долларов в год. Но один-единственный сосед умудряется делать в год 5 миллионов. Сами понимаете, когда вы сядете высчитывать среднее арифметическое по доходу в районе, то этот богатей своими 5 миллионами серьезно поднимет общую планку.
        • Аналогично: у 9 ваших соседей в банке лежит по тысяче долларов, а у десятого - всего один доллар. Среднее арифметическое получается равным $900,10, то есть почти на 10% меньше суммы вклада большей части людей.
        • В ходе проведения серьезных опросов, как правило, самые высокие и низкие показатели отбрасываются, только потом высчитывается среднее арифметическое. Увы, далеко не каждый опрос, чьи результаты вы видите в СМИ, можно назвать серьезным. Если у вас нет доступа к данным, полученным в ходе опроса, либо если нет письменного заявления о том, что в ходе анализа данных были отброшены экстремумы, то верить такому опросу… не стоит.
        • 3 Когда лжет медиана. Откровенно говоря, тут лгать сложнее всего, что и понятно - медиана суть середина, она не может быть слишком большой или маленькой. Она просто должна быть в середине… тем не менее, с ее помощью можно прятать очень большие или очень маленькие данные. Например, у нас есть набор следующих цифр: 1, 1, 2, 3, 4, 5, 3000. Медиана здесь - 3.
          • Когда у вас четное количество данных, медиану можно найти, если найти среднее арифметическое двух данных, оказавшихся в середине выборки. Впрочем, это не вариант в случае резких выбросов показателей.
          • Не стоит слепо доверять отчетам об изменении результатов по прошествии времени, если оные изменения описываются медианами. Если какая-то компания заявляет, что медианный рост цен на ее услуги составил 3% в год, то это может значить, что в этом году компания повысила цены на все 20% и теперь просто пытается это скрыть за данными прошлых лет.
          • 4 Когда лжет мода. В ряде случаев, и это объективно, моды лгать не могут. Например, когда речь заходит о том, сколько в среднем было куплено одним человеком билетов на спортивный матч, то тут фальсифицировать просто нечего. Тем не менее, моды тоже могут искажать действительность, особенно когда речь заходит о небольших выборках.
            • Например, в нашей выборке есть все цифры от 1 до 100, но "1” повторяется 3 раза. Соответственно, 1 будет модой по выборке, хотя среднее арифметическое будет гораздо ближе к 50.
            • Любой опрос, предлагающий оценить что-то по широкой шкале, может с помощью моды исказить действительность. Например, если опрошено 100 респондентов, каждому из которых предлагалось оценить что угодно по шкале от 1 до 10, и если люди оценивали на "10” чаще, чем ставили другие оценки (даже если десяток всего на одну больше, чем, к примеру, единиц), то можно смело заявить, что средняя мода по выборке равняется 10.
            • 5 Когда лгут репрезентативные данные. Если у вас есть выборка, наполненная скорее абстрактными, а не конкретными данными (к примеру, опрос клиентской удовлетворенности), то лгать в таком случае становится до ужаса просто. Например, если предложить респондентам оценить их удовлетворенность от работы с компанией по шкале от 1 до 3, то это вовсе не значит, что те, кто поставит 3, будут в 3 раза довольнее тех, кто поставит 1. По такой схеме часто лгут со средним арифметическим, чуть реже - с медианами, еще реже - с модами.

            Метод 2 из 3: Лжем при помощи выборок (наборов данных)

            1. 1 Используем небольшую выборку. Любой человек, понимающий в статистике, может сказать вам, что единственный способ достоверно что-то выявить или узнать в ходе опроса заключается в том, чтобы опросить как можно больше самых разных респондентов. Если вам удастся опросить 100 человек - это хорошо, если 10000 - то еще лучше. Чем больше данных у вас на входе, тем выше вероятность того, что вы найдете наиболее приближенные к настоящим средним значения. Соответственно, верно и обратное - чем меньше данных на входе, тем условнее результаты опроса.
              • Например, вы узнали, что недавно два человека получили травмы по глупости… например, сотрясения мозга из-за удара подушками. Если опросить только двух этих людей, то можно узнать, что подушки - смертельно опасны! И ведь получится, что так и есть! Более того, до тех пор, пока вы не признаетесь, что опросили всего 2, а не 2000, то никто так и не сможет оспорить ваше заявление.
              • 2 Используем управляемую выборку. Точнее всего получаются данные, полученные в ходе не только больших опросов, но еще и таких, у которых был широкий охват респондентов. Грубо говоря, геолог, описывающий типы минералов в пустыне, опишет их куда точнее, если объездит всю пустыню и соберет везде по камушку, чем если устроит в одно месте раскопки и нароет 1000 булыжников. Соответственно, если вы ограничите охват респондентов опроса, то сможете получить совсем другие данные…
                • Порой, как ни странно, это даже служит благим целям. Например, когда исследование использует демографические данные, то опрашивать могут не всех подряд, а строго тех, кто представляет интерес для исследования (белые мужчины старше 40 и без работы, к примеру). И до тех самых пор, пока об этом упоминается в работе, где приведена ссылка на сам опрос, то это нормально, допустимо и уместно.
                • Данные, получаемые в ходе небольших университетских исследований, особенно сильно грешат тем, что базируются на управляемой выборке. Впрочем, тому есть причина: мало у кого из студентов есть время и средства для того, чтобы устроить по-настоящему серьезный опрос. Тем не менее, до тех пор, пока в работе четко указано, что опрос проводился среди тех-то и там-то - это нормально. Увы, СМИ редко делятся со своими читателями такими скучными подробностями, предпочитая вместо этого бить наповал хлесткими заголовками с претензией на глобальность.
                • 3 Используем несбалансированную подборку. Это, пожалуй, самое хитрое и коварное, что вы можете сделать. Несбалансированная подборка поможет солгать даже в том случае, когда читатель имеет доступ ко множеству деталей и подробностей. Суть в том, чтобы использовать данные, которые нельзя сравнивать и сопоставлять между собой. Разумеется, использование этих данных проводится с видом, будто так и надо, будто все в порядке. Наглядный пример: есть два города. В одном живет 100 тысяч человек, и за 10 лет был прирост в 10 тысяч жителей. В другом живут 10 человек, и за 10 лет был прирост в 10 жителей. А теперь давайте сравним то, что сравнивать нельзя - скорость прироста жителей… в процентах. Десять процентов против ста - каково?
                  • Этот прием порой используется при анализе рыночных данных для фальсификации данных о продажах. Например, вы отслеживаете продажи яблок и апельсинов. Где-то на середине исследования выясняется, что апельсины кончились - на склад не завезли, на прилавки класть нечего. Если продолжать сравнивать данные и дальше, то окажется, что на определенном этапе яблоки стали в разы популярнее апельсинов, которые почему-то вдруг вообще не продавались. А ведь виной всему лишь то, что на прилавках только яблоки и остались.

                  Метод 3 из 3: Лжем при помощи графиков

                  1. 1 Оставьте ось У пустой. Нет более наглядного представления данных, чем его Величество График. Тем не менее, манипулировать можно и ими. А все потому, что люди чаще смотрят на фигуру графика, а не на оси и их значения. Проще всего солгать при помощи статистики и графиков - оставить ось У пустой.
                    • Если на оси Х у вас 5 столбцов, но нет данных о том, насколько именно они выше друг друга, то никто не сможет точно узнать, как же на самом деле они отличаются друг от друга.
                    • 2 Используйте на оси У очень большие или маленькие данные. Допустим, ваши данные укладываются в диапазон от 1 до 50. Чтобы скрыть различия, вы можете увеличить ось У так, чтобы единицей измерения на ней была, скажем, 100: 100, 200, 300 и так далее. Сами понимаете, что в масштабе десятков разница между "3” и "10” очень велика. Увы, на графике, построенном в масштабе сотен, ее вряд ли кто-то заметит.
                    • 3 Начните ось У не с начала. Если ваши данные укладываются в диапазон от 11 до 51, то меньшую границу можно показать еще меньше, а большую - еще больше. Для этого в нашем случае нужно всего лишь точкой отсчета по оси У поставить число "10”. Соответственно, "11” будет уже чуть выше оси Х. И это вряд ли вызовет у кого-то подозрение… ну, кроме самых дотошных, разумеется, которые не поленятся приглядеться и обнаружат, что график начинается с 10, а не с 0.
                      • Отметка "51” становится на таком графике в 50 раз выше отметки "11”, так как меньшая отметка равняется всего лишь единице. Если бы график начинался с нуля, то отметка "51” была бы всего в почти 5 раз выше отметки "11”.
                      • 4 Используйте неточный масштаб. Всякий раз, когда вы натыкаетесь на комментарий "не масштабировать”, есть повод задуматься. Далеко не всегда неправильный масштаб используется злонамеренно, порой просто входные данные такие, что адекватно отобразить их на одной стандартной странице просто невозможно. Тем не менее, порой это таки используют и в целях обмана.
                        • Например, визуальное представление размера может быть вытянуто в высоту, но не в ширину, из-за чего объект будет казаться выше и тоньше, чем он есть на самом деле.
                        • 5 Использование графика в целях пропуска данных. Такое часто используется в широких опросах, делящих полученные данные на категории. Например, график, показывают, какой газированный напиток является самым популярным в том или ином штате США. На первый взгляд, вроде все очень детализированно. А вот на второй взгляд уже могут появиться вопросы - а сколь широка была выборка, какие были использованы пороговые значения, на основе вообще чего - среднего арифметического, медианы или моды - построен график?
                          • Если вы собирались использовать только один результат из каждой опрошенной области, а от всех остальных избавиться, вы можете без труда контролировать полученные данные, не прибегая даже к более тонким манипуляциям. Опять же, чем меньше конкретных данных, тем сложнее оценить качество полученных результатов.

                          Советы

                          • Сомневаетесь? Проверяйте. Если вы не можете получить четкие, конкретные данные о размере, цели и методах выборки, стоящими за статистическими данными, то не доверяйте им.

                          Предупреждения

                          • Если вы знаете, как именно можно использовать статистику, чтобы приврать, то сложностей у вас не возникнет - кроме, само собой, сложностей этического характера. Используйте ваше знание не во вред людям!
                          Категория: Вопросы и ответы | Просмотров: 544 | | Рейтинг: 0.0/0
                          Всего комментариев: 0
                          Добавлять комментарии могут только зарегистрированные пользователи.
                          [ Регистрация | Вход ]