Определение сглаживания данных и пример |
m nm bu.nu u
Оглавление:
Что это такое:
Сглаживание данных - это статистический метод, который включает удаление выбросов из набора данных, чтобы сделать шаблон более заметен.
Как это работает (пример):
Например, скажем, что университет анализирует данные о преступности за последние 10 лет. Число насильственных преступлений выглядит примерно так:
Как вы можете видеть, большую часть времени университет испытывает менее 15 преступлений в год. Однако в 2006 и 2007 годах он испытал 44 из-за требований к экспериментальной отчетности со стороны команды общественной безопасности университета. Эксперимент, связанный с отчетностью, изменил определение насильственных преступлений на включение краж любого рода в течение этих лет, что привело к большому скачку количества «насильственных» преступлений в кампусе. Если мы включим эти годы в среднем, то есть, если мы сгладим некоторые данные, то в университете в среднем было около 19 насильственных преступлений в год. Но если мы выйдем из этих лет, мы увидим, что более реалистичное среднее число составляет 13 насильственных преступлений в год - разница в 32%.
Почему это имеет значение:
Существует множество способов сглаживания данных, в том числе с использованием перемещения средние и алгоритмы. Идея заключается в том, что сглаживание данных делает шаблоны более заметными и, таким образом, помогает прогнозировать изменения цен на акции, тенденции клиентов или любую другую коммерческую информацию. Однако сглаживание данных может игнорировать ключевую информацию или делать важные факты менее заметными; другими словами, «округление краев» данных может чрезмерно подчеркивать определенные данные и игнорировать другие данные.