Chefeat.ru

Здоровое питание

Бутстреппинг (статистика)

16-04-2023

Статистический бутстрэппинг (англ. Bootstrapping) — компьютерный метод определения статистик вероятностных распределений. Основан на многократном генерировании выборок методом Монте-Карло на базе данных обучающей выборки. [1]

Позволяет просто и быстро оценивать самые разные статистики (доверительные интервалы, дисперсию, корреляцию и так далее) для сложных моделей.

Содержание

Принцип статистического бутстрэппинга

Бутстреппинг основан на том, что зачастую наиболее достоверную информацию о форме распределения случайной величины несёт имеющаяся у нас выборка значений этой случайной величины. Например, выборка наблюдений с двумя пиками в гистограмме не будет хорошо аппроксимироваться кривой нормального распределения, которая имеет только одну вершину. И вместо того, чтобы постулировать неадекватную форму распределения случайной величины (например, нормальную), мы используем форму распределения, которую даёт нам выборка.

В качестве примера предположим, что мы исследуем высоту людей во всем мире. Мы не можем измерить всех людей, а вместо этого выбираем лишь малую часть. Пусть в нашей выборке N людей. Мы можем посчитать среднее значение. Но для того, чтобы рассуждать о доверительном интервале роста населения, нам нужно некоторое представление о вариабельности среднего. В простейшем варианте Бутстреппинга мы, используя наши исходные данные о росте N различных людей, составляем новую выборку, также размера N. Это новая выборка взята из исходной случайным образом так, что одно значение может быть выбрано несколько раз (т.е., строя новую выборку, мы каждый раз случайным образом выбираем из N имеющихся значений). У такой выборки будет другое среднее. Сделав такую выборку много раз (возможно, 1000 или 10000 раз), каждый раз вычисляя среднее, мы получаем гистограмму распределения, которая можем ответить на вопросы о доверительном интервале.

Основной принцип бутстрепинга: имитировать многократное получение выборки из генеральной совокупности методом Монте-Карло, используя данные из имеющейся у нас выборки.

Рецентирирование

При проведении Бутстрапа истинное распределение заменяется выборочным, поэтому использовании статистик вместо истинных параметров необходимо использовать данные по полной выборке

Типы бутстрапинга

Ресемплинг

Бутстрепинг, как правило, применяется для оценки статистик распределения (например, среднего, дисперсии) без использования параметрических допущений. Есть по крайней мере два способа выполнения ресемплинга.

  • Алгоритма Монте-Карло для случая дискретизации прост. Во-первых, частоты дискретизации данных с заменой, и размер изменения частоты дискретизации должны быть равны размеру исходного набора данных. Тогда статистический оценка вычисляется с первого шага. Мы повторяем эту процедуру несколько раз, чтобы получить более точную оценку Bootstrap распределение статистической оценки.
  • «Точная» версия для случая дискретизации похожа, предполагает полный перебор всех возможных вариантов сочетания данных выборке. Это может потребовать вычислительных ресурсов, сколько в общей сложности различных вариантов выборки, где n — размер набора данных.

Например ресемплинг среднего арифметического

Рассмотрим эксперимент по бросанию монет. Мы подбрасываем монетку и записываем орел или решка. (Предположим для простоты, что есть только два исхода) Пусть X = x1, x2, …, x10 в 10 наблюдениях из эксперимента. х = 1, если орел, и 0 в противном случае. В обычной теории, мы можем использовать Т-статистика для оценки распределения выборочного среднего, . Вместо этого мы используем бутстрапинг, в частности, ресемплинг (передискретизацию), чтобы получить распределение . Сначала проведем повторную выборку данных для получения передискредитованной выборки: X1 * = x2, x1, x10, x10, x3, x4, x6, x7, x1, x9. Обратите внимание, что есть дубликаты, так как бутстрап частоты дискретизации происходит от выборки с возвращением из данных. Отметим также, что число точек данных в первой и последующих бустрап выорках равна количеству точек данных в оригинальной ыборке. Затем вычисляем среднюю этой бутстрап выборки — это будет первая точка бутстрап оценки распределения: μ1 *. Мы повторяем этот процесс, чтобы получить вторую бутстрап выборку X2 * и вычислить второй точку бутстрап оценки μ2 *. Если мы повторим это в 100 раз, то мы имеем μ1 * μ2 *, …, μ100 *. Это представляет собой эмпирическое бутстрап распределение оценки среднего арифметического. Из этого эмпирического распределения, можно получить доверительный интервал оценки с целью проверки гипотез.

Пример передискретизации регрессии

Случай передискретизации регрессии относится к простой схеме интерполяции. Для регрессии проблемы, в случае если набор данных достаточно велик, эта простая схема часто приемлема. Тем не менее, этот метод является открытым для критики [источник?]. В регрессии проблем, объясняющие переменные часто фиксированы, или по крайней мере, над ними наблюдается больший контроль, чем над зависимой переменной. Кроме того, ряд из объясняющих переменных определяет информацию о них. Таким образом, в случае повторной выборки, каждая бутстрап выборка потеряет некоторую информацию. Таким образом, альтернативные процедуры загрузки должны быть рассмотрены.

Гладкий бутстраппинг

Согласно этой схеме, небольшое количество случайного шума (как правило, нормальное распределенного с нулевым мат. ожиданием) добавляется к каждому наблюдению. Примечания переводчика: Зачем?

Параметрический бутстраппинг

В этом случае параметрическая модель оснащена данным, часто максимального правдоподобия и примеры случайных чисел, взяты из этой подогнанной модели. Обычно проба имеет тот же размер, что и исходные данные. Тогда оценки рассчитывается исходя из этих данных. Эта бустрап выборка повторяется много раз, как и для других способов. Использование параметрической модели на этапе отбора бутстрап выборок приводит к процедурам, которые отличаются от результатов, полученных путем применения основных статистических теорий бустрапинга для той же модели.

Передискретизация остатков

Другой подход к бустреппингу в регрессии является передискретизация остатоков. Метод состоит в следующем.

  1. Установить модель и сохранить подогнанные значения
  2. Для каждой пары (xi, yi), в которой xi является (возможно, многомерного) объясняющей переменной, добавьте случайно остатки,, от зависимой переменной yi. Другими словами, создать синтетический переменных отклика где J выбирается случайным образом из списка (1, …, N) для каждого i.
  3. Установите на модель с помощью фиктивных переменных отклика у * ', и сохраните параметры , по оценкам из синтетического y*i.
  4. Повторите шаги 2 и 3 статистически значимое число раз.

Эта схема имеет то преимущество, что она сохраняет информацию в независимых переменных. Тем не менее, возникает вопрос о том, какие остатки на повторной выборки. Сырье остатки являются одним из вариантов, другой стьюдентизированные остатки (в линейной регрессии). Хотя есть аргументы в пользу использования стьюдентизированные остатки, на практике она часто мало чем отличается и легко запускать обе схемы и сравнить результаты друг против друга.

Гауссовский процедура бутстрап регрессии

Когда данные временно взаимосвязаны, простой бустрап уничтожает присущее корреляции. Этот метод используется гауссовский процесс регрессии в соответствии с вероятностной модели, которая имитирует может быть обращено. Гауссовские процессы, методы байесовского непараметрической статистики, но здесь используется для построения параметрический подход начальной загрузки, который позволяет неявно зависимости от времени данных, которые должны быть приняты во внимание.

Дикий бутстраппинг

Каждый остаток случайно умножается на случайной величиной со средним 0 и дисперсией 1. Этот метод предполагает, что «истинное» распределения остатков симметрично и может предложить преимущества по сравнению с простым остаточным выборки для меньших размеров образца.[2]

Скользящий блочный бутстрапинг

В движущемся блочном бутстрапинге, n-b+1 перекрытия блоков длиной б будет создана следующим образом: Наблюдение 1 b будет блок 1, замечание 2 b+1 будет блок 2 и т. д. Затем из этих n-b+1 блоков, n/b блоки будут выбраны случайным замены. После согласования этих n/b блоки в порядке, они были выбраны, даст бустрап наблюдений. Этот бустраппинг работает с зависимыми данными, однако, бутстреп наблюдения не будет стационарным больше по построению. Но, было показано, что изменение длины блока можно избежать этой проблемы. [3]

Получение доверительного интервала по бутстрап распределению

Бустрап распределения параметров может была использовано для расчета доверительных интервалов для параметра.

Виды бустрап оценки доверительных интервалов

Есть несколько методов для построения доверительных интервалов методом бустреппинга:

По процентилям

Предполагает использование 2,5 и 97,5 процентилей бутстрап распределения как 95 % доверительного интервала. Этот метод может быть применен к любой статистики. Она будет работать в тех случаях, когда распределение загрузки симметрично[4], где выборка статистики медианно объективно и имеет максимальную концентрацию (или минимальный риск по отношению к абсолютному значению функции потерь). В других случаях, процентиль бутстрапа может быть слишком узким.[5]

Bias-Corrected бустрап

Коррекция смещением бустрапинга — корректирует отклонения в бутстраппинг распределении.

Ускоренный бутстрап

Ускорений бустрап (BCa) — бустрап после смещения и исправления по Эфрону (1987 г.)[6] регулирует как смещение и перекос в распределении бустрапа. Такой подход является точным в самых различных условиях, имеет разумные требования вычислений, а также производит достаточно узкие интервалы.

Основной бутстрап

Стьюдентизированный бустрап

См. также

Примечания

  1. http://lib.stat.cmu.edu/S/bootstrap.funs
  2. Wu, C.F.J. (1986). Jackknife, bootstrap and other resampling methods in regression analysis (with discussions). Annals of Statistics, 14, 1261—1350.
  3. Politis, D.N. and Romano, J.P. (1994). The stationary bootstrap. Journal of American Statistical Association, 89, 1303—1313.
  4. Efron, B. The jackknife, the bootstrap, and other resampling plans. — Society of Industrial and Applied Mathematics CBMS-NSF Monographs, 1982. — Vol. 38. — ISBN 0898711797
  5. when working with small sample sizes (i.e., less than 50), the percentile confidence intervals for (for example) the variance statistic will be too narrow. So that with a sample of 20 points, 90 % confidence interval will include the true variance only 78 % of the time, according to Schenker.
  6. 10.2307/2289144.

Публикации

  • [1]
  • Bootstrap tutorial from ICASSP 99: Tutorial from a signal processing perspective
  • Bootstrap sampling tutorial using MS Excel
  • Animations for bootstrapping i.i.d data by Yihui Xie using the R
  • bootstrapping tutorial
  • package animation

Бутстреппинг (статистика).

© 2014–2023 chefeat.ru, Россия, Челябинск, ул. Речная 27, +7 (351) 365-27-13