Байесовская статистика Теория Техники Портал:Статистика
Байесовская линейная регрессия — это подход в линейной регрессии , в котором статистический анализ проводится в контексте байесовского вывода : когда регрессионная модель имеет ошибки [англ.] , имеющие нормальное распределение , и, если принимается определённая форма априорного распределения , доступны явные результаты для апостериорных распределений вероятностей параметров модели.
Рассмотрим стандартную задачу линейной регрессии , в которой для
i
=
1
,
.
.
.
,
n
{\displaystyle i=1,...,n}
мы указываем среднее условное распределение величины
y
i
{\displaystyle y_{i}}
для заданного вектора
k
×
1
{\displaystyle k\times 1}
предсказаний
x
i
{\displaystyle \mathbf {x} _{i}}
:
y
i
=
x
i
T
β
+
ϵ
i
,
{\displaystyle y_{i}=\mathbf {x} _{i}^{\rm {T}}{\boldsymbol {\beta }}+\epsilon _{i},}
где
β
{\displaystyle {\boldsymbol {\beta }}}
является
k
×
1
{\displaystyle k\times 1}
вектором, а
ϵ
i
{\displaystyle \epsilon _{i}}
являются независимыми и одинаково распределёнными нормально случайными величинами:
ϵ
i
∼
N
(
0
,
σ
2
)
.
{\displaystyle \epsilon _{i}\sim N(0,\sigma ^{2}).}
Это соответствует следующей функции правдоподобия :
ρ
(
y
|
X
,
β
,
σ
2
)
∝
(
σ
2
)
−
n
/
2
e
−
1
2
σ
2
(
y
−
X
β
)
T
(
y
−
X
β
)
.
{\displaystyle \rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-n/2}e^{-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})}.}
Решение обычного метода наименьших квадратов является оценкой вектора коэффициентов с помощью псевдообратной матрицы Мура — Пенроуза :
β
^
=
(
X
T
X
)
−
1
X
T
y
{\displaystyle {\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} }
где
X
{\displaystyle \mathbf {X} }
является
n
×
k
{\displaystyle n\times k}
матрицей плана [англ.] , каждая строка которой является вектором предсказаний
x
i
T
{\displaystyle \mathbf {x} _{i}^{\rm {T}}}
, а
y
{\displaystyle \mathbf {y} }
является вектор-столбцом r
[
y
1
⋯
y
n
]
T
{\displaystyle [y_{1}\;\cdots \;y_{n}]^{\rm {T}}}
.
Это является частотным [англ.] подходом, и предполагается, что существует достаточно измерений для того, чтобы сказать что-то осмысленное о
β
{\displaystyle {\boldsymbol {\beta }}}
. В байесовском подходе данные сопровождаются дополнительной информацией в виде априорного распределения вероятности . Априорные убеждения о параметрах комбинируются с функцией правдоподобия данных согласно теореме Байеса для получения апостериорной уверенности о параметрах
β
{\displaystyle {\boldsymbol {\beta }}}
и
σ
{\displaystyle \sigma }
. Априорные данные могут принимать различные формы в зависимости от области применения и информации, которая доступна a priori .
Для любого априорного распределения, может не существовать аналитического решения для апостериорного распределения . В этом разделе мы рассмотрим так называемое сопряжённое априорное распределение , для которого апостериорное распределение можно вывести аналитически.
Априорное распределение
ρ
(
β
,
σ
2
)
{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2})}
является сопряжённым функции правдоподобия, если оно имеет ту же функциональную форму с учётом
β
{\displaystyle {\boldsymbol {\beta }}}
и
σ
{\displaystyle \sigma }
. Поскольку логарифмическое правдоподобие квадратично от
β
{\displaystyle {\boldsymbol {\beta }}}
, его перепишем так, что правдоподобие становится нормальным от
(
β
−
β
^
)
{\displaystyle ({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})}
. Запишем
(
y
−
X
β
)
T
(
y
−
X
β
)
=
(
y
−
X
β
^
)
T
(
y
−
X
β
^
)
+
(
β
−
β
^
)
T
(
X
T
X
)
(
β
−
β
^
)
.
{\displaystyle {\begin{aligned}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\\&+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}}).\end{aligned}}}
Правдоподобие теперь переписывается как
ρ
(
y
|
X
,
β
,
σ
2
)
∝
(
σ
2
)
−
v
/
2
e
−
v
s
2
2
σ
2
(
σ
2
)
−
(
n
−
v
)
/
2
×
e
−
1
2
σ
2
(
β
−
β
^
)
T
(
X
T
X
)
(
β
−
β
^
)
,
{\displaystyle {\begin{aligned}\rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})&\propto (\sigma ^{2})^{-v/2}e^{-{\frac {vs^{2}}{2{\sigma }^{2}}}}(\sigma ^{2})^{-(n-v)/2}\\&\times e^{-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})},\end{aligned}}}
где
v
s
2
=
(
y
−
X
β
^
)
T
(
y
−
X
β
^
)
{\displaystyle vs^{2}=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\quad }
и
v
=
n
−
k
{\displaystyle \quad v=n-k}
,
где
k
{\displaystyle k}
является числом коэффициентов регрессии.
Это указывает на вид априорного распределения:
ρ
(
β
,
σ
2
)
=
ρ
(
σ
2
)
ρ
(
β
|
σ
2
)
,
{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2})=\rho (\sigma ^{2})\rho ({\boldsymbol {\beta }}|\sigma ^{2}),}
где
ρ
(
σ
2
)
{\displaystyle \rho (\sigma ^{2})}
является обратным гамма-распределением [англ.]
ρ
(
σ
2
)
∝
(
σ
2
)
−
v
0
2
−
1
e
−
v
0
s
0
2
2
σ
2
.
{\displaystyle \rho (\sigma ^{2})\propto (\sigma ^{2})^{-{\frac {v_{0}}{2}}-1}e^{-{\frac {v_{0}s_{0}^{2}}{2{\sigma }^{2}}}}.}
В обозначениях, введённых в статье Обратное гамма-распределение [англ.] , это плотность распределения
Inv-Gamma
(
a
0
,
b
0
)
{\displaystyle {\text{Inv-Gamma}}(a_{0},b_{0})}
с
a
0
=
v
0
2
{\displaystyle a_{0}={\tfrac {v_{0}}{2}}}
и
b
0
=
1
2
v
0
s
0
2
{\displaystyle b_{0}={\tfrac {1}{2}}v_{0}s_{0}^{2}}
, где
v
0
{\displaystyle v_{0}}
и
s
0
2
{\displaystyle s_{0}^{2}}
являются априорными значениями
v
{\displaystyle v}
и
s
2
{\displaystyle s^{2}}
соответственно. Эквивалентно, эту плотность можно описать как масштабированное обратное распределение хи-квадрат [англ.]
Scale-inv-
χ
2
(
v
0
,
s
0
2
)
.
{\displaystyle {\mbox{Scale-inv-}}\chi ^{2}(v_{0},s_{0}^{2}).}
Далее, условная априорная плотность
ρ
(
β
|
σ
2
)
{\displaystyle \rho ({\boldsymbol {\beta }}|\sigma ^{2})}
является нормальным распределением ,
ρ
(
β
|
σ
2
)
∝
(
σ
2
)
−
k
2
e
−
1
2
σ
2
(
β
−
μ
0
)
T
Λ
0
(
β
−
μ
0
)
.
{\displaystyle \rho ({\boldsymbol {\beta }}|\sigma ^{2})\propto (\sigma ^{2})^{-{\frac {k}{2}}}e^{-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}\mathbf {\Lambda } _{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})}.}
В обозначениях нормального распределения условное априорное распределение равно
N
(
μ
0
,
σ
2
Λ
0
−
1
)
.
{\displaystyle {\mathcal {N}}\left({\boldsymbol {\mu }}_{0},\sigma ^{2}\mathbf {\Lambda } _{0}^{-1}\right).}
При указанном априорным распределении апостериорное распределение можно выразить как
ρ
(
β
,
σ
2
|
y
,
X
)
∝
ρ
(
y
|
X
,
β
,
σ
2
)
ρ
(
β
|
σ
2
)
ρ
(
σ
2
)
{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto \rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\rho ({\boldsymbol {\beta }}|\sigma ^{2})\rho (\sigma ^{2})}
∝
(
σ
2
)
−
n
/
2
e
−
1
2
σ
2
(
y
−
X
β
)
T
(
y
−
X
β
)
{\displaystyle \propto (\sigma ^{2})^{-n/2}e^{-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})}}
×
(
σ
2
)
−
k
/
2
e
−
1
2
σ
2
(
β
−
μ
0
)
T
Λ
0
(
β
−
μ
0
)
{\displaystyle \times (\sigma ^{2})^{-k/2}e^{-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})}}
×
(
σ
2
)
−
(
a
0
+
1
)
e
−
b
0
σ
2
.
{\displaystyle \times (\sigma ^{2})^{-(a_{0}+1)}e^{-{\frac {b_{0}}{{\sigma }^{2}}}}.}
После некоторых преобразований[ 1] апостериорная вероятность может быть переписана так, что апостериорное среднее
μ
n
{\displaystyle {\boldsymbol {\mu }}_{n}}
вектора параметров
β
{\displaystyle {\boldsymbol {\beta }}}
может быть выражено в терминах оценки по методу наименьших квадратов
β
^
{\displaystyle {\hat {\boldsymbol {\beta }}}}
и априорного среднего
μ
0
{\displaystyle {\boldsymbol {\mu }}_{0}}
, где поддержка априорной вероятности выражается матрицей априорной точности
Λ
0
{\displaystyle {\boldsymbol {\Lambda }}_{0}}
μ
n
=
(
X
T
X
+
Λ
0
)
−
1
(
X
T
X
β
^
+
Λ
0
μ
0
)
.
{\displaystyle {\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}(\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}).}
Для подтверждения, что
μ
n
{\displaystyle {\boldsymbol {\mu }}_{n}}
в действительности является апостериорным средним, квадратичные члены в экспоненте можно преобразовать к квадратичной форме [англ.] от
β
−
μ
n
{\displaystyle {\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n}}
[ 2] .
(
y
−
X
β
)
T
(
y
−
X
β
)
+
(
β
−
μ
0
)
T
Λ
0
(
β
−
μ
0
)
=
{\displaystyle (\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})+({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})=}
(
β
−
μ
n
)
T
(
X
T
X
+
Λ
0
)
(
β
−
μ
n
)
+
y
T
y
−
μ
n
T
(
X
T
X
+
Λ
0
)
μ
n
+
μ
0
T
Λ
0
μ
0
.
{\displaystyle ({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})+\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}.}
Теперь апостериорное распределение можно выразить как нормальное распределение , умноженное на обратное гамма-распределение [англ.] :
ρ
(
β
,
σ
2
|
y
,
X
)
∝
(
σ
2
)
−
k
2
e
−
1
2
σ
2
(
β
−
μ
n
)
T
(
X
T
X
+
Λ
0
)
(
β
−
μ
n
)
{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto (\sigma ^{2})^{-{\frac {k}{2}}}e^{-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +\mathbf {\Lambda } _{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})}}
×
(
σ
2
)
−
n
+
2
a
0
2
−
1
e
−
2
b
0
+
y
T
y
−
μ
n
T
(
X
T
X
+
Λ
0
)
μ
n
+
μ
0
T
Λ
0
μ
0
2
σ
2
.
{\displaystyle \times (\sigma ^{2})^{-{\frac {n+2a_{0}}{2}}-1}e^{-{\frac {2b_{0}+\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}}{2{\sigma }^{2}}}}.}
Поэтому апостериорное распределение можно параметризовать следующим образом.
ρ
(
β
,
σ
2
|
y
,
X
)
∝
ρ
(
β
|
σ
2
,
y
,
X
)
ρ
(
σ
2
|
y
,
X
)
,
{\displaystyle \rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto \rho ({\boldsymbol {\beta }}|\sigma ^{2},\mathbf {y} ,\mathbf {X} )\rho (\sigma ^{2}|\mathbf {y} ,\mathbf {X} ),}
где два множителя соответствуют плотностям распределений
N
(
μ
n
,
σ
2
Λ
n
−
1
)
{\displaystyle {\mathcal {N}}\left({\boldsymbol {\mu }}_{n},\sigma ^{2}{\boldsymbol {\Lambda }}_{n}^{-1}\right)\,}
и
Inv-Gamma
(
a
n
,
b
n
)
{\displaystyle {\text{Inv-Gamma}}\left(a_{n},b_{n}\right)}
с параметрами, задаваемыми выражениями
Λ
n
=
(
X
T
X
+
Λ
0
)
,
μ
n
=
(
Λ
n
)
−
1
(
X
T
X
β
^
+
Λ
0
μ
0
)
,
{\displaystyle {\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +\mathbf {\Lambda } _{0}),\quad {\boldsymbol {\mu }}_{n}=({\boldsymbol {\Lambda }}_{n})^{-1}(\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}),}
a
n
=
a
0
+
n
2
,
b
n
=
b
0
+
1
2
(
y
T
y
+
μ
0
T
Λ
0
μ
0
−
μ
n
T
Λ
n
μ
n
)
.
{\displaystyle a_{n}=a_{0}+{\frac {n}{2}},\qquad b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\rm {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).}
Это можно интерпретировать как байесовское обучение, в котором параметры обновляются согласно следующим равенствам
μ
n
=
(
X
T
X
+
Λ
0
)
−
1
(
Λ
0
μ
0
+
X
T
X
β
^
)
=
(
X
T
X
+
Λ
0
)
−
1
(
Λ
0
μ
0
+
X
T
y
)
,
{\displaystyle {\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}})=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+\mathbf {X} ^{\rm {T}}\mathbf {y} ),}
Λ
n
=
(
X
T
X
+
Λ
0
)
,
{\displaystyle {\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}),}
a
n
=
a
0
+
n
2
,
{\displaystyle a_{n}=a_{0}+{\frac {n}{2}},}
b
n
=
b
0
+
1
2
(
y
T
y
+
μ
0
T
Λ
0
μ
0
−
μ
n
T
Λ
n
μ
n
)
.
{\displaystyle b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\rm {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).}
Обоснованность модели
p
(
y
|
m
)
{\displaystyle p(\mathbf {y} |m)}
— это вероятность данных для данной модели
m
{\displaystyle m}
. Она известна также как предельное правдоподобие и как априорная предсказательная плотность . Здесь модель определяется функцией правдоподобия
p
(
y
|
X
,
β
,
σ
)
{\displaystyle p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma )}
и априорным распределением параметров, то есть,
p
(
β
,
σ
)
{\displaystyle p({\boldsymbol {\beta }},\sigma )}
. Обоснованность модели фиксируется одним числом, показывающим, насколько хорошо такая модель объясняет наблюдения. Обоснованность модели байесовской линейной регрессии, представленная в этом разделе, может быть использована для сравнения конкурирующих линейных моделей путём байесовского сравнения моделей . Эти модели могут отличаться числом и значениями предсказывающих переменных, как и их априорными значениями в параметрах модели. Сложность модели принимается во внимание обоснованностью модели, поскольку она исключает параметры путём интегрирования
p
(
y
,
β
,
σ
|
X
)
{\displaystyle p(\mathbf {y} ,{\boldsymbol {\beta }},\sigma |\mathbf {X} )}
по всем возможным значениям
β
{\displaystyle {\boldsymbol {\beta }}}
и
σ
{\displaystyle \sigma }
.
p
(
y
|
m
)
=
∫
p
(
y
|
X
,
β
,
σ
)
p
(
β
,
σ
)
d
β
d
σ
{\displaystyle p(\mathbf {y} |m)=\int p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma )\,p({\boldsymbol {\beta }},\sigma )\,d{\boldsymbol {\beta }}\,d\sigma }
Этот интеграл можно вычислить аналитически и решение задаётся следующим равенством[ 3]
p
(
y
|
m
)
=
1
(
2
π
)
n
/
2
det
(
Λ
0
)
det
(
Λ
n
)
⋅
b
0
a
0
b
n
a
n
⋅
Γ
(
a
n
)
Γ
(
a
0
)
{\displaystyle p(\mathbf {y} |m)={\frac {1}{(2\pi )^{n/2}}}{\sqrt {\frac {\det({\boldsymbol {\Lambda }}_{0})}{\det({\boldsymbol {\Lambda }}_{n})}}}\cdot {\frac {b_{0}^{a_{0}}}{b_{n}^{a_{n}}}}\cdot {\frac {\Gamma (a_{n})}{\Gamma (a_{0})}}}
Здесь
Γ
{\displaystyle \Gamma }
означает гамма-функцию . Поскольку мы выбрали сопряжённое априорное распределение, предельное правдоподобие может быть легко вычислено путём решения следующего равенства для произвольных значений
β
{\displaystyle {\boldsymbol {\beta }}}
и
σ
{\displaystyle \sigma }
.
p
(
y
|
m
)
=
p
(
β
,
σ
|
m
)
p
(
y
|
X
,
β
,
σ
,
m
)
p
(
β
,
σ
|
y
,
X
,
m
)
{\displaystyle p(\mathbf {y} |m)={\frac {p({\boldsymbol {\beta }},\sigma |m)\,p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ,m)}{p({\boldsymbol {\beta }},\sigma |\mathbf {y} ,\mathbf {X} ,m)}}}
Заметим, что это равенство является ни чем иным, как переформулировкой теоремы Байеса . Подстановка формулы для априорной вероятности, правдоподобия и апостериорной вероятности и упрощения получающегося выражения приводит к аналитическому выражению, приведённому выше.
В общем случае может оказаться невозможным или нецелесообразным получать апостериорное распределение аналитически. Однако можно аппроксимировать апостериорную вероятность методом приближенного байесовского вывода [англ.] , таким как выборка по методу Монте-Карло [ 4] или вариационные байесовские методы [англ.] .
Частный случай
μ
0
=
0
,
Λ
0
=
c
E
{\displaystyle {\boldsymbol {\mu }}_{0}=0,\mathbf {\Lambda } _{0}=c\mathbf {E} }
называется гребневой регрессией .
Аналогичный анализ можно провести для общего случая множественной регрессии и частично для байесовской оценки ковариационной матрицы [англ.] — см. Байесовская мультивариантная линейная регрессия [англ.] .
↑ Промежуточные выкладки можно найти в книге O’Hagan (1994) в начале главы по линейным моделям.
↑ Промежуточные выкладки можно найти в книге Fahrmeir и др. (2009 на стр. 188.
↑ Промежуточные выкладки можно найти в книге O’Hagan (1994) на странице 257.
↑ Карлин и Луи (Carlin, Louis, 2008) и Гельман с соавторами (Gelman, et al., 2003) объяснили как использовать методы выборочных наблюдений для байесовской линейной регрессии.
George E. P. Box , Tiao G. C. Bayesian Inference in Statistical Analysis . — Wiley, 1973. — ISBN 0-471-57428-7 .
Bradley P. Carlin, Thomas A. Louis. Bayesian Methods for Data Analysis, Third Edition. — Boca Raton, FL: Chapman and Hall/CRC, 2008. — ISBN 1-58488-697-8 .
Fahrmeir L., Kneib T., Lang S. Regression. Modelle, Methoden und Anwendungen. — 2nd. — Heidelberg: Springer, 2009. — ISBN 978-3-642-01836-7 . — doi :10.1007/978-3-642-01837-4 .
Fornalski K.W., Parzych G., Pylak M., Satuła D., Dobrzyński L. Application of Bayesian reasoning and the Maximum Entropy Method to some reconstruction problems // Acta Physica Polonica A. — 2010. — Т. 117 , вып. 6 . — С. 892—899 . — doi :10.12693/APhysPolA.117.892 .
Krzysztof W. Fornalski. Applications of the robust Bayesian regression analysis // International Journal of Society Systems Science. — 2015. — Т. 7 , вып. 4 . — С. 314–333 . — doi :10.1504/IJSSS.2015.073223 .
Andrew Gelman, John B. Carlin, Hal S. Stern, Donald B. Rubin. Bayesian Data Analysis, Second Edition. — Boca Raton, FL: Chapman and Hall/CRC, 2003. — ISBN 1-58488-388-X .
Michael Goldstein, David Wooff. Bayes Linear Statistics, Theory & Methods . — Wiley, 2007. — ISBN 978-0-470-01562-9 .
Minka, Thomas P. (2001) Bayesian Linear Regression Архивная копия от 26 октября 2008 на Wayback Machine , Microsoft research web page
Peter E. Rossi, Greg M. Allenby, Robert McCulloch. Bayesian Statistics and Marketing. — John Wiley & Sons, 2006. — ISBN 0470863676 .
Anthony O'Hagan. Bayesian Inference. — First. — Halsted, 1994. — Т. 2B. — (Kendall's Advanced Theory of Statistics). — ISBN 0-340-52922-9 .
Sivia, D.S., Skilling, J. Data Analysis - A Bayesian Tutorial. — Second. — Oxford University Press, 2006.
Gero Walter, Thomas Augustin. Bayesian Linear Regression—Different Conjugate Models and Their (In)Sensitivity to Prior-Data Conflict // Technical Report Number 069, Department of Statistics, University of Munich. — 2009.