Энтропия Реньи (|umjkhnx Jyu,n)

В теории информации энтропия Реньи — обобщение энтропии Шеннона — является семейством функционалов, используемых в качестве меры количественного разнообразия, неопределённости или случайности некоторой системы. Названа в честь Альфреда Реньи.

Если некоторая система имеет дискретное множество доступных состояний $X=\{x_{1},...,x_{n}\}$ , которому соответствует распределение вероятностей $p_{i}$ для $i=1,...,n$ (то есть $p_{i}$ — вероятности пребывания системы в состояниях $x_{i}$ ), тогда энтропия Реньи с параметром $\alpha$ (при $\alpha \geq 0$ и $\alpha \neq 1$ ) системы определяется как

H_{\alpha }(X)={\frac {1}{1-\alpha }}\log \sum _{i=1}^{n}p_{i}^{\alpha }={\frac {1}{1-\alpha }}\log {\Big \langle }p^{\alpha -1}{\Big \rangle }

,

где угловыми скобками обозначено математическое ожидание по распределению $p_{i}$ ( $p$ — вероятность пребывания системы в некотором состоянии как случайная величина), логарифм берётся по основанию 2 (для счёта в битах) либо по другому удобному основанию (оно должно быть больше 1). Основание логарифма определяет единицу измерения энтропии. Так, в математической статистике обычно используется натуральный логарифм.

Если все вероятности $p_{i}=1/n$ , тогда при любом $\alpha$ энтропия Реньи $H_{\alpha }(X)=\log n$ . В остальных случаях энтропия Реньи убывает как функция $\alpha$ . Притом более высокие значения $\alpha$ (уходящие в бесконечность) дают энтропии Реньи значения, которые в большей степени определены лишь самыми высокими вероятностями событий (то есть вклад в энтропию маловероятных состояний уменьшается). Промежуточный случай $\alpha =1$ в пределе даёт энтропию Шеннона, которая обладает особыми свойствами. Более низкие значения $\alpha$ (стремящиеся к нулю), дают значение энтропии Реньи, которое взвешивает возможные события более равномерно, менее зависимо от их вероятностей. А при $\alpha =0$ получаем максимально возможную $\alpha$ -энтропию, равную $\log n$ независимо от распределения (лишь бы $p_{i}\neq 0$ ).

Смысл параметра $\alpha$ можно описать, говоря неформальным языком, как восприимчивость функционала к отклонению состояния системы от равновесного: чем больше $\alpha$ , тем быстрее уменьшается энтропия при отклонении системы от равновесного состояния. Смысл ограничения $\alpha \geq 0$ заключается в том, чтобы обеспечивалось увеличение энтропии при приближении системы к равновесному (более вероятному) состоянию. Это требование является естественным для понятия энтропия. Следует заметить, что для энтропии Цаллиса, которая эквивалентна энтропии Реньи с точностью до не зависящего от $X$ монотонного преобразования, соответствующее ограничение часто опускают, при этом для отрицательных значений параметра вместо максимизации энтропии используют её минимизацию. Между тем существует корректное с точки зрения поведения функционала обобщение энтропий Реньи и Цаллиса на случай произвольного действительного значения параметра.

Энтропия Реньи играет важную роль в экологии и статистике, определяя так называемые индексы разнообразия. Энтропия Реньи также важна в квантовой информации, она может быть использована в качестве меры сложности. В цепочке Гейзенберга $XY$ энтропия Реньи была рассчитана в терминах модулярных функций, зависящих от $\alpha$ . Они также приводят к спектру показателей фрактальной размерности.

H_α для некоторых конкретных значений α

Некоторые частные случаи

При $\alpha =0$ энтропия Реньи не зависит от вероятностей состояний (вырожденный случай) и равна логарифму числа состояний (логарифму мощности множества $X$ ):

H_{0}(X)=\log n=\log |X|

.

Данную энтропию иногда называют энтропией Хартли. Она используется, например, в формулировке принципа Больцмана.

В пределе при $\alpha \to 1$ , можно показать, используя правило Лопиталя, что $H_{\alpha }$ сходится к энтропии Шеннона. Таким образом, семейство энтропий Реньи может быть доопределено функционалом

H_{1}(X){\stackrel {\mathrm {df} }{\;=\;}}\lim _{\alpha \to 1}H_{\alpha }(X)=H(X)=-\sum _{i=1}^{n}p_{i}\log p_{i}

.

Квадратичная энтропия, иногда называемая энтропией столкновений, — это энтропия Реньи с параметром $\alpha =2$ :

H_{2}(X)=-\log \sum _{i=1}^{n}p_{i}^{2}=-\log \operatorname {Prob} \{x=y\}

,

где $x$ и $y$ — независимые случайные величины, одинаково распределённые на множестве $X$ с вероятностями $p_{i}$ ( $i=1,...,n$ ). Квадратичная энтропия используется в физике, обработке сигналов, экономике.

Существует предел

H_{\infty }(X){\stackrel {\mathrm {df} }{\;=\;}}\lim _{\alpha \to \infty }H_{\alpha }(X)=-\log \sup _{i}p_{i}

,

который называется min-энтропией, потому что это наименьшее значение $H_{\alpha }$ . Данная энтропия также является вырожденным случаем, поскольку её значение определяется только наиболее вероятным состоянием.

Неравенства для различных значений α

Два последних случая связаны соотношением $H_{\infty }<H_{2}<2H_{\infty }$ . С другой стороны, энтропия Шеннона $H_{1}(X)$ может быть сколь угодно высокой для распределения X с фиксированной min-энтропией.

H_{2}<2H_{\infty }

потому что

\log \sum \limits _{i=1}^{n}{p_{i}^{2}}\geq \log \sup _{i}p_{i}^{2}=2\log \sup _{i}p_{i}

.

H_{\infty }<H_{2}

, потому что

\log \sum \limits _{i=1}^{n}{p_{i}^{2}}<\log \sup _{i}p_{i}\left({\sum \limits _{i=1}^{n}{p_{i}}}\right)=\log \sup _{i}p_{i}

.

H_{1}\geq H_{2}

в соответствии с неравенством Йенсена

\sum \limits _{i=1}^{n}{p_{i}\log p_{i}}\leq \log \sum \limits _{i=1}^{n}{p_{i}^{2}}

.

Расхождения (дивергенции) Реньи

Кроме семейства энтропий, Реньи также определил спектр мер расхождений (дивергенций), обобщающих расхождение Кульбака—Лейблера. Формулы данного раздела записаны в общем виде — через логарифм по произвольному основанию. Поэтому нужно понимать, что каждая приведённая формула представляет собой семейство эквивалентных функционалов, определённых с точностью до постоянного (положительного) множителя.

Расхождение Реньи с параметром $\alpha$ , где $\alpha >0$ и $\alpha \neq 1$ , распределения $Q$ относительно распределения $P$ (или «расстояние от $P$ до $Q$ ») определяется как

D_{\alpha }(P\|Q)={\frac {1}{\alpha -1}}\log \sum _{i=1}^{n}p_{i}^{\alpha }q_{i}^{1-\alpha }={\frac {1}{\alpha -1}}\log {\Big \langle }(p/q)^{\alpha -1}::P{\Big \rangle }

или (формально, без учёта нормировки вероятностей)

D_{\alpha }(P\|Q)=-H_{\alpha }{\Bigg (}{\frac {p}{q^{1-1/\alpha }}}{\Bigg )}

,

H_{\alpha }(P)=-\left.D_{\alpha }(P\|Q)\right|_{q=1}

.

Как расхождение Кульбака—Лейблера, расхождение Реньи является неотрицательным для $\alpha >0$ .

Некоторые частные случаи

При $\alpha =0$ дивергенция Реньи не определена, однако семейство дивергенций можно доопределить элементом

D_{0}(P\|Q){\stackrel {\mathrm {df} }{\;=\;}}\lim _{\alpha \to 0}D_{\alpha }(P\|Q)=-\log \sum _{i=1}^{n}q_{i}\operatorname {sgn} p_{i}

: минус логарифм от суммы вероятностей

q

, таких что соответствующие

p>0

.

$D_{1/2}(P\|Q)=-2\log \sum _{i=1}^{n}{\sqrt {p_{i}q_{i}}}$ : расстояние Бхаттачария (минус логарифм от коэффициента Бхаттачария^[англ.], несущественный множитель $2$ игнорируем). Данное расхождение с точностью до монотонного преобразования эквивалентно расстоянию Хеллингера и сферическому расстоянию Бхаттачария—Рао, однако в отличие от них не удовлетворяет неравенству треугольника, а потому не является метрикой в пространстве распределений.
$D_{1}(P\|Q){\stackrel {\mathrm {df} }{\;=\;}}\lim _{\alpha \to 1}D_{\alpha }(P\|Q)=D_{KL}(P\|Q)=\sum _{i=1}^{n}p_{i}\log {\frac {p_{i}}{q_{i}}}={\Big \langle }\log {\frac {p}{q}}::P{\Big \rangle }$ : расхождение Кульбака—Лейблера (равно математическому ожиданию по распределению $P$ логарифма отношения вероятностей $p/q$ ).
$D_{2}(P\|Q)=\log \sum _{i=1}^{n}{\frac {p_{i}^{2}}{q_{i}}}=\log {\Big \langle }{\frac {p}{q}}::P{\Big \rangle }$ : логарифм от математического ожидания по распределению $P$ отношения вероятностей $p/q$ . Данное расхождение с точностью до монотонного преобразования эквивалентно расстоянию хи-квадрат Пирсона $D_{\chi ^{2}}(P\|Q)=\sum _{i=1}^{n}{\frac {(p_{i}-q_{i})^{2}}{q_{i}}}$ .
$D_{\infty }(P\|Q){\stackrel {\mathrm {df} }{\;=\;}}\lim _{\alpha \to \infty }D_{\alpha }(P\|Q)=\log \sup _{i}{\frac {p_{i}}{q_{i}}}$ : логарифм от максимального отношения вероятностей $p/q$ .

Финансовая (игровая) интерпретация

Рассмотрим игру (лотерею) по угадыванию некой случайной величины. Официальные выигрышные ставки известны и опубликованы в виде распределения вероятностей $m$ . Между тем истинное распределение вероятностей может не совпадать с $m$ . Знание истинного распределения позволяет игроку заработать. Ожидаемый рост капитала экспоненциальный. Считая верным распределение $b$ , игрок может подсчитать (свое) математическое ожидание экспоненциальной скорости роста капитала (за раунд игры) [Soklakov2020]:

ОжидаемыйРост

={\frac {1}{R}}\,D_{1}(b\|m)+{\frac {R-1}{R}}\,D_{1/R}(b\|m)\,,

где $R$ обозначает относительную меру неприятия риска по Эрроу-Пратту.

Обозначив $p$ истинное распределение (не обязательно совпадающее с мнением игрока $b$ ) реально полученный рост можно подсчитать в пределе многократной игры [Soklakov2020]:

ФактическийРост

={\frac {1}{R}}\,{\Big (}D_{1}(p\|m)-D_{1}(p\|b){\Big )}+{\frac {R-1}{R}}\,D_{1/R}(b\|m)\,.

Почему случай α = 1 особенный

Значение $\alpha =1$ , которое соответствует энтропии Шеннона и расхождению Кульбака—Лейблера, является особенным, потому что только в этом случае можно выделить переменные A и X из совместного распределения вероятностей, такие что справедливо

H(A,X)=H(A)+\mathbb {E} _{p(a)}\{H(X|a)\}

для энтропии, и

D_{\mathrm {KL} }(p(x|a)p(a)||m(x,a))=\mathbb {E} _{p(a)}\{D_{\mathrm {KL} }(p(x|a)||m(x|a))\}+D_{\mathrm {KL} }(p(a)||m(a))

—

для дивергенции.

Последнее означает, что если мы будем искать распределение $p(x,a)$ , которое сводит к минимуму расхождения некоторых основополагающих мер $m(x,a)$ , и получим новую информацию, которая влияет только на распределение $a$ , то распределение $p(x|a)$ не будет зависеть от изменений $m(x|a)$ .

В общем случае расхождения Реньи с произвольными значениями $\alpha$ удовлетворяют условиям неотрицательности, непрерывности и инвариантности относительно преобразования координат случайных величин. Важным свойством любых энтропии и дивергенции Реньи является аддитивность: когда $A$ и $X$ независимы, из $p(A,X)=p(A)p(X)$ следует

H_{\alpha }(A,X)=H_{\alpha }(A)+H_{\alpha }(X)

и

D_{\alpha }(P(A)P(X)\|Q(A)Q(X))=D_{\alpha }(P(A)\|Q(A))+D_{\alpha }(P(X)\|Q(X))

.

Наиболее сильные свойства случая $\alpha =1$ , которые предполагают определение условной информации и взаимной информации из теории связи, могут быть очень важны в других приложениях или совершенно неважны, в зависимости от требований этих приложений.

Перекрёстная энтропия Реньи

Перекрёстная энтропия $H_{\alpha }(P,Q)$ от двух распределений с вероятностями $p_{i}$ и $q_{i}$ ( $i=1,...,n$ ) в общем случае может определяться по-разному (в зависимости от применения), но должна удовлетворять условию $H_{\alpha }(P,P)=H_{\alpha }(P)$ . Один из вариантов определения (аналогичным свойством обладает перекрёстная энтропия Шеннона):

H_{\alpha }(P,Q)=H_{\alpha }(P)+D_{\alpha }(P,Q)

.

Другое определение, предложенное А. Реньи, может быть получено из следующих соображений. Определим эффективное количество состояний системы как среднее геометрическое взвешенное от величин $1/q_{i}$ с весами $p_{i}$ :

{\overline {n}}=\prod _{i=1}^{n}(1/q_{i})^{p_{i}}

.

Отсюда следует выражение для перекрёстной энтропии Шеннона

H(P,Q)=\log {\overline {n}}=-\sum _{i=1}^{n}p_{i}\log q_{i}

.

Рассуждая аналогичным образом, определим эффективное количество состояний системы как среднее степенное взвешенное от величин $1/q_{i}$ с весами $p_{i}$ и параметром $1-\alpha$ :

{\overline {n}}=\left(\sum _{i=1}^{n}p_{i}(1/q_{i})^{1-\alpha }\right)^{\frac {1}{1-\alpha }}=\left(\sum _{i=1}^{n}p_{i}q_{i}^{\alpha -1}\right)^{\frac {1}{1-\alpha }}

.

Таким образом, перекрёстная энтропия Реньи имеет вид

H_{\alpha }(P,Q)=\log {\overline {n}}={\frac {1}{1-\alpha }}\log \sum _{i=1}^{n}p_{i}q_{i}^{\alpha -1}={\frac {1}{1-\alpha }}\log {\Big \langle }q^{\alpha -1}::P{\Big \rangle }

.

Нетрудно видеть, что в случае, если распределения вероятностей $p$ и $q$ совпадают, перекрёстная энтропия Реньи совпадает с энтропией Реньи.
Также при $\alpha \to 1$ перекрёстная энтропия Реньи сходится к перекрёстной энтропии Шеннона.
Свойство $H(P,Q)=H(P)+D_{KL}(P\|Q)\geq H(P)$ , справедливое для перекрёстной энтропии Шеннона, в общем случае не имеет места. Перекрёстная энтропия Реньи может быть как больше, так и меньше энтропии Реньи.

Непрерывный случай

Для формального обобщения энтропии Шеннона на случай непрерывного распределения служит понятие дифференциальная энтропия. Совершенно аналогично определяется дифференциальная энтропия Реньи:

H_{\alpha }(f)={\frac {1}{1-\alpha }}\log \int \limits _{X}^{}{f^{\alpha }(x)}dx

.

Расхождение (дивергенция) Реньи в непрерывном случае также является обобщением расхождения Кульбака—Лейблера и имеет вид

D_{\alpha }(g,f)={\frac {1}{\alpha -1}}\log \int \limits _{X}^{}{g^{\alpha }(x)f^{1-\alpha }(x)}dx

.

Определение перекрёстной энтропии, предложенное А. Реньи, в непрерывном случае имеет вид

H_{\alpha }(g,f)={\frac {1}{1-\alpha }}\log \int \limits _{X}^{}{g(x)f^{\alpha -1}(x)}dx

.

В приведённых формулах $f(x)$ и $g(x)$ — некоторые функции плотности распределения вероятностей, определённые на интервале $X\subseteq R$ , и полагается $\alpha >0$ , $\alpha \neq 1$ . При $\alpha =1$ рассмотренные функционалы непрерывно доопределяются соответственно энтропией Шеннона $H(f)$ , дивергенцией Кульбака—Лейблера $D(g,f)$ и перекрёстной энтропией Шеннона $H(g,f)$ .

Обобщение на случай произвольного параметра

Для произвольного $\alpha \subseteq R$ , $\alpha \neq 0$ , $\alpha \neq 1$ , энтропия и дивергенция Реньи определяются следующим образом:

H_{\alpha }(f)={\frac {1}{\alpha (1-\alpha )}}\log \int \limits _{X}^{}{f^{\alpha }(x)}dx

,

D_{\alpha }(g,f)={\frac {1}{\alpha (\alpha -1)}}\log \int \limits _{X}^{}{g^{\alpha }(x)f^{1-\alpha }(x)}dx

.

При $\alpha =1$ рассмотренные функционалы непрерывно доопределяются соответственно энтропией Шеннона $H(f)$ и дивергенцией Кульбака—Лейблера $D(g,f)$ . При $\alpha =0$ дивергенция непрерывно доопределяется обратной дивергенцией Кульбака—Лейблера $D(f,g)$ , а энтропия с точностью до несущественного слагаемого и несущественного сомножителя эквивалентна энтропии Берга $\int \limits _{X}^{}{\log f(x)}dx$ . Действительно, если функционал $H_{\alpha }(f)$ уменьшить на постоянную величину ${\frac {1}{\alpha (1-\alpha )}}\log \int \limits _{X}^{}{}dx$ и раскрыть неопределённость при $\alpha \to 0$ по правилу Лопиталя, в пределе получим выражение для энтропии Берга, делённое на $\int \limits _{X}^{}{}dx$ . Однако следует заметить, что энтропия Берга, как и вообще энтропия Реньи при $\alpha \leq 0$ , не существует для распределений, заданных на неограниченном промежутке $X$ . Для дискретных аналогов приведённых здесь формул подобного ограничения нет.

Литература

A. Rényi (1961). "On measures of information and entropy" (PDF). Proceedings of the 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960. pp. 547—561.
A. O. Hero, O.Michael and J. Gorman. Alpha-divergences for Classification, Indexing and Retrieval (англ.) : journal. — 2002.
F. Nielsen and S. Boltz. The Burbea-Rao and Bhattacharyya centroids (неопр.). — 2010.
O.A. Rosso EEG analysis using wavelet-based information tools. Journal of Neuroscience Methods 153 (2006) 163–182
Rényi entropy as a measure of entanglement in quantum spin chain: F. Franchini, A. R. Its, V. E. Korepin, Journal of Physics A: Math. Theor. 41 (2008) 025302 [1]
F. Liese and I. Vajda. Convex Statistical Distances // Teubner-Texte zur Mathematik. – Leipzig, 1987, band 95.
Soklakov, A. N. (2020). "Economics of Disagreement—Financial Intuition for the Rényi Divergence". Entropy. 22 (8): 860. arXiv:1811.08308. doi:10.3390/e22080860.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)

Энтропия Реньи (|umjkhnx Jyu,n)

Hα для некоторых конкретных значений α

Некоторые частные случаи

Неравенства для различных значений α

Расхождения (дивергенции) Реньи

Некоторые частные случаи

Финансовая (игровая) интерпретация

Почему случай α = 1 особенный

Перекрёстная энтропия Реньи

Непрерывный случай

Обобщение на случай произвольного параметра

Литература

H_α для некоторых конкретных значений α