Перплексия (Hyjhlytvnx)

Перплексия в теории информации — безразмерная величина, мера того, насколько хорошо распределение вероятностей предсказывает выборку. Перплексия может использоваться для сравнения качества статистических моделей. Низкий показатель перплексии указывает на то, что распределение вероятности хорошо предсказывает выборку.

Перплексия распределения вероятности

Перплексия PP дискретного распределения вероятности p определяется как ${\mathit {PP}}(p):=2^{H(p)}=2^{-\sum _{x}p(x)\log _{2}p(x)}=\prod _{x}p(x)^{-p(x)}$ ,

где $H(p)$ — энтропия (в битах) распределения, а $x$ — диапазон событий. (Основание логарифма не обязательно должно быть равно 2: перплексия не зависит от основания логарифма при условии, что энтропия и показательная функция имеют одно и то же основание).

Перплексия — это показательная функция от энтропии, которая является более точно определенной величиной. Энтропия — это мера ожидаемого, или «среднего» количества битов, необходимых для кодирования результата случайной переменной, например, используя теоретически оптимальный код переменной длины.Перплексия случайной переменной X может быть определена как перплексия распределения по ее возможным значениям x.

В частном случае, когда p моделирует k-стороннюю игральную кость (равномерное распределение по k дискретным событиям), ее перплексия равна k. Случайная величина с перплексией k имеет такую же неопределенность, как и k-сторонняя игральная кость.

Понятие перплексии иногда используется в значении меры сложности проблемы предсказания. Это не всегда точно. Если у вас есть два исхода, один из которых имеет вероятность 0,9, то при использовании оптимальной стратегии ваши шансы на правильное угадывание составляют 90 процентов. Перплексия составляет $2^{(-0.9*log_{2}{0.9}-0.1*log_{2}{0.1})}=1.38$ . Обратная величина к перплексии (которая в случае со справедливым k-сторонним кубиком представляет собой вероятность правильного угадывания) равна $1/1,38=0,72$ , а не 0,9.

Сложность вероятностной модели

Модель с неизвестным распределения вероятности величины $p$ может создана на основе обучающей выборки, взятой из $p$ . Учитывая предложенную модель вероятности $q$ , можно оценить $q$ , определив насколько хорошо она предсказывает отдельную тестовую выборку $x_{1},x_{2},\ldots ,x_{N}$ , также взятую из $p$ . Перплексия модели $q$ вычисляется как

${\displaystyle b^{-{\frac {1}{N}}\sum _{i=1}^{N}\log _{b}q(x_{i})}}$ ,

где $b$ обычно равно 2. Чем выше качество модели $q$ для неизвестного распределения $p$ , тем больше вероятности $q(x_{i})$ для тестовых событий, и, таким образом, у них меньше значение перплексии.

Приведенную выше экспоненту можно рассматривать как среднее количество бит, необходимое для представления тестового события $x_{i}$ , если использовать оптимальный код, основанный на $q$ . Модели с более низким значением перплексии лучше справляются со сжатием тестовой выборки, требуя в среднем меньше бит на тестовый элемент, поскольку $q(x_{i})$ имеет тенденцию к росту.

Показатель экспоненты также может рассматриваться как перекрёстная энтропия

${\displaystyle H({\tilde {p}},q)=-\sum _{x}{\tilde {p}}(x)\log _{2}q(x)}H({\tilde {p}},q)=-\sum _{x}{\tilde {p}}(x)\log _{2}q(x)$ ,

где ${\displaystyle {\tilde {p}}}$ обозначает эмпирическое распределение тестовой выборки (то есть ${\displaystyle {\tilde {p}}(x)=n/N}$ , если $x$ встречается $n$ раз в тестовой выборке размера $N$ ).

Перплексия на слово

В обработке естественного языка перплексия — это способ оценки качества языковых моделей. Языковая модель — это распределение вероятностей по целым предложениям или текстам.

Используя определение переплексии для вероятностной модели, можно обнаружить, например, что среднее предложение $x_{i}$ в тестовой выборке может быть закодировано в 190 битах, что дает огромное значение перплексии модели $2^{190}$ на предложение. В этом случае нормализуют длину предложения и учитывают только количество битов в слове. Если предложения тестовой выборки состоят из 1000 слов и могут быть закодированы с использованием 7,95 бита на слово, то перплексия модели составит $2^{7,95}=247$ на слово.

Наименьшее значение перплексии, которое было расcчитано для корпуса текстов Брауна (1 миллион слов американского английского языка различных тем и жанров) по состоянию на 1992 год, составляет около 247 на слово, что соответствует перекрестной энтропии $log_{2}{247}=7,95$ бита на слово или 1,75 бита на букву^[1] при использовании триграммной модели. Часто можно добиться меньшей перплексии на более специализированных корпусах текстов, поскольку они более предсказуемы.

Перплексия нейросетевой модели для русского языка ruGPT-3 на тестовой выборке составляет для ruGPT-3 Large величину 13.6, для ruGPT-3 XL — 12.05 ^[2]^[3].

Примечания

↑ Brown, Peter F. "An Estimate of an Upper Bound for the Entropy of English" (англ.) // Computational Linguistics. 18 (1). — Retrieved 2007-02-07.. Архивировано 17 сентября 2021 года.
↑ Большая нейросеть для русского языка ruGPT-3 (рус.). SberCloud (ООО «Облачные технологии»). Дата обращения: 3 октября 2021. Архивировано 3 октября 2021 года.
↑ Sber AI. Russian GPT-3 models (англ.). Sber AI. Sber AI (2021).

[1] Brown, Peter F. "An Estimate of an Upper Bound for the Entropy of English" (англ.) // Computational Linguistics. 18 (1). — Retrieved 2007-02-07.. Архивировано 17 сентября 2021 года.

[2] Большая нейросеть для русского языка ruGPT-3 (рус.). SberCloud (ООО «Облачные технологии»). Дата обращения: 3 октября 2021. Архивировано 3 октября 2021 года.

[3] Sber AI. Russian GPT-3 models (англ.). Sber AI. Sber AI (2021).

[1]

[2]

[3]