Рекурсивные нейронные сети (Jytrjvnfudy uywjkuudy vymn)

Рекурсивные нейронные сети (англ. Recursive neural network; RvNN) — вид нейронных сетей, работающих с данными переменной длины. Модели рекурсивных сетей используют иерархические структуры образцов при обучении. Например, изображения, составленные из сцен, объединяющих подсцены, включающие много объектов. Выявление структуры сцены и её деконструкция- нетривиальная задача. При этом необходимо как идентифицировать отдельные объекты, так и всю структуру сцены.

В рекурсивных сетях нейроны с одинаковыми весами активируются рекурсивно в соответствии со структурой сети. В процессе работы рекурсивной сети вырабатывается модель для предсказания для структур переменной размерности, так и скалярных структур через активацию структуры в соответствии с топологией. Сети RvNNs успешно применяются при обучении последовательных структур и деревьев в задачах обработки естественного языка, при этом фразы и предложения моделируются через векторное представление слов. RvNNs первоначально появились для распределённого представления структур, используя предикаты математической логики.^[1] Разработки рекурсивных сетей и первые модели начались в середине 1990-х.^[2]^[3]

Архитектура

Базовый элемент

В самой простой архитектуре узлы сети сходятся к родителям через матрицу весов скрытого слоя, используемую многократно через всю сеть, и нелинейную функцию активации типа гиперболического тангенса. Если c₁ и c₂ — n-мерные презентации узлов сети, то их родители также представляют собой n-мерные вектора, вычисляемые как

$p_{1,2}=\tanh \left(W[c_{1};c_{2}]\right)$

Здесь W — обученная матрица весов $n\times 2n$ .

Эта архитектура с некоторым усовершенствованием используется для последовательной дешифровки натуральных сцен изображения или для структурирования предложений естественного языка.^[4]

Рекурсивная каскадная корреляция (RecCC)

Рекурсивная каскадная корреляция RecCC - это подход к конструированию рекурсивных сетей, оперирующих с тремя доменами^[2] , первые приложения такого рода появились в химии^[5], а расширение образует направленный ациклический граф.^[6]

Рекурсивные сети без учителя

В 2004 году была предложена система обучения рекурсивной сети без учителя.^[7]^[8]

Тензорные сети

Тензорные рекурсивные сети используют одну тензорную функцию для всех узлов дерева.^[9]

Обучение

Стохастический метод градиентного спуска

Для обучения используется обычно Стохастический метод градиентного спуска (SGD). Градиент определяется через сквозную структуру обратного распространения ошибок (BPTS), этот метод является модификацией обратного распространения ошибок во временных рядах, применяемого для обучения рекуррентных нейронных сетей.

Особенности

В литературе была доказана способность универсальной аппроксимации рекуррентными сетями (RNN) по сетям типа дерева.^[10]^[11]

Родственные модели

Рекуррентная нейронная сеть

Рекуррентная нейронная сеть представляет собой рекурсивную сеть со специфической структурой — в виде линейной цепочки. Рекурсивные сети работают на структурах общего типа, включающих иерархию, рекуррентные сети работают исключительно на линейной прогрессии во времени, связывая предыдущий момент времени со следующим через скрытый нейронный слой .

Древовидная эхо-сеть

Древовидная эхо-сеть (Tree Echo State Network) — эффективный пример рекурсивных нейронных сетей,^[12] использующих парадигму резервуарного вычисления^[англ.] (Reservoir computing)^[13].

Расширения до графов

Расширение структуры до графов образует графическую нейронную сеть (graph neural network, GNN)^[14], нейронную сеть для графов (Neural Network for Graphs, NN4G)^[15] и более новые свёрточные нейронные сети для графов.

Ссылки

↑ Goller, C.; Küchler, A. Learning task-dependent distributed representations by backpropagation through structure (англ.) // Neural Networks, 1996., IEEE : journal. — doi:10.1109/ICNN.1996.548916.
↑ ¹ ² Sperduti, A.; Starita, A. Supervised neural networks for the classification of structures (англ.) // IEEE Transactions on Neural Networks^[англ.] : journal. — 1997. — 1 May (vol. 8, no. 3). — P. 714—735. — ISSN 1045-9227. — doi:10.1109/72.572108. Архивировано 16 июня 2018 года.
↑ Frasconi, P.; Gori, M.; Sperduti, A. A general framework for adaptive processing of data structures (англ.) // IEEE Transactions on Neural Networks^[англ.] : journal. — 1998. — 1 September (vol. 9, no. 5). — P. 768—786. — ISSN 1045-9227. — doi:10.1109/72.712151. Архивировано 23 июня 2018 года.
↑ Socher, Richard; Lin, Cliff; Ng, Andrew Y.; Manning, Christopher D. Parsing Natural Scenes and Natural Language with Recursive Neural Networks (англ.) // The 28th International Conference on Machine Learning (ICML 2011) : journal. Архивировано 21 апреля 2017 года.
↑ Bianucci, Anna Maria; Micheli, Alessio; Sperduti, Alessandro; Starita, Antonina. Application of Cascade Correlation Networks for Structures to Chemistry (англ.) // Applied Intelligence : journal. — 2000. — Vol. 12, no. 1—2. — P. 117—147. — ISSN 0924-669X. — doi:10.1023/A:1008368105614. Архивировано 9 декабря 2017 года.
↑ Micheli, A.; Sona, D.; Sperduti, A. Contextual processing of structured data by recursive cascade correlation (англ.) // IEEE Transactions on Neural Networks^[англ.] : journal. — 2004. — 1 November (vol. 15, no. 6). — P. 1396—1410. — ISSN 1045-9227. — doi:10.1109/TNN.2004.837783. Архивировано 23 июня 2018 года.
↑ Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickert, Marc. Recursive self-organizing network models (неопр.) // Neural Networks. — 2004. — Т. 17. — С. 1061—1085.
↑ Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickert, Marc. A general framework for unsupervised processing of structured data (англ.) // Neurocomputing : journal. — 2004. — 1 March (vol. 57). — P. 3—35. — doi:10.1016/j.neucom.2004.01.008.
↑ Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrew; Potts, Christopher. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank (англ.) // EMNLP 2013 : journal. Архивировано 28 декабря 2016 года.
↑ Hammer, Barbara. Learning with Recurrent Neural Networks (англ.). — Springer^[англ.], 2007. — ISBN 9781846285677.
↑ Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro. Universal Approximation Capability of Cascade Correlation for Structures (англ.) // Neural Computation^[англ.] : journal. — 2005. — 1 May (vol. 17, no. 5). — P. 1109—1159. — doi:10.1162/0899766053491878. Архивировано 15 февраля 2017 года.
↑ Gallicchio, Claudio; Micheli, Alessio. Tree Echo State Networks (неопр.) // Neurocomputing. — 2013. — 4 February (т. 101). — С. 319—337. — doi:10.1016/j.neucom.2012.08.017.
↑ Europhysics Letters: аналоговый компьютер в виде водной горки предсказывает хаос Архивная копия от 30 мая 2023 на Wayback Machine // 30 мая 2023
↑ Scarselli, F.; Gori, M.; Tsoi, A. C.; Hagenbuchner, M.; Monfardini, G. The Graph Neural Network Model (англ.) // IEEE Transactions on Neural Networks^[англ.] : journal. — 2009. — 1 January (vol. 20, no. 1). — P. 61—80. — ISSN 1045-9227. — doi:10.1109/TNN.2008.2005605. Архивировано 17 июня 2017 года.
↑ Micheli, A. Neural Network for Graphs: A Contextual Constructive Approach (англ.) // IEEE Transactions on Neural Networks^[англ.] : journal. — 2009. — 1 March (vol. 20, no. 3). — P. 498—511. — ISSN 1045-9227. — doi:10.1109/TNN.2008.2010350. Архивировано 31 января 2017 года.

[1] Goller, C.; Küchler, A. Learning task-dependent distributed representations by backpropagation through structure (англ.) // Neural Networks, 1996., IEEE : journal. — doi:10.1109/ICNN.1996.548916.

[:0-2] ¹ ² Sperduti, A.; Starita, A. Supervised neural networks for the classification of structures (англ.) // IEEE Transactions on Neural Networks^[англ.] : journal. — 1997. — 1 May (vol. 8, no. 3). — P. 714—735. — ISSN 1045-9227. — doi:10.1109/72.572108. Архивировано 16 июня 2018 года.

[3] Frasconi, P.; Gori, M.; Sperduti, A. A general framework for adaptive processing of data structures (англ.) // IEEE Transactions on Neural Networks^[англ.] : journal. — 1998. — 1 September (vol. 9, no. 5). — P. 768—786. — ISSN 1045-9227. — doi:10.1109/72.712151. Архивировано 23 июня 2018 года.

[4] Socher, Richard; Lin, Cliff; Ng, Andrew Y.; Manning, Christopher D. Parsing Natural Scenes and Natural Language with Recursive Neural Networks (англ.) // The 28th International Conference on Machine Learning (ICML 2011) : journal. Архивировано 21 апреля 2017 года.

[5] Bianucci, Anna Maria; Micheli, Alessio; Sperduti, Alessandro; Starita, Antonina. Application of Cascade Correlation Networks for Structures to Chemistry (англ.) // Applied Intelligence : journal. — 2000. — Vol. 12, no. 1—2. — P. 117—147. — ISSN 0924-669X. — doi:10.1023/A:1008368105614. Архивировано 9 декабря 2017 года.

[6] Micheli, A.; Sona, D.; Sperduti, A. Contextual processing of structured data by recursive cascade correlation (англ.) // IEEE Transactions on Neural Networks^[англ.] : journal. — 2004. — 1 November (vol. 15, no. 6). — P. 1396—1410. — ISSN 1045-9227. — doi:10.1109/TNN.2004.837783. Архивировано 23 июня 2018 года.

[7] Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickert, Marc. Recursive self-organizing network models (неопр.) // Neural Networks. — 2004. — Т. 17. — С. 1061—1085.

[8] Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro; Strickert, Marc. A general framework for unsupervised processing of structured data (англ.) // Neurocomputing : journal. — 2004. — 1 March (vol. 57). — P. 3—35. — doi:10.1016/j.neucom.2004.01.008.

[9] Socher, Richard; Perelygin, Alex; Y. Wu, Jean; Chuang, Jason; D. Manning, Christopher; Y. Ng, Andrew; Potts, Christopher. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank (англ.) // EMNLP 2013 : journal. Архивировано 28 декабря 2016 года.

[10] Hammer, Barbara. Learning with Recurrent Neural Networks (англ.). — Springer^[англ.], 2007. — ISBN 9781846285677.

[11] Hammer, Barbara; Micheli, Alessio; Sperduti, Alessandro. Universal Approximation Capability of Cascade Correlation for Structures (англ.) // Neural Computation^[англ.] : journal. — 2005. — 1 May (vol. 17, no. 5). — P. 1109—1159. — doi:10.1162/0899766053491878. Архивировано 15 февраля 2017 года.

[12] Gallicchio, Claudio; Micheli, Alessio. Tree Echo State Networks (неопр.) // Neurocomputing. — 2013. — 4 February (т. 101). — С. 319—337. — doi:10.1016/j.neucom.2012.08.017.

[13] Europhysics Letters: аналоговый компьютер в виде водной горки предсказывает хаос Архивная копия от 30 мая 2023 на Wayback Machine // 30 мая 2023

[14] Scarselli, F.; Gori, M.; Tsoi, A. C.; Hagenbuchner, M.; Monfardini, G. The Graph Neural Network Model (англ.) // IEEE Transactions on Neural Networks^[англ.] : journal. — 2009. — 1 January (vol. 20, no. 1). — P. 61—80. — ISSN 1045-9227. — doi:10.1109/TNN.2008.2005605. Архивировано 17 июня 2017 года.

[15] Micheli, A. Neural Network for Graphs: A Contextual Constructive Approach (англ.) // IEEE Transactions on Neural Networks^[англ.] : journal. — 2009. — 1 March (vol. 20, no. 3). — P. 498—511. — ISSN 1045-9227. — doi:10.1109/TNN.2008.2010350. Архивировано 31 января 2017 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG