СинТагРус (VnuMgiJrv)

СинТагРус
СинТагРус
Объем корпуса	более 1,5 миллионов слов
Язык	русский
Основные типы разметки	морфологическая, синтаксическая, лексико-семантическая
Составители	Лаборатория компьютерной лингвистики ИППИ РАН
Дата создания	1998 год
Доступ	бесплатный
Лицензия	проприетарная
Сайт	proling.iitp.ru/ru/proje…

СинТагРус (англ. SynTagRus, сокр. от англ. Syntactically Tagged Russian text corpus, «синтаксически аннотированный корпус русских текстов») — глубоко аннотированный корпус текстов русского языка, первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН➤. Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более 1,5 миллионов➤.

СинТагРус основан на идеологии многоцелевого лингвистического процессора ЭТАП. Особенностью корпуса является наличие нескольких уровней аннотации разной глубины, включая полную морфологическую и синтаксическую разметку со снятой омонимией. Языком разметки является XML➤.

СинТагРус распространяется по некоммерческой лицензии➤. Кроме того, корпус был также преобразован в различные форматы➤; некоторые из этих версий (или конвертеров) находятся в открытом доступе, а ограниченная версия оригинального корпуса входит в состав Национального корпуса русского языка.

История

Результатом появления в начале 1990-х годов корпусов с синтаксической разметкой стало развитие эмпирических методов в задачах обработки естественного языка. Причём использование таких корпусов нашло своё применение не только в контексте собственно синтаксического анализа, но и в ряде других задач, среди которых разрешение лексической многозначности, семантический анализ и др.^[1]

К концу 1990-х годов для большинства основных европейских языков были созданы аннотированные корпусы, тогда как для русского языка таких корпусов фактически не существовало^[2]. Более того, даже существовавшие на тот момент неразмеченные корпусы (например, Уппсальский корпус русского языка) не были общедоступными^[3].

По этим причинам с 1998 года^[4] началась разработка первого аннотированного корпуса русского языка СинТагРус^[2]^[5], ставшего впоследствии эталоном среди корпусов с синтаксической разметкой^[6]. При этом разработчики принимали участие и в создании Национального корпуса русского языка; в частности, СинТагРус (с некоторыми ограничениями) является составной, но полностью автономной частью НКРЯ с момента создания последнего^[7]^[8]. В НКРЯ для СинТагРуса (как подкорпуса) используется также название «глубоко аннотированный корпус»^[9].

Разработка СинТагРуса осуществляется Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН^[10].

Состав корпуса

Исходным материалом для СинТагРуса послужил Уппсальский корпус русского языка: было взято около 10 000 предложений из текстов художественных произведений. Впоследствии в корпус были добавлены короткие (до 30 предложений) тексты, взятые с сайтов популярных новостных изданий (yandex.ru, rbc.ru, polit.ru, lenta.ru, strana.ru, news.ru)^[2]^[11].

СинТагРус постоянно развивается и по состоянию на 2023 год насчитывает около 107 тысяч предложений (более 1,5 миллионов словоупотреблений)^[12], взятых из текстов следующих жанров^[8]^[13]^[14]:

художественная проза XX века;
современная научно-популярная литература;
публицистика;
биографии;
газетные и журнальные статьи, опубликованные в период с 1960 года по настоящее время;
новостные ленты (тексты общественно-политического, культурного, экономического и научно-технического характера).

Типы и формат разметки

Отличительной особенностью СинТагРуса по сравнению с другими аннотированными корпусами русского языка является наличие нескольких уровней аннотации разной глубины, которые могут извлекаться из корпуса независимо, причём количество этих уровней потенциально не ограничено. Языком разметки корпуса является XML, а формат разметки совместим с формализмом TEI^[англ.], за исключением некоторых дополнительно введённых элементов и атрибутов^[2]. В основном разметка произвольного текста осуществляется в два шага^[11]:

Предварительная разметка текста в автоматическом режиме средствами лингвистического процессора ЭТАП, являющегося практической реализацией модели «Смысл — Текст».
Проверка и, в случае необходимости, корректирование разметки экспертом-лингвистом.

Далее будут перечислены имеющиеся в корпусе типы разметки.

Разбиение текста на предложения и лексические элементы

Каждый текст в СинТагРусе разбит на предложения. Каждое предложение является элементом с именем S, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер предложения в тексте. Аналогично каждое предложение разбито на лексические элементы с именем W, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер слова в данном предложении^[11]. Знаки препинания оформляются в виде текста тега предложения (с сохранением их относительного расположения в исходном тексте) и не выражаются собственными тегами^[15].

Морфологическая разметка

Морфологическая структура словоформы представляет собой имя лексемы, или лемму, которой приписывается часть речи и морфологические характеристики, то есть значения соответствующих морфологических категорий. Для соответствующей словоформы лемма является значением атрибута LEMMA, а часть речи и морфологические характеристики совместно являются значением атрибута FEAT^[8]^[16].

Описание морфологической разметки^[17]

Используемые части речи
Часть речи	Сокращение	Примеры
Существительное	S	завод, я
Прилагательное	A	новый, мой
Глагол	V	одеваться
Наречие	ADV	плохо, отчасти
Числительное	NUM	пять, 2
Предлог	PR	под
Композит	COM	авиа, гидро
Союз	CONJ	и
Частица	PART	всё-таки
Междометие	INTJ	то-то
Слово — иноязычное вкрапление	NID	WhatsApp, Берлинер Цайтунг

Используемые морфологические характеристики
Морфологическая характеристика	Сокращение	Примечание
Одушевлённость
Одушевлённое	ОД
Неодушевлённое	НЕОД
Род
Мужской	МУЖ
Женский	ЖЕН
Средний	СРЕД
Число
Единственное	ЕД
Множественное	МН
Падеж
Именительный	ИМ
Родительный	РОД
Партитивный	ПАРТ	Указывается только для существительных, у которых эта форма графически отличается от формы родительного падежа
Дательный	ДАТ
Винительный	ВИН
Творительный	ТВОР
Предложный	ПР
Местный	МЕСТН	Указывается только для существительных, у которых эта форма графически отличается от формы предложного падежа
Звательный	ЗВ	Указывается только для существительных, у которых эта форма графически отличается от формы именительного падежа
Степень сравнения
Сравнительная	СРАВ
Превосходная	ПРЕВ
Краткость
Краткое	КР
Репрезентация
Инфинитив	ИНФ
Причастие	ПРИЧ
Деепричастие	ДЕЕПР
Наклонение
Изъявительное	ИЗЪЯВ
Повелительное	ПОВ
Вид
Несовершенный	НЕСОВ
Совершенный	СОВ
Время
Непрошедшее	НЕПРОШ
Прошедшее	ПРОШ
Настоящее	НАСТ	Приписывается только глаголу быть в личной форме
Лицо
Первое	1-Л	Приписывается только глаголам
Второе	2-Л
Третье	3-Л
Залог
Страдательный	СТРАД
Дополнительные характеристики
Словосложение	СЛ
Смягчённая сравнительная степень	СМЯГ

Синтаксическая разметка

Графическое представление разметки в СинТагРусе на примере предложения «Сначала его поили чаем, непременно в присутствии пациентки.», созданное с помощью средств лингвистического процессора ЭТАП и иллюстрирующее древовидную структуру синтаксической разметки

Синтаксическая разметка предложений корпуса осуществляется в рамках грамматики зависимостей: синтаксической структурой является ориентированное дерево, узлами которого являются слова, а каждое ребро направлено от слова-хозяина к слову-слуге и соответствует некоторому синтаксическому отношению. Слово, соответствующее корню дерева, называется вершиной предложения и, в отличие от остальных слов предложения, синтаксически не зависит ни от какого другого. Синтаксические группы оформляются в виде поддеревьев исходного дерева: в каждом таком поддереве один из членов группы является её представителем во внешних связях и подчиняет остальные члены группы^[18]. Всего в СинТагРусе различается около 70 типов синтаксических отношений^[13].

Используемые синтаксические отношения^[17]

Актантные синтаксические отношения
Синтаксическое отношение	Сокращение	Слово-хозяин	Слово-слуга
Предикативное	предик	Сказуемое	Подлежащее
Дательно-субъектное	дат-субъект	Слово, обозначающее состояние	субъект состояния, обозначаемого словом-хозяином
Агентивное	агент	Слово, обозначающее действие	Субъект действия, обозначаемого словом-хозяином
Квазиагентивное	квазиагент	Предикатное существительное	Слово, реализующее первую синтаксическую валентность слова-хозяина
Несобственно-агентивное	несобст-агент	Глагол	Слово, реализующее первую семантическую валентность существительного, являющегося семантическим актантом слова-хозяина
Первое комплетивное	1-компл	Предикатное слово	Синтаксический актант слова-хозяина, за исключением первого. Так, первое комплетивное отношение относится ко второму актанту, второе — к третьему и т. д.
Второе комплетивное	2-компл
Третье комплетивное	3-компл
Четвертое комплетивное	4-компл
Пятое комплетивное	5-компл
Присвязочное	присвяз	Глагол-связка	Именная часть сказуемого
Первое несобственно-комплетивное	1-несобст-компл	Функциональный глагол	Дополнение (первое, второе и т. д.), семантическим хозяином которого является некоторый семантический актант слова-хозяина
Второе несобственно-комплетивное	2-несобст-компл
Третье несобственно-комплетивное	3-несобст-компл
Четвертое несобственно-комплетивное	4-несобст-компл
Пятое несобственно-комплетивное	5-несобст-компл
Неактантно-комплетивное	неакт-компл	Предикатное слово	Слово, не являющееся полноценным семантическим актантом слова-хозяина, но по синтаксической функции близкое к дополнению
Комплетивно-аппозитивное	компл-аппоз	Параметрическое существительное или существительное типа рейс, маршрут, поезд	Семантический актант слова-хозяина, если этот актант выражается именительным падежом или его синтаксическим эквивалентом
Предложное	предл	Предлог	Вершина именной группы, зависящая от предлога
Подчинительно-союзное	подч-союзн	Подчинительный союз	Вершина придаточного предложения, вводимого починительным союзом
Инфинитивно-союзное	инф-союзн	Подчинительный союз	Инфинитив
Сравнительное	сравнит	Прилагательное или наречие в сравнительной степени	Вершина именной группы в родительном падеже, представляющая второй из сравниваемых членов, либо сравнительный союз чем
Сравнительное	сравнит	Глагол, имя или наречие	Сравнительный союз
Сравнительно-союзное	сравн-союзн	Сравнительный союз	Второй из сравниваемых членов сравнительной конструкции
Элективное	электив	Числительное, порядковое прилагательное, прилагательное в превосходной степени или прилагательное со словом самый	Предлог из или среди, вводящий указание на множество, в котором производится выбор
Сентенциально-предикативное	сент-предик	Вершина предложения, выражающего ситуацию, описываемую в идентифицирующей конструкции	Указательное местоименное существительное это или то в именительном падеже
Адресатно-присвязочное	адр-присв	Слово-отношение, выступающее в качестве именной части сказуемого при (возможно, нулевой) связке	Существительное в дательном падеже, заполняющее, по существу, синтаксическую валентность слова-хозяина

Атрибутивные синтаксические отношения
Синтаксическое отношение	Сокращение	Слово-хозяин	Слово-слуга
Определительные
Определительное	опред	Существительное или Прилагательное	Прилагательное или причастие
Описательно-определительное	оп-опред	Существительное или прилагательное	Прилагательное или причастие, выступающее в качестве обособленного определения
Аппроксимативно-порядковое	аппрокс-порядк	Существительное	Порядковое прилагательное
Релятивное	релят	Существительное или прилагательное	Вершина придаточного определительного
Общеатрибутивные
Атрибутивное	атриб	Существительное или прилагательное	Несогласованное определение
Композитное	композ	Вторая часть сложного слова	Первая часть сложного слова
Аппозитивные
Аппозитивное	аппоз	Существительное	Следующее за ним приложение
Обособленно-аппозитивное	об-аппоз	Существительное	Обособленное приложение к слову-хозяину
Номинативно-аппозитивное	ном-аппоз	Существительное	Вершина любой группы в кавычках, выражающей название
Нумеративно-аппозитивное	нум-аппоз	Существительное, обозначающее регулярно нумерующиеся объекты	Имя числительное в именительном падеже либо записанное цифрами (обозначающее номер)
Количественные
Количественное	количест	Существительное	Числительное, стоящее в препозиции
Аппроксимативно-количественное	аппрокс-колич	Существительное	Числительное, стоящее в постпозиции
Количественное-копредикативное	колич-копред	Глагол, при котором стоит существительное в родительном падеже, выступающее при нём в качестве подлежащего	Вершина группы числительного или вершина именной группы с количественным значением
Количественно-ограничительное	колич-огран	Прилагательное или наречие в сравнительной степени	Наречие или вершина группы с предлогами в или на, указывающая на интенсивность
Распределительное	распред	Вершина именной группы, обозначающая некий параметр (цену, скорость, вес и т. п.)	Существительное в именительном падеже или вершина группы с предлогами в, на, за, указывающая на единицу измерения
Аддитивное	аддит	Числительное или вершина количественной группы	Числительное или вершина количественной группы
Обстоятельственные
Обстоятельственное	обст	Глагол или слово другой части речи, являющееся вершиной предложения	Обстоятельство
Длительное	длительн	Глагол	Обстоятельство длительности, выражаемое существительным в винительном падеже или предложной группой со значением приблизительного количества или распределительности
Кратно-длительное	кратно-длительн	Глагол	Обстоятельство многократной длительности, выражаемое существительным в творительном падеже множественного числа
Дистанционное	дистанц	Глагол	Обстоятельство пространственной протяженности, выражаемое существительным в винительном падеже или предложной группой со значением приблизительного количества или распределительности
Обстоятельственно-тавтологическое	обст-тавт	Глагол	Существительное в творительном падеже, дублирующее часть значения слова-хозяина
Субъектно-обстоятельственное	суб-обст	Глагол	Обстоятельство в творительном падеже, характеризующее одновременно субъект действия
Объектно-обстоятельственное	об-обст	Глагол	Обстоятельство в творительном падеже, характеризующее одновременно объект действия
Субъектно-копредикативное	суб-копр	Глагол	Вершина именной группы в именительном или творительном падеже, либо вершина предложной группы, выступающая в функции, близкой к функции именной части составного сказуемого, но по смыслу характеризующая подлежащее и (в случае именной группы) согласующаяся с ним по роду и числу
Объектно-копредикативное	об-копр	Глагол	Вершина именной группы в творительном или винительном падеже или вершина предложной группы, характеризующая дополнение. Если слово-слуга выражено именной группой, то оно согласуется с дополнением по роду и числу
Ограничительное	огранич	Слово любой части речи	Частица или ограничительное наречие
Вводное	вводн	Сказуемое или другой член предложения	Вводное слово, вводный оборот, предложение или обращение
Изъяснительное	изъясн	Вершина главного предложения	Вершина придаточного предложения, включающего союзное слово что, отчего или почему
Разъяснительное	разъяснит	Произвольное слово	Слово, которое имеет зависимые и вместе с ними сообщает дополнительную информацию о слове-хозяине или группе слов, представленных словом-хозяином. Необходимо присутствие формального «маркера разъяснения», которым может быть знак препинания или выражение, вводящее дополнительную информацию
Примыкательное	примыкат	Слово, являющееся «хозяином» выражения, вершиной которого является слово-слуга	Вершина выражения, зависящего от слова-хозяина, расположенного справа от слова-хозяина и заключенного в скобки или ограниченного с обеих сторон тире
Уточнительное	уточн	Представитель (вершина) некоторого выражения	Представитель некоторого выражения. Это выражение семантически уточняет выражение, представителем которого являтся слово-хозяин, однако оба этих выражения имеют одинаковую синтаксическую функцию.

Сочинительные синтаксические отношения
Синтаксическое отношение	Сокращение	Слово-хозяин	Слово-слуга
Сочинительное	сочин	Член сочинительной конструкции	Член сочинительной конструкции или сочинительный союз. Расположен непосредственно справа от слова-хозяина.
Сентенциально-сочинительное	сент-соч	Вершина первого из однородных предложений	Вершина второго предложения или сочинительный союз
Сочинительно-союзное	соч-союзн	Сочинительный союз	Вершина второго из однородных членов или предложений
Кратное	кратн	Главный член кратной конструкции — существительное, прилагательное, наречие, числительное или глагол	Зависимый член кратной конструкции. Оформлен либо так же, как и главный член, и отделен от него дефисом, тире, двоеточием или наклонной чертой, либо вводится предлогом «на» или «к»

Служебные синтаксические отношения
Синтаксическое отношение	Сокращение	Слово-хозяин	Слово-слуга
Аналитическое	аналит	Элементы составного глагольного сказуемого. Эти элементы оформляют сложное будущее время или сослагательное наклонение
Пассивно-аналитическое	пасс-анал	Глагол-связка «быть»	Страдательное причастие
Количественно-вспомогательное	колич-вспом	Правая часть составного числительного или составного порядкового прилагательного	Левая часть составного числительного или составного порядкового прилагательного
Соотносительное	соотнос	Левая часть разрывного парного союза, предлога или частицы, или правая часть разрывного парного сочинительного союза	Правая часть разрывного парного союза, предлога или частицы, или левая часть разрывного парного сочинительного союза
Эксплетивное	эксплет	Указательное местоимение-«прокладка» типа то, тот	Подчинительный союз или вершина предложения. Слово-хозяин «расшифровывается» словом-слугой
Пролептическое	пролепт	Семантически неполнозначное слово, занимающее полноценную позицию в предложении	Слово, вынесенное вовне
Вспомогательное	вспом	Части образующих синтаксическое и смысловое единство словосочетаний

Для записи информации о синтаксической структуре предложения в СинТагРусе используются два атрибута каждого слова предложения: DOM, значением которого является ID слова-хозяина, и LINK, значением которого является имя соответствующего синтаксического отношения^[16]. Вершина предложения имеет специальное значение _root атрибута DOM^[19].

Лексико-семантическая разметка

Каждой словоформе, помимо леммы, приписывается атрибут KSNAME, значением которого является имя соответствующей статьи толково-комбинаторного словаря лингвистического процессора ЭТАП. За счёт этого, с одной стороны, уточняется значение многозначных и омонимичных слов, а с другой стороны, устанавливается связь со статьями словаря, который используется процессором ЭТАП, и становится доступной содержащаяся в этих статьях информация о семантических свойствах слов^[10].

Лексико-функциональная разметка

В предложениях отмечаются словосочетания, которые можно интерпретировать в терминах лексических функций. Для разметки таких словосочетаний внутри предложения создаются дополнительные элементы отдельно от самих словоформ^[13].

Микросинтаксическая разметка

Под микросинтаксическими единицами в СинТагРусе понимаются фразеологизмы с синтаксической спецификой^[20]. В качестве примера можно привести составной предлог в силу. С одной стороны, он синтаксически близок к первообразным предлогам. Действительно, между элементами этого предлога нельзя вставить местоименное определение к существительному, как в других предложных конструкциях типа в виде, в случае и др. Кроме того, если этому предлогу в предложении подчиняется личное местоимение третьего лица, то к такому местоимению в большинстве случаев добавляется начальное н-, как и в случае первообразных предлогов. С другой стороны, первая часть некоторых парных союзов, а также частица ли или же, может располагаться между предлогом в силу и зависящим от него существительным, что не дает возможности отнести этот предлог к первообразным^[21].

Если в некотором предложении корпуса встречается микросинтаксическая единица, то добавляется новый атрибут предложения — MICROSYNT, значением которого являются имя соответствующей микросинтаксической единицы и её линейные границы^[20].

Анафорическая разметка

Для встреченного в тексте анафорического местоимения указывается его антецедент^[англ.], то есть выражение, к которому это местоимение отсылает. У предложения, в котором найдено анафорическое местоимение, имеется дополнительный атрибут COREF, значением которого является список пар местоимение — антецедент, соответствующий данному местоимению. Для каждого анафорического местоимения указывается его линейное положение в предложении, а для антецедента, помимо этого, дополнительно указывается, в каком предложении относительно рассматриваемого он находится (в пределах трёх предложений в обе стороны)^[4].

Обработка эллиптических конструкций

В СинТагРусе опущенные фрагменты эллиптированных предложений восстанавливаются явно. Соответствующая восстановленная словоформа размечается точно так же, как и другие словоформы; в частности, от таких «фантомных» слов проводятся все необходимые синтаксические связи. При этом словоформе приписывается атрибут NODETYPE со значением FANTOM^[2]^[22].

Использование корпуса

СинТагРус используется в различных областях. С одной стороны, на его основе проводятся чисто лингвистические исследования, как теоретические, так и практические (в частности, в области лексикографии). С другой стороны, корпус находит своё применение в задачах компьютерной лингвистики и обработки естественного языка как источник лингвистических данных, например, при создании синтаксических анализаторов. Эти задачи могут решаться с применением различных форматов разметки. В то же время объединение нескольких корпусов с разной разметкой в один делает последний более представительным. Эти обстоятельства приводят к задаче конвертации корпуса^[4].

Предпринимались неоднократные попытки перевода СинТагРуса в другие форматы разметки: известны эксперименты по переводу корпуса в форматы HPSG^[англ.] и PDT^[13]. Кроме того, СинТагРус был успешно переведён в форматы CoNLL-U^[англ.]^[22], PTB^[23] и SD^[24]. Однако преобразование, во-первых, во всех случаях касалось только морфологической и синтаксической разметок, а во-вторых, осуществлялось в автоматическом режиме, что стало препятствием на пути к полноценной конвертации. Так, например, часть речи NID не удалось однозначно перевести в формат CoNLL-U^[англ.] (в котором такой части речи нет) автоматически, поэтому все предложения СинТагРуса, в которых хотя бы одна словоформа имела такую часть речи, были исключены из корпуса перед конвертацией^[22].

Доступ

СинТагРус бесплатно распространяется по некоммерческой лицензии^[25]. Кроме того, версия корпуса без некоторых типов разметки доступна для некоммерческого использования в научно-исследовательских и учебных целях как подкорпус Национального корпуса русского языка и находится в открытом доступе^[13], так же как и версии в форматах CoNLL-U^[англ.] (лицензия CC BY-NC-SA 4.0)^[22] и PTB (доступен только конвертер)^[23].

Примечания

↑ Eric Brill, Raymond J. Mooney. An Overview of Empirical Natural Language Processing (англ.) // AI Magazine. — AAAI, 1997. — Vol. 18, no. 4. — P. 13—24.
↑ ¹ ² ³ ⁴ ⁵ Богуславский И. М., Григорьев Н. В., Григорьева С. А., Крейдлин Л. Г., Фрид Н. Е. Аннотированный корпус русских текстов: концепция, инструменты разметки, типы информации (рус.) // Труды Международного семинара по компьютерной лингвистике и её приложениям «Диалог-2000». — Протвино, 2000. Архивировано 31 июля 2019 года.
↑ Резникова Т. И., Копотев М. В. Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов) (рус.) // Национальный корпус русского языка: 2003—2005. — М.: Индрик, 2005. — С. 31—61. Архивировано 31 июля 2019 года.
↑ ¹ ² ³ Иншакова Е. С., Иомдин Л. Л., Митюшин Л. Г., Сизов В. Г., Фролова Т. И., Цинман Л. Л. СинТагРус сегодня (рус.) // Труды Института русского языка им. В. В. Виноградова. — М.: «Нестор-История», 2019. — Вып. 21. — С. 14—40. Архивировано 26 марта 2020 года.
↑ Москвина А. Д., Орлова Д., Паничева П. В., Митрофанова О. А. Разработка ядра синтаксического анализатора для русского языка на основе библиотек NLTK (рус.) // Труды объединённой научной конференции «Интернет и современное общество». — 2016. — С. 44—54. Архивировано 10 октября 2019 года.
↑ Кибрик А. Е., Федорова О. В., Татевосов С. Г., Лютикова Е. А., Кибрик А. А., Кобозева И. М., Фаликман М. В., Ченки А., Секерина И., Николаева Ю. В., Даниэль М. А., Бергельсон М. Б., Алпатов В. М., Беляев О. И., Толдова С. Ю., Бонч-Осмоловская А. А., Подлесская В. И., Кривнова О. Ф. Корпусная лингвистика // Введение в науку о языке (рус.) / под ред. О. В. Федоровой и С. Г. Татевосова. — М.: Буки Веди, 2019. — С. 420. — 672 с. — ISBN 978-5-4465-2188-3.
↑ Сичинава Д. В. Национальный корпус русского языка: очерк предыстории (рус.) // Национальный корпус русского языка: 2003—2005. — М.: Индрик, 2005. — С. 21—30. Архивировано 31 июля 2019 года.
↑ ¹ ² ³ Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л., Иомдин Л. Л., Санников А. В., Санников В. З., Сизов В. Г., Цинман Л. Л. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы (рус.) // Национальный корпус русского языка: 2003—2005. — М.: Индрик, 2005. — С. 193—214. Архивировано 31 июля 2019 года.
↑ Захаров В. П., Богданова С. Ю. Корпусная лингвистика (рус.). — 3-е изд., перераб. — СПб.: Издательство Санкт-Петербургского университета, 2020. — С. 47. — 234 с. — ISBN 978-5-288-05997-1.
↑ ¹ ² Апресян Ю. Д., Иомдин Л. Л., Санников А. В., Сизов В. Г. Семантическая разметка в глубоко аннотированном корпусе русского языка (рус.) // Труды Международной конференции «Корпусная лингвистика-2004». — СПб.: СПбГУ, 2004. — С. 41—54. Архивировано 31 июля 2019 года.
↑ ¹ ² ³ Богуславский И. М., Григорьев Н. В., Иомдин Л. Л., Крейдлин Л. Г., Фрид Н. Е., Чардин И. С. Разработка синтаксически размеченного корпуса русского языка (рус.) // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных». — СПб.: СПбГУ, 2002. — С. 40—50. Архивировано 31 июля 2019 года.
↑ Корпусная лингвистика (рус.). Лаборатория компьютерной лингвистики ИППИ РАН (4 мая 2023). Дата обращения: 5 мая 2023. Архивировано 22 февраля 2020 года.
↑ ¹ ² ³ ⁴ ⁵ Дяченко П. В., Иомдин Л. Л., Лазурский А. В., Митюшин Л. Г., Подлесская О. Ю., Сизов В. Г., Фролова Т. И., Цинман Л. Л. Современное состояние глубоко аннотированного корпуса текстов русского языка (СинТагРус) (рус.) // Сборник «Национальный корпус русского языка: 10 лет проекту». — М.: Труды Института русского языка им. В. В. Виноградова, 2015. — Вып. 6. — С. 272—299. Архивировано 31 июля 2019 года.
↑ Boguslavsky I., Iomdin L., Sizov V., Tsinman L., Petrochenkov V. Rule-based dependency parser refined by empirical and corpus statistics (англ.) // Proceedings of the International Conference on Dependency Linguistics. — 2011. — P. 318—327. Архивировано 31 июля 2019 года.
↑ Droganova K., Lyashevskaya O., Zeman D. Data conversion and consistency of monolingual corpora: Russian UD treebanks (англ.) // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). — Oslo University, Norway: Linköping University Electronic Press, 2018. — P. 52—65. Архивировано 19 марта 2020 года.
↑ ¹ ² Igor Boguslavsky, Ivan Chardin, Svetlana Grigorjeva, Nikolai Grigoriev, Leonid Iomdin, Lеonid Kreydlin, Nadezhda Frid. Development of a dependency treebank for Russian and its possible applications in NLP (англ.) // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002). — Las Palmas, 2002. — Vol. III. — P. 852—856. Архивировано 10 августа 2017 года.
↑ ¹ ² Синтаксически размеченный корпус русского языка: информация для пользователей (рус.). Национальный корпус русского языка. Дата обращения: 29 марта 2020. Архивировано 25 марта 2020 года.
↑ Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л., Лазурский А. В., Митюшин Л. Г., Санников В. З., Цинман Л. Л. Лингвистический процессор для сложных информационных систем. — М.: Наука, 1992. — С. 32—40, 56—73. — 256 с.
↑ Leonid Iomdin, Victor Sizov. Structure Editor: a Powerful Environment for Tagged Corpora (англ.) // Research Infrastructure for Digital Lexicography. — Ljubljana: Jožef Stefan Institute, 2009. — P. 1—12.
↑ ¹ ² Иомдин Л. Л. Микросинтаксическая разметка в корпусе русских текстов (рус.) // Труды международной научной конференции «Корпусная лингвистика — 2017». — СПб.: СПбГУ, 2017. — С. 188—194. Архивировано 20 ноября 2021 года.
↑ Иомдин Л. Л. В глубинах микросинтаксиса: один лексический класс синтаксических фразем (рус.) // Компьютерная лингвистика и интел-лектуальные технологии. — М.: РГГУ, 2008. — С. 178—184. Архивировано 29 августа 2019 года.
↑ ¹ ² ³ ⁴ Droganova K., Zeman D. Conversion of SynTagRus (the Russian dependency treebank) to Universal Dependencies (англ.) // Technical report. — Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, 2016. Архивировано 8 июня 2021 года.
↑ ¹ ² Luu A., Malamud S. A., Xue N. Converting SynTagRus dependency treebank into Penn treebank style (англ.) // Proceedings of the 10th Linguistic Annotation Workshop held in conjunction with ACL 2016 (LAW-X 2016). — 2016. — P. 16—21. Архивировано 27 февраля 2019 года.
↑ Lipenkova J., Souček M. Converting Russian dependency treebank to Stanford typed dependencies representation (англ.) // Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. — 2014. — Vol. 2. — P. 143—147. Архивировано 8 июня 2018 года.
↑ Ляшевская О. Н. Корпусные инструменты в грамматических исследованиях русского языка. — М.: Издательский дом ЯСК, 2016. — С. 193. — 520 с.

Ссылки

[1] Eric Brill, Raymond J. Mooney. An Overview of Empirical Natural Language Processing (англ.) // AI Magazine. — AAAI, 1997. — Vol. 18, no. 4. — P. 13—24.

[boguslavsky2000-2] ¹ ² ³ ⁴ ⁵ Богуславский И. М., Григорьев Н. В., Григорьева С. А., Крейдлин Л. Г., Фрид Н. Е. Аннотированный корпус русских текстов: концепция, инструменты разметки, типы информации (рус.) // Труды Международного семинара по компьютерной лингвистике и её приложениям «Диалог-2000». — Протвино, 2000. Архивировано 31 июля 2019 года.

[3] Резникова Т. И., Копотев М. В. Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов) (рус.) // Национальный корпус русского языка: 2003—2005. — М.: Индрик, 2005. — С. 31—61. Архивировано 31 июля 2019 года.

[inshakova2019-4] ¹ ² ³ Иншакова Е. С., Иомдин Л. Л., Митюшин Л. Г., Сизов В. Г., Фролова Т. И., Цинман Л. Л. СинТагРус сегодня (рус.) // Труды Института русского языка им. В. В. Виноградова. — М.: «Нестор-История», 2019. — Вып. 21. — С. 14—40. Архивировано 26 марта 2020 года.

[5] Москвина А. Д., Орлова Д., Паничева П. В., Митрофанова О. А. Разработка ядра синтаксического анализатора для русского языка на основе библиотек NLTK (рус.) // Труды объединённой научной конференции «Интернет и современное общество». — 2016. — С. 44—54. Архивировано 10 октября 2019 года.

[kibrik2019vvedenie-6] Кибрик А. Е., Федорова О. В., Татевосов С. Г., Лютикова Е. А., Кибрик А. А., Кобозева И. М., Фаликман М. В., Ченки А., Секерина И., Николаева Ю. В., Даниэль М. А., Бергельсон М. Б., Алпатов В. М., Беляев О. И., Толдова С. Ю., Бонч-Осмоловская А. А., Подлесская В. И., Кривнова О. Ф. Корпусная лингвистика // Введение в науку о языке (рус.) / под ред. О. В. Федоровой и С. Г. Татевосова. — М.: Буки Веди, 2019. — С. 420. — 672 с. — ISBN 978-5-4465-2188-3.

[7] Сичинава Д. В. Национальный корпус русского языка: очерк предыстории (рус.) // Национальный корпус русского языка: 2003—2005. — М.: Индрик, 2005. — С. 21—30. Архивировано 31 июля 2019 года.

[apresyan2005-8] ¹ ² ³ Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л., Иомдин Л. Л., Санников А. В., Санников В. З., Сизов В. Г., Цинман Л. Л. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы (рус.) // Национальный корпус русского языка: 2003—2005. — М.: Индрик, 2005. — С. 193—214. Архивировано 31 июля 2019 года.

[Zakharov2020-9] Захаров В. П., Богданова С. Ю. Корпусная лингвистика (рус.). — 3-е изд., перераб. — СПб.: Издательство Санкт-Петербургского университета, 2020. — С. 47. — 234 с. — ISBN 978-5-288-05997-1.

[apresyan2004-10] ¹ ² Апресян Ю. Д., Иомдин Л. Л., Санников А. В., Сизов В. Г. Семантическая разметка в глубоко аннотированном корпусе русского языка (рус.) // Труды Международной конференции «Корпусная лингвистика-2004». — СПб.: СПбГУ, 2004. — С. 41—54. Архивировано 31 июля 2019 года.

[boguslavsky2002-11] ¹ ² ³ Богуславский И. М., Григорьев Н. В., Иомдин Л. Л., Крейдлин Л. Г., Фрид Н. Е., Чардин И. С. Разработка синтаксически размеченного корпуса русского языка (рус.) // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных». — СПб.: СПбГУ, 2002. — С. 40—50. Архивировано 31 июля 2019 года.

[proling-12] Корпусная лингвистика (рус.). Лаборатория компьютерной лингвистики ИППИ РАН (4 мая 2023). Дата обращения: 5 мая 2023. Архивировано 22 февраля 2020 года.

[dyachenko2015-13] ¹ ² ³ ⁴ ⁵ Дяченко П. В., Иомдин Л. Л., Лазурский А. В., Митюшин Л. Г., Подлесская О. Ю., Сизов В. Г., Фролова Т. И., Цинман Л. Л. Современное состояние глубоко аннотированного корпуса текстов русского языка (СинТагРус) (рус.) // Сборник «Национальный корпус русского языка: 10 лет проекту». — М.: Труды Института русского языка им. В. В. Виноградова, 2015. — Вып. 6. — С. 272—299. Архивировано 31 июля 2019 года.

[boguslavsky2011-14] Boguslavsky I., Iomdin L., Sizov V., Tsinman L., Petrochenkov V. Rule-based dependency parser refined by empirical and corpus statistics (англ.) // Proceedings of the International Conference on Dependency Linguistics. — 2011. — P. 318—327. Архивировано 31 июля 2019 года.

[droganova2018-15] Droganova K., Lyashevskaya O., Zeman D. Data conversion and consistency of monolingual corpora: Russian UD treebanks (англ.) // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). — Oslo University, Norway: Linköping University Electronic Press, 2018. — P. 52—65. Архивировано 19 марта 2020 года.

[boguslavsky2002development-16] ¹ ² Igor Boguslavsky, Ivan Chardin, Svetlana Grigorjeva, Nikolai Grigoriev, Leonid Iomdin, Lеonid Kreydlin, Nadezhda Frid. Development of a dependency treebank for Russian and its possible applications in NLP (англ.) // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002). — Las Palmas, 2002. — Vol. III. — P. 852—856. Архивировано 10 августа 2017 года.

[syntagrusgrammar-17] ¹ ² Синтаксически размеченный корпус русского языка: информация для пользователей (рус.). Национальный корпус русского языка. Дата обращения: 29 марта 2020. Архивировано 25 марта 2020 года.

[apresyan1992-18] Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л., Лазурский А. В., Митюшин Л. Г., Санников В. З., Цинман Л. Л. Лингвистический процессор для сложных информационных систем. — М.: Наука, 1992. — С. 32—40, 56—73. — 256 с.

[iomdin2009-19] Leonid Iomdin, Victor Sizov. Structure Editor: a Powerful Environment for Tagged Corpora (англ.) // Research Infrastructure for Digital Lexicography. — Ljubljana: Jožef Stefan Institute, 2009. — P. 1—12.

[Iomdin2017-20] ¹ ² Иомдин Л. Л. Микросинтаксическая разметка в корпусе русских текстов (рус.) // Труды международной научной конференции «Корпусная лингвистика — 2017». — СПб.: СПбГУ, 2017. — С. 188—194. Архивировано 20 ноября 2021 года.

[Iomdin2008-21] Иомдин Л. Л. В глубинах микросинтаксиса: один лексический класс синтаксических фразем (рус.) // Компьютерная лингвистика и интел-лектуальные технологии. — М.: РГГУ, 2008. — С. 178—184. Архивировано 29 августа 2019 года.

[droganova2016-22] ¹ ² ³ ⁴ Droganova K., Zeman D. Conversion of SynTagRus (the Russian dependency treebank) to Universal Dependencies (англ.) // Technical report. — Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, 2016. Архивировано 8 июня 2021 года.

[luu-23] ¹ ² Luu A., Malamud S. A., Xue N. Converting SynTagRus dependency treebank into Penn treebank style (англ.) // Proceedings of the 10th Linguistic Annotation Workshop held in conjunction with ACL 2016 (LAW-X 2016). — 2016. — P. 16—21. Архивировано 27 февраля 2019 года.

[24] Lipenkova J., Souček M. Converting Russian dependency treebank to Stanford typed dependencies representation (англ.) // Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. — 2014. — Vol. 2. — P. 143—147. Архивировано 8 июня 2018 года.

[25] Ляшевская О. Н. Корпусные инструменты в грамматических исследованиях русского языка. — М.: Издательский дом ЯСК, 2016. — С. 193. — 520 с.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

Корпусная лингвистика
Англоязычные корпусы	Национальный корпус американского английского Bank of English Bergen Corpus of London Teenage Language Британский национальный корпус Brown Corpus Buckeye Corpus Cambridge English Corpus Корпус современного американского английского языка Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus PropBank Spoken English Corpus TIMIT VerbNet Wellington Corpus of Spoken New Zealand English
Русскоязычные корпусы	Генеральный интернет-корпус русского языка Национальный корпус русского языка Открытый корпус русского языка СинТагРус Тюбингенский корпус русского языка Уппсальский корпус русских текстов Хельсинкский аннотированный корпус русского языка
Корпусы на других языках	Bijankhan Corpus CHILDES Корпус хорватского языка Национальный корпус хорватского Europarl Corpus Мангеймский корпус немецкого языка Корпус Хамшахри Национальный корпус польского языка Neo-Assyrian Text Corpus Project Коранический корпус Национальный корпус шотландского языка Slovenian National Corpus TalkBank Татоэба Tehran Monolingual Corpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD