Хельсинкский аннотированный корпус русского языка (}yl,vnutvtnw guukmnjkfguudw tkjhrv jrvvtkik x[dtg)

Перейти к навигации Перейти к поиску
Хельсинкский аннотированный корпус русского языка
URL ling.helsinki.fi/project…
Коммерческий нет
Тип сайта образовательный/научный проект
Язык (-и) русский
Начало работы 2001
Текущий статус Работает

Хельсинкский аннотированный корпус русских текстов (ХАНКО) — корпус русских онлайновых текстов. Создание корпуса осуществлялось в 2001—2012 годах, он задуман как составная часть проекта «Функциональный синтаксис русского языка». Интерфейс корпуса позволяет комбинировать поиск по сочетанию букв, морфологическим и синтаксическим параметрам.

Составители

[править | править код]

Проект по созданию Хельсинкского аннотированного корпуса русских текстов (ХАНКО) осуществлялся с 2001 по 2012 гг. на Отделении славянских и балтийских языков и литератур Хельсинкского университета под руководством профессора Арто Мустайоки.

Координатор проекта — старший научный сотрудник, PhD Михаил Вячеславович Копотев.

Техническое проектирование — к. т. н. Алексей Леонтьев.

В программе по созданию ХАНКО участвовали специалисты следующих организаций:

Состав корпуса

[править | править код]

Типы разметки в ХАНКО

[править | править код]
  • Морфологическая разметка. Полная морфологическая характеристика каждой текстоформы с возможностью указать спорные случаи, имеющие неоднозначную трактовку.
  • Синтаксическая разметка. Выделены два типа единиц: простое предложение (клауза) и сложное предложение. Синтаксическая разметка выполнена в рамках синтаксической теории членов предложения.
  • Метаразметка. ХАНКО, будучи довольно однородным по внешним текстовым параметрам корпусом, содержит минимальную метаинформацию: номер журнала, автор текста, тип текста.

Объём корпуса

[править | править код]

Корпус объёмом около 100 тыс. словоупотреблений, извлеченных из журнала «Итоги». Журнал представляет широкий спектр современных публицистических жанров, тематическое разнообразие статей, высокий уровень владения стилистическими ресурсами русского языка его авторов.

В настоящее время свободным и бесплатным является поиск по сайту. Для поиска доступны результаты морфологического и синтаксического аннотирования. Корпус доступен для коммерческого использования в формате MTE. Поддержка и финансирование сайта корпуса ведётся Хельсинкским университетом.

Литература

[править | править код]