Хельсинкский аннотированный корпус русского языка (}yl,vnutvtnw guukmnjkfguudw tkjhrv jrvvtkik x[dtg)
Хельсинкский аннотированный корпус русского языка | |
---|---|
URL | ling.helsinki.fi/project… |
Коммерческий | нет |
Тип сайта | образовательный/научный проект |
Язык (-и) | русский |
Начало работы | 2001 |
Текущий статус | Работает |
Хельсинкский аннотированный корпус русских текстов (ХАНКО) — корпус русских онлайновых текстов. Создание корпуса осуществлялось в 2001—2012 годах, он задуман как составная часть проекта «Функциональный синтаксис русского языка». Интерфейс корпуса позволяет комбинировать поиск по сочетанию букв, морфологическим и синтаксическим параметрам.
Составители
[править | править код]Проект по созданию Хельсинкского аннотированного корпуса русских текстов (ХАНКО) осуществлялся с 2001 по 2012 гг. на Отделении славянских и балтийских языков и литератур Хельсинкского университета под руководством профессора Арто Мустайоки.
Координатор проекта — старший научный сотрудник, PhD Михаил Вячеславович Копотев.
Техническое проектирование — к. т. н. Алексей Леонтьев.
В программе по созданию ХАНКО участвовали специалисты следующих организаций:
Состав корпуса
[править | править код]Типы разметки в ХАНКО
[править | править код]- Морфологическая разметка. Полная морфологическая характеристика каждой текстоформы с возможностью указать спорные случаи, имеющие неоднозначную трактовку.
- Синтаксическая разметка. Выделены два типа единиц: простое предложение (клауза) и сложное предложение. Синтаксическая разметка выполнена в рамках синтаксической теории членов предложения.
- Метаразметка. ХАНКО, будучи довольно однородным по внешним текстовым параметрам корпусом, содержит минимальную метаинформацию: номер журнала, автор текста, тип текста.
Объём корпуса
[править | править код]Корпус объёмом около 100 тыс. словоупотреблений, извлеченных из журнала «Итоги». Журнал представляет широкий спектр современных публицистических жанров, тематическое разнообразие статей, высокий уровень владения стилистическими ресурсами русского языка его авторов.
Доступ
[править | править код]В настоящее время свободным и бесплатным является поиск по сайту. Для поиска доступны результаты морфологического и синтаксического аннотирования. Корпус доступен для коммерческого использования в формате MTE. Поддержка и финансирование сайта корпуса ведётся Хельсинкским университетом.
См. также
[править | править код]- Машинный фонд русского языка
- Списки частотных слов русского языка
- Частотный словарь
- Национальный корпус русского языка
Литература
[править | править код]- Копотев, М. В., А. Мустайоки Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети Интернет // Научно-техническая информация. Сер. 2: Информационные системы и процессы. № 6: Корпусная лингвистика в России, 2003, c. 33-37.
- Мустайоки А., Копотев М. В., Гурин Г. Б., Саломатина М. С. Принципы синтаксической разметки Хельсинкского аннотированного корпуса русских текстов ХАНКО // Труды международной конференции «MegaLing`2005. Прикладная лингвистика в поиске новых путей» — СПб., 2005
- Резникова Т. И., Копотев М. В. Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов) // Национальный корпус русского языка: 2003−2005. М.: Индрик, 2005, 31−61.
Ссылки
[править | править код]
Это заготовка статьи по лингвистике. Помогите Википедии, дополнив её. |
Это заготовка статьи о веб-сайте. Помогите Википедии, дополнив её. |