Письменный корпус татарского языка (Hnv,byuudw tkjhrv mgmgjvtkik x[dtg)

Перейти к навигации Перейти к поиску
Письменный корпус татарского языка
URL corpus.tatar
Тип сайта корпус текстов
Язык (-и) татарский/русский/английский
Расположение сервера Татарстан
Создатель Сайхунов М.Р., Ибрагимов Т.И., Хусаинов Р.Р.
Начало работы 2011
Текущий статус Работает и развивается

Пи́сьменный ко́рпус тата́рского языка́ — электронный корпус татарского языка, доступный для онлайн пользования. Корпус предназначен интересующимся системой, состоянием и перспективой татарского языка. Он необходим лингвистам, изучающим татарский язык в рамках корпусной лингвистики.
Сайт открыт 15 марта 2012 года. Текущий адрес http://corpus.tatar Архивная копия от 26 апреля 2016 на Wayback Machine.
Доступен на татарском, русском и английском языках.

Объём корпуса

[править | править код]

Объём корпуса с конца 2014 года насчитывает более 116 млн слов, составляющих более 10 млн предложений, число различных словоформ приближается к 1,5 млн.
Тексты в корпусе хранятся в виде отдельных предложений с целью предотвращения их копирования.

Доступ к пользованию корпусом является бесплатным.

О создании корпуса

[править | править код]

Создание корпуса началось в 2010 году группой энтузиастов. Оно было продиктовано необходимостью разработки системы машинного перевода текстов с татарского на иностранный язык и обратно, а также системы автоматического синтеза и распознавания татарской речи определенной тематики.

Практическая значимость и возможности использования

[править | править код]

Корпус может использоваться лингвистами, изучающими татарский язык в рамках корпусной лингвистики, а также при обучении языку и в качестве справочника при составлении различных документов.
Корпус позволяет просматривать контекст, определять частоту вхождений, находить слова с требуемыми свойствами.

Контекстно-статистический поиск

[править | править код]

Данный тип поиска Архивная копия от 26 апреля 2016 на Wayback Machine позволяет просматривать отсортированные по частотности правый, левый и семантический контексты искомого слова.
Правый контекст — слова расположенные непосредственно за текущим словом.
Левый контекст — слова расположенные непосредственно перед текущим словом.
Семантический контекст — слова расположенные в одном предложении с текущим словом, то есть имеющие с ним в той или иной степени семантическую связь.

Сложный морфологический поиск

[править | править код]

В 2014 году была произведена морфологическая разметка Корпуса. В основу метаязыка грамматических помет положена система «тегов» для тюркских языков, разработанная международным проектом Apertium Архивная копия от 14 апреля 2016 на Wayback Machine. В рамках данного проекта создается система машинного перевода для большого количества языков. Основными аргументами в пользу выбора морфологического таггера Apertium’а для разметки Письменного корпуса являются:
— высокое качество морфологической аннотации;
— абсолютная открытость этого проекта: все исходные коды и наработки публично доступны всем желающим бесплатно.
Разработанная нами в 2015—2016 годах Система сложного морфологического поиска Архивная копия от 26 апреля 2016 на Wayback Machine позволяет производить поиск в Корпусе на основе различных комбинаций таких параметров, как словоформа, лемма, набор морфологических (грамматических) тегов, начало, середина, конец слова с указанием возможных расстояний между лексемами.

Система синтеза татарской речи

[править | править код]

На сайте Письменного корпуса татарского языка имеется возможность прослушать как найденные предложения, так и произвольный текст Архивная копия от 26 апреля 2016 на Wayback Machine.

Статистические данные

[править | править код]

На сайте Корпуса размещаются различные статистические данные Архивная копия от 26 апреля 2016 на Wayback Machine, которые авторы получают по мере обработки данных.

Недостатки и перспективы развития

[править | править код]
  • Отсутствует оффлайн версия корпуса.
  • Нет возможности поиска со снятой омонимией.

Составители

[править | править код]

Создателями корпуса являются:

  • Сайхунов М. Р. (кандидат филологических наук, научный сотрудник Института информатики АН РТ)
  • Ибрагимов Т. И. (кандидат филологических наук, доцент кафедры прикладной лингвистики КФУ)
  • Хусаинов Р. Р. (инженер, компания GDC)

При содействии:

  • Республиканского центра развития традиционной культуры
  • Кафедры финно-угорских языков Университета Турку (Финляндия)
  • Компании «RX5»
  • Редакции научно-информационного журнала «Фән һәм Тел»

Примечания

[править | править код]
  1. Письменный Корпус Татарского Языка. Дата обращения: 22 апреля 2016. Архивировано 25 апреля 2016 года.