Письменный корпус татарского языка (Hnv,byuudw tkjhrv mgmgjvtkik x[dtg)
Письменный корпус татарского языка | |
---|---|
URL | corpus.tatar |
Тип сайта | корпус текстов |
Язык (-и) | татарский/русский/английский |
Расположение сервера | Татарстан |
Создатель | Сайхунов М.Р., Ибрагимов Т.И., Хусаинов Р.Р. |
Начало работы | 2011 |
Текущий статус | Работает и развивается |
Пи́сьменный ко́рпус тата́рского языка́ — электронный корпус татарского языка, доступный для онлайн пользования. Корпус предназначен интересующимся системой, состоянием и перспективой татарского языка. Он необходим лингвистам, изучающим татарский язык в рамках корпусной лингвистики.
Сайт открыт 15 марта 2012 года. Текущий адрес http://corpus.tatar Архивная копия от 26 апреля 2016 на Wayback Machine.
Доступен на татарском, русском и английском языках.
Объём корпуса
[править | править код]Объём корпуса с конца 2014 года насчитывает более 116 млн слов, составляющих более 10 млн предложений, число различных словоформ приближается к 1,5 млн.
Тексты в корпусе хранятся в виде отдельных предложений с целью предотвращения их копирования.
Доступ
[править | править код]Доступ к пользованию корпусом является бесплатным.
О создании корпуса
[править | править код]Создание корпуса началось в 2010 году группой энтузиастов. Оно было продиктовано необходимостью разработки системы машинного перевода текстов с татарского на иностранный язык и обратно, а также системы автоматического синтеза и распознавания татарской речи определенной тематики.
Практическая значимость и возможности использования
[править | править код]Корпус может использоваться лингвистами, изучающими татарский язык в рамках корпусной лингвистики, а также при обучении языку и в качестве справочника при составлении различных документов.
Корпус позволяет просматривать контекст, определять частоту вхождений, находить слова с требуемыми свойствами.
Контекстно-статистический поиск
[править | править код]Данный тип поиска Архивная копия от 26 апреля 2016 на Wayback Machine позволяет просматривать отсортированные по частотности правый, левый и семантический контексты искомого слова.
Правый контекст — слова расположенные непосредственно за текущим словом.
Левый контекст — слова расположенные непосредственно перед текущим словом.
Семантический контекст — слова расположенные в одном предложении с текущим словом, то есть имеющие с ним в той или иной степени семантическую связь.
Сложный морфологический поиск
[править | править код]В 2014 году была произведена морфологическая разметка Корпуса. В основу метаязыка грамматических помет положена система «тегов» для тюркских языков, разработанная международным проектом Apertium Архивная копия от 14 апреля 2016 на Wayback Machine. В рамках данного проекта создается система машинного перевода для большого количества языков. Основными аргументами в пользу выбора морфологического таггера Apertium’а для разметки Письменного корпуса являются:
— высокое качество морфологической аннотации;
— абсолютная открытость этого проекта: все исходные коды и наработки публично доступны всем желающим бесплатно.
Разработанная нами в 2015—2016 годах Система сложного морфологического поиска Архивная копия от 26 апреля 2016 на Wayback Machine позволяет производить поиск в Корпусе на основе различных комбинаций таких параметров, как словоформа, лемма, набор морфологических (грамматических) тегов, начало, середина, конец слова с указанием возможных расстояний между лексемами.
Система синтеза татарской речи
[править | править код]На сайте Письменного корпуса татарского языка имеется возможность прослушать как найденные предложения, так и произвольный текст Архивная копия от 26 апреля 2016 на Wayback Machine.
Статистические данные
[править | править код]На сайте Корпуса размещаются различные статистические данные Архивная копия от 26 апреля 2016 на Wayback Machine, которые авторы получают по мере обработки данных.
Недостатки и перспективы развития
[править | править код]- Отсутствует оффлайн версия корпуса.
- Нет возможности поиска со снятой омонимией.
Составители
[править | править код]Создателями корпуса являются:
- Сайхунов М. Р. (кандидат филологических наук, научный сотрудник Института информатики АН РТ)
- Ибрагимов Т. И. (кандидат филологических наук, доцент кафедры прикладной лингвистики КФУ)
- Хусаинов Р. Р. (инженер, компания GDC)
При содействии:
- Республиканского центра развития традиционной культуры
- Кафедры финно-угорских языков Университета Турку (Финляндия)
- Компании «RX5»
- Редакции научно-информационного журнала «Фән һәм Тел»
Литература[1]
[править | править код]- Татар теленең язма корпусы // «Мәдәни җомга» (2012 № 20) Архивная копия от 26 апреля 2016 на Wayback Machine
- Татар теленең язма корпусы // «Фән һәм Тел» (2012 № 1-2) Архивная копия от 26 апреля 2016 на Wayback Machine
- Татар теленең язма корпусы һәм тел мәсьәләләре // «Мәдәни җомга» (2012 № 32) Архивная копия от 26 апреля 2016 на Wayback Machine
- К построению структурно-функциональной модели ценностной ориентации татарского этноса (по материалам письменного корпуса татарского языка) // Языки России и стран ближнего зарубежья как иностранные: преподавание и изучение: материалы Международной научно-практической конференции (28-29 ноября 2013 г.) Архивная копия от 26 апреля 2016 на Wayback Machine
- Письменный корпус татарского языка: идеи, проблемы, решения // Нематериальное культурное наследие тюркских народов как объект сохранения: сборник материалов Международной научно-практической конференции (16-19 июля 2014 г.) Архивная копия от 26 апреля 2016 на Wayback Machine
- Письменный корпус татарского языка с озвучением визуализированных предложений как инструмент лингвистических исследований // Сопоставительная филология и полилингвизм: Материалы Всероссийской научно-практической конференции (Казань, 19-21 ноября 2014 г.) Архивная копия от 26 апреля 2016 на Wayback Machine
- Письменный корпус татарского языка: структурные и функциональные характеристики // Актуальные проблемы диалектологии языков народов России: Материалы XIV Всероссийской научной конференции (Уфа, 20-22 ноября 2014 г.) Архивная копия от 25 апреля 2016 на Wayback Machine
- Татар теле, татарлар һәм ассимиляция күренеше // «Фәнни Татарстан» (2015 № 1) Архивная копия от 25 апреля 2016 на Wayback Machine
- The language situation of an ethnic community (on the material of the Corpus of written Tatar language) // «Tatarica» (2015 № 4) Архивная копия от 26 апреля 2016 на Wayback Machine
- Языковое состояние этнической общности на материале Письменного корпуса татарского языка // «Tatarica» (2015 № 4) Архивная копия от 26 апреля 2016 на Wayback Machine
- Фонология татарского языка в плане теории фонемы И. А. Бодуэна де Куртенэ // И. А. Бодуэн де Куртенэ и мировая лингвистика: международная конференция: V Бодуэновские чтения (Казанский федеральный университет, 12-15 октября 2015 г.) Архивная копия от 26 апреля 2016 на Wayback Machine
Примечания
[править | править код]- ↑ Письменный Корпус Татарского Языка . Дата обращения: 22 апреля 2016. Архивировано 25 апреля 2016 года.
Ссылки
[править | править код]- Письменный корпус татарского языка — Официальный сайт Архивная копия от 26 апреля 2016 на Wayback Machine
Для улучшения этой статьи по лингвистике желательно:
|