Коранический корпус арабского языка (Tkjguncyvtnw tkjhrv gjgQvtkik x[dtg)

Коранический корпус арабского языка
Коранический корпус арабского языка
URL	corpus.quran.com
Коммерческий	GNU General Public License
Тип сайта	корпус текстов
Язык (-и)	арабский/английский
Расположение сервера	Великобритания
Владелец	Лидский университет
Начало работы	2009
Текущий статус	работает и развивается

Коранический корпус арабского языка — доступный для поиска электронный онлайн-корпус текстов Корана, включающий 77 430 арабских слов. Целью проекта является предоставление морфологических и синтаксических данных для исследователей, желающих изучить классический арабский язык^[1]^[2]^[3]^[4]^[5].

Функции

Грамматический анализ текста помогает пользователям раскрывать предполагаемые значения каждого аята и предложения. Каждое слово текста Корана атрибутировано указанием его части речи и несколькими морфологическими характеристиками. В отличие от других корпусов арабского языка, грамматика, используемая Кораническим корпусом, является традиционной арабской грамматикой Ираб (إعراب). Коранический корпус арабского языка — это исследовательский проект, возглавляемый специалистом по компьютерным наукам Кайс Дюкс^[англ.] из Лидского университета^[4], который является частью проекта по изучению арабского языка в Школе вычислительной техники под руководством Эрика Атуэлла^[6].

Аннотированный корпус включает в себя^[1]^[7]:

верифицированную вручную частеречную разметку текста на арабском языке;
аннотированную древовидную структуру корпуса классического арабского языка;
новую визуализацию традиционной арабской грамматики через графы зависимостей;
морфологический поиск по тексту Корана;
машиночитаемый морфологический арабо-английский словарь;
частеречный конкорданс арабского языка Корана, с лемматизацией;
онлайновую доску объявлений для волонтёров сообщества.

Частеречная разметка присваивает каждому слову корпуса тег части речи и морфологические признаки — например, указание, является данное слово существительным или глаголом, стоит в мужском или женском роде. На первом этапе проекта была задействована автоматическая частеречная разметка. Затем характеристики для каждого из 77 430 слов Корана поэтапно уточнены двумя аннотаторами, и уточнения продолжаются до настоящего времени.

Лингвистические исследования, в которых используется Коранический корпус, включают в себя обучение скрытой марковской модели частеречной разметки арабского языка^[8], автоматическую категоризацию глав Корана^[9] и просодический анализ текста^[10].

Кроме того, проект предусматривает дословный перевод Корана на основе принятых английских источников вместо осуществления нового перевода Корана^[4].

См. также

Примечания

↑ ¹ ² K. Dukes, E. Atwell and N. Habash (2011). Supervised Collaboration for Syntactic Annotation of Quranic Arabic. Архивная копия от 10 мая 2012 на Wayback Machine Language Resources and Evaluation Journal (LREJ). Special Issue on Collaboratively Constructed Language Resources.
↑ Supervised collaboration for syntactic annotation of Quranic Arabic Архивная копия от 6 апреля 2018 на Wayback Machine at ResearchGate. Uploaded by Nizar Habash, Columbia University.
↑ K. Dukes and T. Buckwalter (2010). A Dependency Treebank of the Quran using Traditional Arabic Grammar. Архивная копия от 10 мая 2012 на Wayback Machine In Proceedings of the 7th International Conference on Informatics and Systems (INFOS). Cairo, Egypt.
↑ ¹ ² ³ The Quranic Arabic Corpus Архивная копия от 23 февраля 2013 на Wayback Machine at The Muslim Tribune. June 20, 2011.
↑ Eric Atwell, Claire Brierley, Kais Dukes, Majdi Sawalha and Abdul-Baquee Sharaf. An Artificial Intelligence approach to Arabic and Islamic content on the internet (недоступная ссылка), pg. 2. Riyadh: King Saud University, 2011.
↑ Engineering Profile for Dr Eric Atwell - School of Computing - University of Leeds (неопр.). www.comp.leeds.ac.uk. Дата обращения: 6 апреля 2018. Архивировано 9 августа 2017 года.
↑ K. Dukes and N. Habash (2011). One-step Statistical Parsing of Hybrid Dependency-Constituency Syntactic Representations. Архивная копия от 10 мая 2012 на Wayback Machine International Conference on Parsing Technologies (IWPT). Dublin, Ireland.
↑ M. Albared, N. Omar and M. Ab Aziz (2011). Developing a Competitive HMM Arabic POS Tagger using Small Training Corpora. (недоступная ссылка) Intelligent Information and Database Systems. Springer Berlin, Heidelberg.
↑ A. M. Sharaf and E. Atwell (2011). Automatic Categorization of the Quranic Chapters. Архивная копия от 8 января 2014 на Wayback Machine 7th International Computing Conference in Arabic (ICCA11). Riyadh, Saudi Arabia.
↑ C. Brierley, M. Sawalha and E. Atwell (2012). Boundary Annotated Qur’an Corpus for Arabic Phrase Break Prediction. Архивная копия от 15 декабря 2018 на Wayback Machine IVACS Annual Symposium. Cambridge.

Ссылки

Quranic Arabic Corpus

[dukes1-1] ¹ ² K. Dukes, E. Atwell and N. Habash (2011). Supervised Collaboration for Syntactic Annotation of Quranic Arabic. Архивная копия от 10 мая 2012 на Wayback Machine Language Resources and Evaluation Journal (LREJ). Special Issue on Collaboratively Constructed Language Resources.

[2] Supervised collaboration for syntactic annotation of Quranic Arabic Архивная копия от 6 апреля 2018 на Wayback Machine at ResearchGate. Uploaded by Nizar Habash, Columbia University.

[dukes2-3] K. Dukes and T. Buckwalter (2010). A Dependency Treebank of the Quran using Traditional Arabic Grammar. Архивная копия от 10 мая 2012 на Wayback Machine In Proceedings of the 7th International Conference on Informatics and Systems (INFOS). Cairo, Egypt.

[tri-4] ¹ ² ³ The Quranic Arabic Corpus Архивная копия от 23 февраля 2013 на Wayback Machine at The Muslim Tribune. June 20, 2011.

[5] Eric Atwell, Claire Brierley, Kais Dukes, Majdi Sawalha and Abdul-Baquee Sharaf. An Artificial Intelligence approach to Arabic and Islamic content on the internet (недоступная ссылка), pg. 2. Riyadh: King Saud University, 2011.

[6] Engineering Profile for Dr Eric Atwell - School of Computing - University of Leeds (неопр.). www.comp.leeds.ac.uk. Дата обращения: 6 апреля 2018. Архивировано 9 августа 2017 года.

[dukes3-7] K. Dukes and N. Habash (2011). One-step Statistical Parsing of Hybrid Dependency-Constituency Syntactic Representations. Архивная копия от 10 мая 2012 на Wayback Machine International Conference on Parsing Technologies (IWPT). Dublin, Ireland.

[8] M. Albared, N. Omar and M. Ab Aziz (2011). Developing a Competitive HMM Arabic POS Tagger using Small Training Corpora. (недоступная ссылка) Intelligent Information and Database Systems. Springer Berlin, Heidelberg.

[9] A. M. Sharaf and E. Atwell (2011). Automatic Categorization of the Quranic Chapters. Архивная копия от 8 января 2014 на Wayback Machine 7th International Computing Conference in Arabic (ICCA11). Riyadh, Saudi Arabia.

[10] C. Brierley, M. Sawalha and E. Atwell (2012). Boundary Annotated Qur’an Corpus for Arabic Phrase Break Prediction. Архивная копия от 15 декабря 2018 на Wayback Machine IVACS Annual Symposium. Cambridge.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Корпусная лингвистика
Англоязычные корпусы	Национальный корпус американского английского Bank of English Bergen Corpus of London Teenage Language Британский национальный корпус Brown Corpus Buckeye Corpus Cambridge English Corpus Корпус современного американского английского языка Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus PropBank Spoken English Corpus TIMIT VerbNet Wellington Corpus of Spoken New Zealand English
Русскоязычные корпусы	Генеральный интернет-корпус русского языка Национальный корпус русского языка Открытый корпус русского языка СинТагРус Тюбингенский корпус русского языка Уппсальский корпус русских текстов Хельсинкский аннотированный корпус русского языка
Корпусы на других языках	Bijankhan Corpus CHILDES Корпус хорватского языка Национальный корпус хорватского Europarl Corpus Мангеймский корпус немецкого языка Корпус Хамшахри Национальный корпус польского языка Neo-Assyrian Text Corpus Project Коранический корпус Национальный корпус шотландского языка Slovenian National Corpus TalkBank Татоэба Tehran Monolingual Corpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD