Национальный корпус американского английского (Ugenkugl,udw tkjhrv gbyjntguvtkik guilnwvtkik)

Национальный корпус американского английского (англ. American National Corpus, ANC) — корпус текстов американского английского языка, содержащий 22 миллиона слов из письменных и устных источников, вышедших с 1990 года. ANC включает в себя ряд текстов из новых источников, включая такие как электронная почта, твиты и тексты с веб-страниц, которые не включены в более ранние корпуса английского языка, такие как Британский национальный корпус. В нём осуществлён частеречный конкорданс с лемматизацией, включая имена собственные, и поверхностный синтаксический анализ^[англ.].

ANC доступен для участников Консорциум лингвистических данных. Ресурс (подкорпус), содержащий 15 миллионов слов корпуса, называется Open American National Corpus (OANC) и находится в открытом доступе с сайта ANC^[1].

Тексты Корпуса формируются в соответствии с требованиями технического комитета ISO/TC 37^[англ.] «Linguistic Annotation Framework». Благодаря находящемуся в открытом доступе инструменту трансдукции ANC2Go, фрагменты корпуса и аннотации, созданные пользователями, представлены в нескольких форматах, таких как CoNLL IOB — XML-формат, соответствующий стандарту кодирования XCES^[англ.] (который можно использовать в поисковой системе XAIRA Британского национального корпуса), UIMA^[англ.]-совместимый формат, и форматы, подходящие для широкого спектра программ конкорданса. Также доступны плагины для импорта аннотаций в систему обработки естественного языка GATE.

ANC отличается от других корпусов английского языка широкой аннотированностью, включая различные частеречевые разметки (Penn tags, CLAWS5 и CLAWS7 tags), аннотации поверхностного синтаксического анализа^[англ.] и аннотации для нескольких типов именованных объектов. Дополнительные аннотации добавляются ко всему корпусу или его частям по мере поступления, нередко как результаты реализации других проектов. В отличие от онлайновых корпусов текстов, которые из-за ограничений, обусловленных авторским правом, предоставляют доступ только к отдельным предложениям, весь корпус текстов ANC доступен для проведения исследований, включая разработку статистических языковых моделей и полнотекстовых лингвистических аннотаций.

Аннотации ANC создаются автоматически и не проверяются. Раздел OANC из 500 000 слов, известный как аннотированный вручную подкорпус ANC^[англ.] (MASC) аннотируется для примерно 20 различных видов лингвистических аннотаций, которые проверяются или создаются вручную. К ним относятся синтаксическая аннотация Penn Treebank, семантические сети WordNet и FrameNet, и другие. Подобно OANC, MASC находится в свободном доступе для любого использования и может быть загружен с сайта ANC или Консорциума лингвистических данных. Он также распространяется с пакетом библиотек и программ для символьной и статистической обработки естественного языка Natural Language Toolkit.

ANC и его подкорпуса отличаются от аналогичных текстовых корпусов главным образом характеристиками лингвистических аннотаций и включением текстов современных жанров, которые не содержатся в таких ресурсах, как, например, Британский национальный корпус. Кроме того, поскольку первоначальное целевое назначение ANC — разработка статистических моделей языка, пользователям ANC доступны полные данные и все аннотации, в отличие от Корпуса современного американского английского языка (COCA), чьи тексты доступны только выборочно через веб-браузер.

Рост баз текстов OANC и MASC продолжается благодаря пополнению данных и аннотаций, производимых сообществами компьютерной лингвистики и корпусной лингвистики.

Примечания

↑ The Open American National Corpus (неопр.). Дата обращения: 7 апреля 2018. Архивировано 24 февраля 2018 года.

Литература

Ide, N. (2008). The American National Corpus: Then, Now, and Tomorrow. In Michael Haugh, Kate Burridge, Jean Mulder and Pam Peters (eds.), Selected Proceedings of the 2008 HCSNet Workshop on Designing the Australian National Corpus: Mustering Languages, Cascadilla Proceedings Project, Sommerville, MA.
Ide, N., Suderman, K. (2004). The American National Corpus First Release. Proceedings of the Fourth Language Resources and Evaluation Conference (LREC), Lisbon, 1681-84.
Ide, N., Baker, C., Fellbaum, C., Passonneau, R. (2010). The Manually Annotated Sub-Corpus: A Community Resource For and By the People

Ссылки

[1] The Open American National Corpus (неопр.). Дата обращения: 7 апреля 2018. Архивировано 24 февраля 2018 года.

[1]

Корпусная лингвистика
Англоязычные корпусы	Национальный корпус американского английского Bank of English Bergen Corpus of London Teenage Language Британский национальный корпус Brown Corpus Buckeye Corpus Cambridge English Corpus Корпус современного американского английского языка Enron Corpus International Corpus of English Lancaster-Oslo-Bergen Corpus Oxford English Corpus PropBank Spoken English Corpus TIMIT VerbNet Wellington Corpus of Spoken New Zealand English
Русскоязычные корпусы	Генеральный интернет-корпус русского языка Национальный корпус русского языка Открытый корпус русского языка СинТагРус Тюбингенский корпус русского языка Уппсальский корпус русских текстов Хельсинкский аннотированный корпус русского языка
Корпусы на других языках	Bijankhan Corpus CHILDES Корпус хорватского языка Национальный корпус хорватского Europarl Corpus Мангеймский корпус немецкого языка Корпус Хамшахри Национальный корпус польского языка Neo-Assyrian Text Corpus Project Коранический корпус Национальный корпус шотландского языка Slovenian National Corpus TalkBank Татоэба Tehran Monolingual Corpus Tekstaro de Esperanto Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD