Электронный словарь (|lytmjkuudw vlkfgj,)

Электронный словарь — программное обеспечение, которое позволяет быстро найти нужное слово, часто с учётом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-русский или русско-английский).

Внутренне устроен как база данных со словарными статьями.

Машиночитаемые словари (Machine-readable dictionary, кратко MRD) используются компьютерными программами для решения различных задач, например, для обработки текстов на естественном языке. Машиночитаемые словари являются разновидностью электронных словарей.

Машиночитаемые словари[править | править код]

Создание машиночитаемых словарей[править | править код]

В проекте Leipzig Corpora Collection^[1] (LCC) корпуса и одноязычные словари строятся на основе текстов, извлекаемых из сети Интернет^[2]. LCC включает около 400 словарей. В качестве затравки для поиска текстов в Интернете в проекте LCC использовали текст Всеобщей декларации прав человека, поскольку Декларация содержит около 2000 общеупотребимых слов и переведена на 370 языков и диалектов^[3]. Из 200 Википедий были отобраны тексты для компиляции всего 70 словарей. Тексты не всех Википедий были включены в корпус LCC, поскольку многие вики-проекты начинаются с создания статей-заготовок, содержащих почти одинаковые предложения^[3].

Такой подход трудно реализуем для малоресурсных языков, но проект Crúbadán^[4], собрав данные для более чем 2200 языков, показывает, что автоматический поиск для языков, представленных в сети Интернет малым или единичным числом текстов, также возможен^[5]. В дальнейшем эти тексты используются для создания словарей, например, в проекте Crúbadán было собрано более 100 млн валлийских слов и половина валлийских текстов с этими словами были переданы Уэльскому университету для создания валлийского словаря^[6].

Использование машиночитаемых словарей[править | править код]

В работах 1980-х годов предполагали, что на основе машиночитаемых словарей можно построить большие базы знаний. Но в дальнейшем признали, что для этого нужно использовать множество ресурсов, в первую очередь корпусы^[7].

Максимум того, что получилось добиться при извлечении знаний из словарей — это автоматически построить несколько несовершенных таксономий^[8].

Трудности извлечения информации из словарей:

Преобразование из исходного формата требует больших усилий и эта задача достойна отдельного исследования, однако учёные предпочитают заниматься более научными задачами^[10]. Трудность в том, что неоднозначности и противоречия в правилах организации исходного словаря исключают возможность построения полностью автоматического парсера словаря. Построение таких парсеров — задача времязатратная и неблагодарная, поэтому словарей, доступных для компьютерной обработки крайне мало^[10].
Противоречия и несогласованность в словарях приводят к построению очень разных семантических сетей по разным словарям^[11]. Проверка фрагментов пяти главных английских словарей показала, что в 50-70 % случаев информация в толкованиях словарей искажена или отсутствует^[12]. Та же плачевная картина получена при анализе трёх главных французских словарей. Из этого следует, что те методы WSD, которые основаны на анализе текстов толкований, в этих многочисленных случаях не будут работать^[12].
Необходима частичная ручная проверка для построения качественных баз знаний по словарям^[13].
Необходима интеграция множества источников данных. В комбинировании информации из нескольких словарей есть смысл, поскольку неполнота одного словаря компенсируется другим, имеющим другие лакуны и пропуски информации. В небольшом эксперименте в построении иерархии по пяти английским словарям процент ошибок был снижен с 55-70 % до 5 %. Качество извлекаемой информации при объединении словарей повысилось, но ручная проверка нужна^[13]. С другой стороны, анализ 12 русских словарей показал, что существуют большие размеры пересечений словников словарей^[9]. На рисунке представлена доля «уникальной» лексики в каждом из рассмотренных русских словарей^[9].

Формат машиночитаемых словарей[править | править код]

Для использования машиночитаемых словарей их необходимо преобразовать в удобный для работы формат. Формат должен быть достаточно общим для совместимости между разными словарями, для создания единого ПО и повторного использования словарей^[13]. Примером является формат, выработанный сообществом TEI^[13].

С выбором формата словаря тесно связана задача выбора подходящей модели для представления данных машиночитаемого словаря. Если посмотреть любую словарную статью, то можно увидеть, что организация лексикографических данных намного сложнее, чем данные в задаче «товары-поставщик» или организация «базы данных сотрудников». Классические (реляционные) базы данных не являются идеальным решением для лексических баз данных^[14].

В работах^[15]^[16], посвящённых исследованиям в области проектирования баз данных, предложена альтернативная модель для лексической базы данных на основе свойств. Особенности этой модели: (1) поддержка вложения значений, (2) есть механизм наследования для исключения избыточной информации.

См. также[править | править код]

Онлайн-словарь

Примечания[править | править код]

↑ Leipzig Corpora Collection (неопр.). Дата обращения: 5 мая 2019. Архивировано 30 мая 2016 года.
↑ Goldhahn et al., 2012, с. 760.
↑ ¹ ² Goldhahn et al., 2012, с. 762.
↑ An Crúbadán — Corpus Building for Minority Languages (неопр.). Дата обращения: 5 мая 2019. Архивировано 23 апреля 2019 года.
↑ Scannell, 2007.
↑ Scannell, 2007, с. 9.
↑ Ide, Véronis, 1994, с. 137—138.
↑ Ide, Véronis, 1994, с. 138.
↑ ¹ ² ³ Kiselev et al., 2015.
↑ ¹ ² Ide, Véronis, 1994, с. 139.
↑ Ide, Véronis, 1994, с. 141.
↑ ¹ ² Ide, Véronis, 1994, с. 140.
↑ ¹ ² ³ ⁴ Ide, Véronis, 1994, с. 143.
↑ Ide, Véronis, 1994, с. 144.
↑ Ide, N., Le Maitre, J., & Véronis, J. (1994). Outline of a model for lexical databases Архивная копия от 9 августа 2017 на Wayback Machine. In Current Issues in Computational Linguistics: In Honour of Don Walker (pp. 283—320). Springer, Dordrecht.
↑ Véronis, J., & Ide, N. (1992, August). A feature-based model for lexical databases Архивная копия от 14 июля 2019 на Wayback Machine. In Proceedings of the 14th conference on Computational linguistics-Volume 2 (pp. 588—594). Association for Computational Linguistics.

Литература[править | править код]

Goldhahn D., Eckart T., Quasthoff U. Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages (англ.) // LREC : Istanbul, Turkey. — 2012. — Vol. 29. — P. 759—765.
Ide, N., & Véronis, J. Machine Readable Dictionaries: What have we learned, where do we go (англ.) // Proceedings of the International Workshop on the Future of Lexical Research : Beijing, China. — 1994. — P. 137—146.
Kiselev Y., Krizhanovsky A., Braslavski P., Menshikov I., Mukhin M., Krizhanovskaya N. Russian lexicographic landscape: a tale of 12 dictionaries (англ.) // Computational Linguistics and Intellectual Technologies: “Dialogue”. — Moscow: RGGU, 2015. — Iss. 14 (21). — P. 254—271.
Scannell K. P. The Crúbadán Project: Corpus building for under-resourced languages (англ.) // Building and Exploring Web Corpora: Proceedings of the 3rd Web as Corpus Workshop. — 2007. — Vol. 4. — P. 5—15.

[1] Leipzig Corpora Collection (неопр.). Дата обращения: 5 мая 2019. Архивировано 30 мая 2016 года.

[_01d1a4e2a06997fe-2] Goldhahn et al., 2012, с. 760.

[_01d1a4e2a06997fc-3] ¹ ² Goldhahn et al., 2012, с. 762.

[4] An Crúbadán — Corpus Building for Minority Languages (неопр.). Дата обращения: 5 мая 2019. Архивировано 23 апреля 2019 года.

[_5c0a11a06be5ed58-5] Scannell, 2007.

[_4b094b9757b24cb1-6] Scannell, 2007, с. 9.

[_853650a2aa14ee64-7] Ide, Véronis, 1994, с. 137—138.

[_0ef3a7dc0602b829-8] Ide, Véronis, 1994, с. 138.

[_f77c0aae0fb7cfdc-9] ¹ ² ³ Kiselev et al., 2015.

[_0ef3a7dc0602b828-10] ¹ ² Ide, Véronis, 1994, с. 139.

[_0ef3a8dc0602b9f5-11] Ide, Véronis, 1994, с. 141.

[_0ef3a8dc0602b9f4-12] ¹ ² Ide, Véronis, 1994, с. 140.

[_0ef3a8dc0602b9f7-13] ¹ ² ³ ⁴ Ide, Véronis, 1994, с. 143.

[_0ef3a8dc0602b9f0-14] Ide, Véronis, 1994, с. 144.

[15] Ide, N., Le Maitre, J., & Véronis, J. (1994). Outline of a model for lexical databases Архивная копия от 9 августа 2017 на Wayback Machine. In Current Issues in Computational Linguistics: In Honour of Don Walker (pp. 283—320). Springer, Dordrecht.

[16] Véronis, J., & Ide, N. (1992, August). A feature-based model for lexical databases Архивная копия от 14 июля 2019 на Wayback Machine. In Proceedings of the 14th conference on Computational linguistics-Volume 2 (pp. 588—594). Association for Computational Linguistics.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

Лексикография
Типы справочников	Глоссарий Лексика Разговорник Словарь Тезаурус
Типы словарей	Активный словарь Биографический словарь Визуальный словарь^[en] Грамматический словарь Древнекитайский рифмованный словарь^[en] Идеографический словарь Лингвострановедческий словарь^[en] Медицинский словарь Обратный словарь Орфографический словарь Орфоэпический словарь Переводной словарь Словари для продвинутых учащихся^[en] Словари для учащихся^[en] Словарь анаграмм^[en] Словарь иллюстраций^[en] Словарь сокращений Словарь рифм Тематически специализированный словарь^[en] Типологически специализированный словарь^[en] Толковый словарь Фразеологический словарь Частотный словарь Электронный словарь Машиночитаемый словарь Энциклопедический словарь Этимологический словарь
Прочее	Дефиниционный вокабуляр Список известных лексикографов^[en] Даль Зализняк Мельчук Мюллер Ожегов Слонимский Срезневский Ушаков Чубинашвили Шведова
Портал лингвистики

Электронный словарь (|lytmjkuudw vlkfgj,)

Содержание

Машиночитаемые словари[править | править код]

Создание машиночитаемых словарей[править | править код]

Использование машиночитаемых словарей[править | править код]

Формат машиночитаемых словарей[править | править код]

Популярные электронные словари[править | править код]

Словари[править | править код]

Программы[править | править код]

Программы, сайты и др.[править | править код]

См. также[править | править код]

Примечания[править | править код]

Литература[править | править код]