Машинный фонд русского языка (Bgonuudw sku; jrvvtkik x[dtg)

Машинный фонд русского языка — проект создания большого представительного корпуса русского языка. Опыт МФРЯ используется при разработке, начиная с 2004 года, Национального корпуса русского языка.

Программа по созданию МФРЯ

Отдел Машинного фонда русского языка был создан в 1985 году по инициативе академика А. П. Ершова после состоявшейся в 1983 году специальной всесоюзной конференции^[1] Под руководством члена-корреспондента АН СССР Ю. Н. Караулова в Институте русского языка была разработана «Комплексная программа научных исследований и прикладных разработок по созданию Машинного фонда русского языка на 1996—2000 годы и информатизации исследований».

В создании Машинного фонда русского языка (1986—1990 гг.) принимали участие более 40 организаций-соисполнителей, среди них Московский, Ленинградский, Харьковский, Гродненский, Сыктывкарский и Саратовский университеты.

Под комплексной информатизацией научных исследований и прикладных разработок в русистике понималось:

Последовательное оснащение отделов Института русского языка и организаций-соисполнителей современными вычислительными машинами с перспективой объединения их в локальную сеть (не выполнено)
Последовательное накопление на машинных носителях и в базах данных главнейших источников, необходимых как для научного изучения русского языка, так и для осуществления прикладных разработок (выполнено частично)
Создание программных средств, необходимых как для подготовки научных трудов по филологии, так и для проведения прикладных разработок (разработаны 2 программы под MS-DOS и переведены в электронный вид несколько словарей);
Развитие прикладных направлений (лексикография, терминоведение, автоматическая обработка данных на естественном языке) как составной части академической русистики, являющихся, с одной стороны, проводником результатов фундаментальных исследований в практику, а с другой — источником новых идей и данных для фундаментальной науки (программа не реализована).

Реализация программы (1985—1992)

За 8 лет работы отделом Машинного фонда русского языка (частично с участием соисполнителей) были осуществлены:

Разработка концепции и архитектуры Машинного фонда русского языка ^[2]
Разработка концепции терминологического банка данных^[3]
Накопление значительного количества источников — накоплены на машинных носителях и частично в базах данных текстовые источники русской литературы XIX—XX вв., главнейшие словари русского языка, Краткая академическая грамматика, некоторые другие материалы справочного характера, созданы текстовые корпусы поэзии, художественной прозы, общественно-политических и технических текстов ^[4]
Разработка двух программ под управлением MS-DOS:

— UNILEX-T для изготовления частотных словарей, словоуказателей (индексов слов к текстам) и конкордансов и работы с последними ^[5]

— UNILEX-D для создания словарных баз данных и работы с последними.^[6]

Разработка программно-источниковых пакетов (их разработка была остановлена), например:

Автоматический Синтаксический словарь русского языка

Автоматический словарь синонимов русского языка

Автоматический вариант Словаря русского языка С. И. Ожегова

Автоматический словарь глагольного управления в русском языке.^[7]

Деятельность отдела МФ русского языка (1992—1998)

Полномасштабные испытания систем обработки лингвистических данных UNILEX путём участия в подготовке Орфографического словаря и Словаря поэзии XX в.

Ускоренное накопление новых источников на основе электронных изданий газет и сканирования произведений русского классической литературы. Полный архив источников Машинного фонда русского языка сейчас составляет более 100 млн словоупотреблений;

Работа над словарем языка Ф. М. Достоевского^[8].

Накопление источников в целях широкого дистрибутивно-статистического исследования русской прозы последней трети XIX в. и газет конца XX в.

Накопление и анализ дистрибутивно-статистических данных, подготовка публикаций сводных данных^[9].

Анализ деятельности по развитию МФ русского языка

Концепция развития МФ русского языка (1983 год)

создание компонентов лингвистического обеспечения задач информатики и
информатизация научных исследований в русистике.

Современные задачи создания МФРЯ

дистрибутивно-статистический анализ и накопления лингвистических ресурсов в интернете
накопление источников на сайтах Фонда
дальнейшее развитие функций Автоматической словарной картотеки Фонда
конструирование глобальной лингвостатистической обработки всех текстовых источников Фонда в интерактивном режиме^[10].

См. также

Национальный корпус русского языка

Примечания

↑ Материалы опубликованы в книге: Машинный фонд русского языка: идеи и суждения, М.: Наука, 1989
↑ Опубликована в книге В. М. Андрющенко Концепция и архитектура Машинного фонда русского языка, М.: 1989
↑ Опубликована в книге Лингвистическая концепция терминологического банка данных Машинного фонда русского языка (проект), под ред. А. С. Герда, М.: 1989
↑ содержание Архива источников было опубликовано в Бюллетене Машинного фонда русского языка, вып. 1; сейчас оно сильно устарело и нынешнее состояние архива лучше всего отражено здесь:[1] Архивная копия от 13 сентября 2007 на Wayback Machine (недоступная ссылка с 13-05-2013 [4182 дня] — история) [2] Архивная копия от 19 февраля 2007 на Wayback Machine
↑ Разработчик Ж. Г. Аношкина
↑ Разработчик Л. И. Колодяжная
↑ Описания в Бюллетене Машинного фонда русского языка, вып. 1-3).
↑ под руководством Ю. Н. Караулова
↑ первый результат такой публикации — книга А. Я. Шайкевича, В. М. Андрющенко и Н. А. Ребецкой «Статистический словарь языка Ф. М. Достоевского»
↑ образец такой обработки представлен в Статистическом словаре языка Достоевского). В. М. Андрющенко

Литература

Ершов А. П. Машинный фонд русского языка: внешняя постановка // Машинный фонд русского языка: идеи и суждения. М.: Наука, 1986.
Андрющенко В. М. Концепция и архитектура Машинного фонда русского языка. М.: Наука, 1989.
Андрющенко В. М. Разработка комбинированных изданий (книга+CD+Internet) // Московский лингвистический журнал, т. 7 № 1, 2003.
Шайкевич А. Я. Дистрибутивно-статистический анализ в семантике // Принципы и методы семантических исследований. М.: Наука, 1976.
Шайкевич А. Я. Гипотезы о естественных классах и возможность количественной таксономии в лингвистике // Гипотеза в современной лингвистике. М.: Наука, 1979.
Шайкевич А. Я., Андрющенко В. М., Ребецкая Н. А. Статистический словарь языка Достоевского. М.: Языки славянской культуры, 2003.

Ссылки

Лесников С. В. Машинный фонд русского языка в публикациях (1985—1998)

Сайт Машинного фонда — автор — гл.конструктор МФРЯ В. М. Андрющенко.

[1] Материалы опубликованы в книге: Машинный фонд русского языка: идеи и суждения, М.: Наука, 1989

[2] Опубликована в книге В. М. Андрющенко Концепция и архитектура Машинного фонда русского языка, М.: 1989

[3] Опубликована в книге Лингвистическая концепция терминологического банка данных Машинного фонда русского языка (проект), под ред. А. С. Герда, М.: 1989

[4] содержание Архива источников было опубликовано в Бюллетене Машинного фонда русского языка, вып. 1; сейчас оно сильно устарело и нынешнее состояние архива лучше всего отражено здесь:[1] Архивная копия от 13 сентября 2007 на Wayback Machine (недоступная ссылка с 13-05-2013 [4182 дня] — история) [2] Архивная копия от 19 февраля 2007 на Wayback Machine

[5] Разработчик Ж. Г. Аношкина

[6] Разработчик Л. И. Колодяжная

[7] Описания в Бюллетене Машинного фонда русского языка, вып. 1-3).

[8] под руководством Ю. Н. Караулова

[9] первый результат такой публикации — книга А. Я. Шайкевича, В. М. Андрющенко и Н. А. Ребецкой «Статистический словарь языка Ф. М. Достоевского»

[10] образец такой обработки представлен в Статистическом словаре языка Достоевского). В. М. Андрющенко

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]