Рейтинг пользователей: / 0
ХудшийЛучший 

Арефьев Н.В.

ФОРМИРОВАНИЕ СЛОВАРЯ СОЧЕТАЕМОСТИ ДЛЯ СИСТЕМЫ АВТОМАТИЧЕСКОГО СИНТАКСИЧЕСКОГО АНАЛИЗА

МГУ им. М.В. Ломоносова

One kind of linguistic knowledge required by a syntax parser are selectional restrictions. This paper describes an approach to selectional restrictions acquisition from raw texts used in TREETON syntax parser of Russian.

Keywords: selectional restrictions, syntax parsing

Для получения качественных результатов системе автоматического синтаксического анализа требуются сведения о сочетаемости лексических единиц. В работе описан подход к извлечению таких сведений из неразмеченного корпуса текстов,  принятый в системе синтаксического анализа русскоязычных текстов TREETON.

Ключевые слова: ограничения на сочетаемость, синтаксический анализ

Качество и скорость работы системы автоматического синтаксического анализа (впрочем, как и многих других систем автоматической обработки текстов на естественном языке – далее АОТ) существенно зависит не только от используемых алгоритмов, но и от заложенных в систему лингвистических знаний. Синтаксический анализатор TREETON [1], разрабатываемый под руководством М.Г. Мальковского на факультете ВМиК МГУ, в процессе работы опирается на два типа лингвистических знаний: синтаксические правила и информация о сочетаемости слов. Правила позволяют строить гипотезы о синтаксических связях между словами предложения, опираясь на морфологические характеристики этих слов (полученные от морфологического анализатора). Информация о сочетаемости необходима для оценки достоверности порождаемых гипотез, что дает возможность отбрасывать заведомо ошибочные гипотезы, а также упорядочивать результаты работы анализатора. В качестве примера рассмотрим следующие фрагменты предложений: съесть пирог с облепихой, съесть пирог с удовольствием. Синтаксические правила дают возможность связать предложную группу как с существительным, так и с глаголом, поэтому в обоих случаях будут построены по две гипотезы, одна из которых ошибочна (съесть->c->облепихой и пирог->c->удовольствием) и будет отброшена, если в системе описана сочетаемость слов съесть и пирог.

Одна из основных проблем, возникающих при разработке системы АОТ, состоит в формировании лингвистической базы знаний (ЛБЗ). С одной стороны, для обеспечения качественных результатов содержимое ЛБЗ должно контролироваться экспертами-лингвистами. С другой стороны, даже при анализе текстов фиксированной предметной области обычно требуются довольно большой объем лингвистической информации, что делает чрезвычайно трудоемким ручное формирование и поддержание в актуальном состоянии ЛБЗ. Следуя концепции, изложенной в [2], в системе TREETON был принят автоматизированный подход к формированию ЛБЗ: система синтаксических правил составляется экспертами, а информация о сочетаемости слов автоматически извлекается из корпуса текстов. Извлеченная информация (носящая статистический характер) составляет статистическую часть словаря сочетаемости. При необходимости эксперты с помощью специальных инструментов могут эффективно редактировать и обобщать извлеченные из корпуса данные, в результате чего формируется онтологическая часть словаря. Подсистема тестирования синтаксического анализатора позволяет следить за тем, как внесенные изменения отражаются на качестве его работы. Такая организация словаря позволяет обеспечить изначально широкий охват лексики, а затем систематически улучшать лингвистические описания, за счет чего повышать качество работы синтаксического анализатора.

ЧИТАТЬ ВЕСЬ ТЕКСТ >>>
 
Секции-октябрь 2011
КОНФЕРЕНЦИЯ:
  • "Научные исследования и их практическое применение. Современное состояние и пути развития.'2011"
  • Дата: Октябрь 2011 года
  • Проведение: www.sworld.com.ua
  • Рабочие языки: Украинский, Русский, Английский.
  • Председатель: Доктор технических наук, проф.Шибаев А.Г.
  • Тех.менеджмент: к.т.н. Куприенко С.В., Федорова А.Д.

ОПУБЛИКОВАНО В:
  • Сборник научных трудов SWorld по материалам международной научно-практической конференции.