Для эффективного решения задач автоматизированной обработки информации из выбранного типа информационных источников необходим предварительный анализ предметной области с последующей настройкой информационной системы. В результате такого анализа общее лингвистическое обеспечение (словари и правила), отвечающее за “понимание” основ любого текста (морфология, лексика, синтаксис), обычно должно быть, в зависимости от стиля и содержания обрабатываемых текстов, дополнено новыми словарями и правилами, а также, в зависимости от решаемых задач, новыми правилами семантической интерпретации текста.
Практически в ходе анализа предметной области решаются следующие задачи:
А) выявление и фиксация областей интереса — выбор типов объектов, связей, классов ситуаций, интересных и доступных для мониторинга в заданном типе текстов. Формирование концептуальной составляющей модели предметной области (онтологии) и задания на разработку соответствующего лингвистического наполнения системы;
Б) сбор фактического языкового материала (словари, типовые синтаксические конструкции) для наполнения лингвистической составляющей онтологии. Настройка и тестирование лингвистического наполнения системы с целью достижения максимальных показателей полноты и точности извлечения информации из текста.
На основании автоматического анализа текстов программный инструментарий ЭР СИ О позволяет строить следующие составляющие онтологии:
- термины — предметные словосочетания (полупроводниковая одностеночная углеродная нанотрубка), наименования процессов и свойств объектов предметной области (автоэлектронная эмиссия стоящей углеродной нанотрубки, трофическая характеристика пелагических сообществ), в том числе их определения и связи (является разновидностью, состоит из, используется для производства), выражаемые в тексте на естественном русском или английском языке;
- названия артефактов — моделей товаров, устройств, химических соединений и т.п., формируемые в тексте по особым правилам (BMW 325i, пиво “Три медведя”, ген β-1,3-глюканазы licA);
- атрибуты и характеристики объектов (скорость релаксации X, Y — прихвостень олигархов, размер багажника Z, глючный Z, Z отстойно едет);
- ситуации (события и факты), связанные с объектами предметной области, выражаемые в тексте на естественном русском или английском языке. Ситуации описываются синтаксическими схемами, в которых определяются роли всех интересующих участников (покупатель,продавец, товар, сумма и т.п.) и типовые способы ее описания в языке (Х покупает Y у Z, Z продает Y X-у, Х совершает сделку по покупке Y у Z,покупка Y у Z — дело рук X)