Объектом интереса в задачах компьютерной разведки чаще всего являются персоны или организации. Распознавание имен таких объектов, упоминавшихся в документе, выделение всех упоминаний об интересующих объектах из «текстовой помойки» являются необходимыми этапами, которые в том или ином виде присутствуют в любой технологической схеме извлечения из текста первичных знаний для обеспечения аналитической деятельности.
В полной постановке задача выделения упоминаний об объектах включает в себя две подзадачи:
- распознавание и разбор наименований объектов с выделением всех элементов наименования (ФИО, организационно-правовая форма, форма хозяйственной деятельности, название, географические атрибуты и т.д.), что позволяет использовать результаты разбора для последующего отождествления наименований и приведения их к заданному каноническому виду;
- отождествление различных вариантов наименования одного и того же объекта в тексте, в том числе косвенных обозначений, не содержащих в себе имени собственного, например, президент, предприятие, которое, он.
Для решения задачи (1) используется словарный и бессловарный морфологического анализ с генерацией множества гипотез о лексико-грамматических разрядах и способах словоизменения известных и неизвестных слов, учитываются стандарты написания сложных наименований. Для снятия омонимии используется синтаксический анализ, учитывается контекст появления имени собственного во всем анализируемом тексте, его сочетаемость и склоняемость (не всегда можно понять, о мужчине или о женщине идет речь в конструкции адвокат Валентина Петренко, а слово London обозначает город или писателя).
Задача (2) в лингвистической терминологии носит название задачи установления кореферентности слов в тексте, т.е. тождества референтов слов. Ее решение опирается на систему эмпирических закономерностей, присущих текстам даже такого свободного жанра, как публикации СМИ. В рамках данной системы учитываются грамматические характеристики слова и информация о его синтаксических связях с другими словами, распределение по тексту упоминаний о возможных референтах слова.
Пример выделения программой всех упоминаний о заранее неизвестных объектах в тексте документа “Черная металлургия”.
Красным цветом на рисунке выделены персоны, синим — организации. В квадратных скобках программой указано имя объекта, приведенное к канонической форме, со ссылкой на предшествующее упоминание этого объекта в документе, если таковое имелось. Как видно, программа не только выделила и привела к единообразному виду имена всех объектов, но и сумела отождествить местоимение он с Липухиным Юрием, ГОК c Лебединским горно-обогатительным комбинатом, банк c Кредобанком, а предприятие – c Запсибом.
Продукты, использующие технологию: