• 01.07.2014

Объектом интереса в задачах компьютерной разведки чаще всего являются персоны или организации. Распознавание имен таких объектов, упоминавшихся в документе, выделение всех упоминаний об интересующих объектах из «текстовой помойки» являются необходимыми этапами, которые в том или ином виде присутствуют в любой технологической схеме извлечения из текста первичных знаний для обеспечения аналитической деятельности.

В полной постановке задача выделения упоминаний об объектах включает в себя две подзадачи:

  1. распознавание и разбор наименований объектов с выделением всех элементов наименования (ФИО, организационно-правовая форма, форма хозяйственной деятельности, название, географические атрибуты и т.д.), что позволяет использовать результаты разбора для последующего отождествления наименований и приведения их к заданному каноническому виду;
  2. отождествление различных вариантов наименования одного и того же объекта в тексте, в том числе косвенных обозначений, не содержащих в себе имени собственного, например, президент, предприятие, котороеон.

Для решения задачи (1) используется словарный и бессловарный морфологического анализ с генерацией множества гипотез о лексико-грамматических разрядах и способах словоизменения известных и неизвестных слов, учитываются стандарты написания сложных наименований. Для снятия омонимии используется синтаксический анализ, учитывается контекст появления имени собственного во всем анализируемом тексте, его сочетаемость и склоняемость (не всегда можно понять, о мужчине или о женщине идет речь в конструкции адвокат Валентина Петренко, а слово London обозначает город или писателя).

Задача (2) в лингвистической терминологии носит название задачи установления кореферентности слов в тексте, т.е. тождества референтов слов. Ее решение опирается на систему эмпирических закономерностей, присущих текстам даже такого свободного жанра, как публикации СМИ. В рамках данной системы учитываются грамматические характеристики слова и информация о его синтаксических связях с другими словами, распределение по тексту упоминаний о возможных референтах слова.

Пример выделения программой всех упоминаний о заранее неизвестных объектах в тексте документа “Черная металлургия”.

t1

Красным цветом на рисунке выделены персоны, синим — организации. В квадратных скобках программой указано имя объекта, приведенное к канонической форме, со ссылкой на предшествующее упоминание этого объекта в документе, если таковое имелось. Как видно, программа не только выделила и привела к единообразному виду имена всех объектов, но и сумела отождествить местоимение он с Липухиным Юрием, ГОК c Лебединским горно-обогатительным комбинатом, банк c Кредобанком, а предприятие – c Запсибом.

Продукты, использующие технологию: