Распознавание ситуаций — событий или фактов заданного типа — необходимо для компьютерной разведки, например, для подбора материала к досье на заданную персону или для мониторинга выбранных сторон деятельности организации, освещаемых в прессе.
На сегодняшний день в любой технологической схеме, обеспечивающей сбор и обработку информации из электронных источников, существует узкое место. В этом месте сырые данные (мега- и гига-байты текста на естественном языке) должны превращаться в первичные знания об интересующих объектах — гипотезы и факты. Именно эти первичные знания представляют собой тот исходный материал, работая с которым — отсеивая, верифицируя, сопоставляя — аналитик формирует конечное знание, которое представляет собой аналитический отчет, прогноз или просто новую запись в досье или базе данных.
Для автоматического превращения текста электронных документов в первичные знания предназначена технология распознавания ситуаций (иногда также называемая технологией извлечения знаний, фактов, технологией фактографического поиска).
Технология распознавания ситуаций позволяет:
- найти в тексте описания ситуаций нужного типа: предложения, в которых говорится о таких событиях и фактах, как, предположим, приобретение собственности, встреча, заключение договора, расход бюджетных средств, скандал и другое.
- выделить всех участников ситуации в соответствии с их ролями. Например, по описанию сделки купли-продажи определить, что покупателем является Алексей Иванов, товаром являются акции компании “Северные авиалинии” в количестве 20%, а продавец в тексте не указан;
- классифицировать описания ситуаций, сгруппировав их по заданным критериям. Например, можно отфильтровать описания всех сделок купли-продажи с заданной персоной,выступающей в роли продавца или покупателя, и сгруппировать эти описания по значению предмета покупки, чтобы получить представление о том, какой собственностью владела данная персона. Или сгруппировать все ситуации выбранных типов по значениям одушевленных участников, чтобы увидеть круг лиц, контактировавших с целевым объектом интересующим образом (допустим, финансовые связи).
Пример классификатора ситуаций приведен на рисунке ниже.
В окне слева — объекты и классы ситуаций с их участием, для удобства объединенные в логические группы, с указанием числа найденных ситуаций, отнесенных к соответствующему узлу рубрикатора. В окне справа — список найденных ситуаций, отнесенных к выбранному классу “покупает” выбранной группы объектов “МДМ”. Классификатор настроен так, что ситуации сгруппированы по значению фигуранта “предмет покупки”. В окне снизу — найденные описания факта покупки Петровского народного банка (6 цитат из документов с возможностью просмотра их полного текста).
Технология распознавания ситуаций предназначена для высокоточного избирательного извлечения информации, поэтому предполагает настройку шаблонов для поиска и классификации событий и фактов самых различных типов. Такие шаблоны создаются двумя путями:
А) при помощи специальной программы-настройщика, позволяющей строить шаблоны на основе типовых фраз русского или английского языка, т.е. обучать программу на примерах. Эта процедура не требует специальных лингвистических знаний, однако предполагает хорошее владение языком для понимания способов, которыми ситуация может быть описана в тексте, учета возможных синонимов. После приобретения определенной сноровки создание шаблона для высокоточного выделения ситуаций заданного типа занимает пару часов.
Б) настройкой уже существующих стандартных шаблонов путем простого подключения требуемых словарей. Стандартные шаблоны позволяют выделять из текста большинство ситуаций и их участников, но без детальной классификации ролей. Такой путь позволяет легко и быстро настроить классификатор за счет некоторого снижения полноты и точности работы.
Продукты, использующие технологию: