• 01.01.2000

Повседневная деятельность служб безопасности (СБ) охватывает множество аспектов функционирования физических, технических и общественных объектов (например: людей, зданий, фирм).

Среди множества возникающих задач можно выделить две традиционно актуальных:

  • задача поиска аномального объекта среди заданного множества подобных;
  • задача определения связей выделенного объекта в заданном множестве.

Эти задачи можно проиллюстрировать следующими примерами.

Первая задача: таможенник, наблюдая ожидающую проверки толпу туристов, решает, кого он будет проверять дополнительно. Конечно, есть ряд известных ему признаков. Но часто он даже не может объяснить, почему он выбрал для проверки именно этого туриста. Это проявляется интуиция, заработанная годами практики, успехов и ошибок. Решение принимается на основании анализа большого количества признаков, каждый из которых по отдельности не значит ничего. Такими качествами и отличается хороший опытный таможенник от молодого, внимательного, хорошо учившегося, но неопытного коллеги.

Со второй задачей чуть проще. В Москве задержан с наркотиками студент-нигериец, а выявить его контакты напрямую нет возможности (например, не знает русского языка). Логично вести поиск среди нигерийцев, среди живущих с задержанным в одном общежитии, среди учащихся с ним в одном вузе. Иначе говоря, при наличии подозреваемого объекта поиск его возможных связей ведется среди похожих на него по одному признаку, а лучше – по совокупности признаков.

Здесь были рассмотрены примеры из традиционной, десятилетиями сложившейся среды функционирования СБ. Сегодня же в нашем электронном обществе основным источником информации, основным хранилищем «следов» является электронное хранилище – почтовая переписка по e-mail, архивы ICQ и т.д. Необходимость работы в новом информационном «пространстве» не подлежит сомнению.

Понятно, что такое пространство дает в руки сотрудников СБ новые возможности, но и создает новые трудности.

Проблемы анализа электронного текстового архива

С первого взгляда представляется, что проблема уже решена. Достаточно хранить в архиве переписку интересующих вас персон и, анализируя ее достаточно большой объем (за месяц, год), можно будет определить практически все интересные черты выделенного объекта. И, сопоставляя результаты такого анализа по разным объектам, можно решать поставленные выше две задачи.

Правда, возникают две проблемы:

  • Первая – обработка большого объема исходных данных (писем, сообщений ICQ и т.д.).
  • Вторая – выделение полного набора признаков для представления результатов анализа. Этих признаков должно быть достаточно для решения поставленных задач.

Для оценки возникающей проблематики приведем следующий пример.

Вы – сотрудник СБ относительно небольшой компании. Пусть в вашей фирме работает 100 человек. Каждый из них пишет и получает 10 писем в день. Итого 1000 в день, а за год наберется 300 тыс. сообщений.

Понятно, что анализ такого объема выходит далеко за рамки возможного для реальной СБ такой фирмы. В этом случае работник СБ напоминает умирающего в океане от жажды  – нельзя отделить нужное от негодного.

Это – иллюстрация первой проблемы.

Вторая – еще труднее.

Придумать набор признаков, адекватный каждому из рассматриваемых объектов, и в то же время универсальный для них – задача, смею утверждать, неподъемная.

Решение ее подобно решению «простой» задачи, известной каждому дошкольнику из народной сказки: «пойди туда, не знаю куда, найди то, не знаю что».

Так что, отвлекаясь, можно заметить, что приверженцы создания универсальной анкеты, из которой можно будет о человеке «узнать все» обречены на постоянное увеличение объема такой анкеты. В результате чего сам анализ такой заполненной анкеты превращается в отдельную задачу.

Трудность решения этих проблем и является базисом расчетов тех, кто надеется сохранить конфиденциальность своего общения, ведя переписку открытыми средствами. Известно, где проще всего спрятать лист – в лесу.

Информационный портрет, как концентрат текста

Итак, чтобы приступить к решению поставленных проблем, необходимо выделить из доступного нам текста (переписки объекта) некий концентрат, сублимированный остаток. Причем этот концентрат должен удовлетворять двум критериям:

  • быть привязанным к материалам исследуемого объекта;
  • автоматически отфильтровывать общий для всех других объектов «фон».

Иначе говоря, такой концентрат должен в какой-то степени решать приведенную выше вторую проблему выделения полного набора признаков.

При построении такого остатка необходимо учитывать специфику текстового материала: он состоит из элементарных конструкций языка, таких, например, как слова и словосочетания.

Остается только выделить из этих конструкций особо значимые для исследуемого объекта.

Будем называть такой набор значимых языковых конструкций, выделенных из доступного текстового материала информационным портретом объекта.

Основные принципы формирования информационного портрета из языковых конструкций.

  1. Полнота создаваемого образа (никакие существенные детали не должны быть пропущены).
  2. Избыточность текстового материала (при наличии всего лишь нескольких страниц, относящихся к объекту, особые технологии не нужны).
  3. Оценка значимости отдельной конструкции на основе сравнения ее представления в других объектах (это необходимо для отфильтровывания общего “фона”).
  4. Статистическая достоверность и устойчивость полученных результатов (результаты не должны резко меняться при получении дополнительного материала).
  5. Работа в реальном времени (если оценки занимают слишком много времени, анализ может опоздать).

Технология, примененная в продукте Зум, дает вариант построения такого информационного портрета.

Приведем пример такого портрета, построенного по этой технологии.

Для отстраненности от конкретных лиц и организаций, будем работать на базе англоязычных документов – сообщений мировых информационных агентств за 1999 год.

Объект – Джеймс Бонд, агент 007.
База – 800 тыс. сообщений, 1,8 Гб текста.

Исходный запрос “bond & 007

Найдено 191 сообщение.
После проведения анализа (система работала 20 секунд), получена следующая таблица значимых конструкций.

Главные темы
(слова)

Главные темы
(словосочетания)

BOND JAMES BOND
LLEWELYN BOND FILM
007 WORLD IS
FILM BOND MOVIE
BROSNAN VIC FLICK
CONNERY STEVIE WONDER
MGM FILM CLIP
DESMOND OF BOND
FILMS IAN FLEMING
PIERCE ROBERT CARLYLE
SEAN DENISE RICHARDS
JAMES SOPHIE MARCEAU
ACTOR SECRET AGENT
BORGE ZETA JONES
MOVIE Q IN
WONDER BOND S
ROBARDS BOND GIRL
Q FLEMING S
STEVIE JUDITH JAMISON
FLICK ACTOR DESMOND

В приведенной таблице слова и словосочетания ранжированы по значимости в смысле изложенных выше принципов.

Видно, что объект оценивается достаточно подробно. Приведены профессия – SECRET AGENT, место функционирования объекта – FILM, MOVIE, исполнители – BROSNAN, CONNERY, название последнего фильма WORLD IS (правда, только начало), литературный автор – ЯН ФЛЕМИНГ, другие главные герои – Q и т.д.

Как видите, мы, предварительно не зная про объект ничего, и не изучая первичных документов, имеем достаточно точный его портрет.

На основании такого информационного портрета можно проводить дальнейшие исследования данного объекта.

Итак, имея такой портрет и применяя технологию Зум, можно в реальном времени получать достаточно полный набор признаков объекта. Иначе говоря, возможно справиться с двумя проблемами, закрывавшими путь к решению двух актуальных задач СБ.

Второй этап решения задач СБ – операция сравнения информационных портретов

Итак, у нас построен образ исследуемого объекта – информационный портрет на основе языковых конструкций  – слов и словосочетаний.

Но для решения сформулированных в начале статьи задач одного такого образа недостаточно.

Для выбора аномального объекта, а также для определения связей заданных объектов необходимо уметь сравнивать образы объектов, оценивать их близость друг другу.

В таком случае наиболее далекий от остальных объектов естественно определить как аномальный объект. И так же естественно наиболее близкие объекты к заданному объекту определить, как связанные с ним.

Операции сравнения и оценки близости требуют введения меры расстояния между объектами.

Такую меру можно ввести, представив информационные портреты как векторы в пространстве языковых конструкций. Тогда мера расстояния между такими векторами определится величиной проекции одного вектора на другой. Часто такую методику называют методом наименьших квадратов.

Не буду более утомлять читателей изложением теоретических основ, а перейду к примерам работы технологии по решению практических задач.

Определение аномального объекта

По-прежнему будем работать на базе англоязычных документов – сообщений мировых информационных агентств за 1999 год.

Множество объектов – крупные европейские страны: Испания, Франция, Италия, Германия и проблема террора. База – 800 тыс. сообщений, 1,8 Гб текста.
Исходный запрос “Terrorism, terrorist, terror”
Найдено 6839 сообщений.
Затем запросы уточняются по странам.
Испания – 1576 сообщений, Франция – 3532, Италия – 1764, Германия – 2742.

После проведения анализа информационных портретов (система работала около 5 минут), получена следующая таблица расстояний между ними.

Terror & Испания Франция Италия Германия
Испания 0.00 0.77 0.79 0.81
Франция 0.77 0.00 0.57 0.41
Италия 0.79 0.57 0.00 0.58
Германия 0.81 0.41 0.58 0.00

Как видно из приведенной таблицы, наиболее удаленным объектом является Испания, точнее, ее информационный портрет в разрезе проблемы террора среди аналогичных портретов других стран. Проиллюстрируем полученные результаты информационным портретом Испании.

Главные темы
(слова)

Главные темы
(словосочетания)

SPANISH FORMER CHILEAN
PINOCHET CHILEAN DICTATOR
SPAIN SPANISH JUDGE
ETA TYPE SPANISH
BASQUE SPANISH NAT
CHILEAN DICTATOR AUGUSTO
COLOMBIA JOSE MARIA
CHILE ACCESS COLOMBIA
GARZON MARIA AZNAR
MADRID FORMER DICTATOR
PUERTO BASQUE COUNTRY
TORTURE MINISTER JOSE
LORDS ACCESS SPAIN
EXTRADITION SPANISH PRIME
AUGUSTO GROUP ETA
FUJIMORI SPANISH GOVERNMENT
CUBA FIDEL CASTRO
AZNAR MADRID SPAIN
DICTATOR CHILEAN GOVERNMENT
CLEMENCY BASQUE NATIONALIST

Итак, испанцев больше всего в 1999 г. беспокоила проблемы, возникающие в связи с деятельностью Баскской группировки ETA, а также экстрадикции Пиночета (Начало правления Пиночета характеризуется как террор, во время которого погибли граждане Испании). Естественно, эти проблемы волновали остальные европейские страны в меньшей степени.

Посмотрим теперь на портрет Германии.

Главные темы
(слова)

Главные темы
(словосочетания)

GERMAN GERHARD SCHROEDER
GERMANY GERMAN CHANCELLOR
BERLIN CHANCELLOR GERHARD
SCHROEDER ARMY FACTION
FISCHER RED ARMY
NATO BERLIN GERMANY
CHANCELLOR FRANCE GERMANY
RUSSIAN RUSSIAN PRESIDENT
RUSSIA ACCESS GERMANY
GERHARD GERMANY ITALY
YELTSIN MINISTER IGOR
MEYER LUDWIG MEYER
BONN GREEK EMBASSY
MOVED HORST LUDWIG
CHECHNYA BERLIN WALL
TURKEY ISTANBUL TURKEY
MOSCOW WEST GERMANY
MINISTERS CZECH REPUBLIC
OCALAN PRESIDENT BORIS
JOSCHKA IGOR IVANOV

Увы, немцев, помимо RED ARMY FACTION (RAF), Окалана, беспокоит чеченский вопрос и позиция России. Близкие результаты, за исключением германской специфики дает и Франция, и Италия. Это можно объяснить достаточно тесной интеграцией политики этих стран в отношении проблемы терроризма. Это видно и из приведенной таблицы (словосочетания «FRANCE GERMANY», «GERMANY ITALY»).

Заключение.

Приведенные примеры показывают продуктивность предложенных решений для задач СБ в современном информационном мире. Конечно, область применения этих методов сильно зависит от информационного содержания доступных источников.

Главный результат – появление практического инструмента автоматического анализа больших информационных массивов в реальном времени. Еще раз отметим, что этот инструмент обладает способностью самонастройки на определяющий набор признаков. В этом смысле это подход к решению знаменитой задачи «пойди туда, не знаю куда, найди то, не знаю что».

С помощью этого инструментария работник СБ получает возможность выявления неявных связей и аномальных объектов. На базе представленной методики вполне реализуем автомат, сканирующий в поисках таких объектов сотни гигабайт почтовых сообщений и страниц Интернета.