В нашем мире родился другой мир – информационный. Имя ему – Интернет. Выросли новые города и мегаполисы – порталы и корпоративные хранилища. Есть и бесчисленное количество деревушек – сайтов небольших фирм. Есть и хутора, и даже персональные лесные сторожки. Есть закрытые военные городки и базы, куда постороннего не пустят. Есть в нем публичные библиотеки и публичные дома. Есть доходные дома – хостинги.
Города, деревушки и коттеджи связывают информационные коммуникации – хайвеи и проселки. На хайвеях стоят шлюзы из нашего мира в информационный – провайдеры.
И, поскольку потребители и работники в этом мире – люди, информационный мир – зеркало нашего, физического мира. Значит, изучая этот информационный мир, можно сделать ценные выводы.
И, как и в реальном мире, преимущество получает тот, кто сможет узнать не только то, что общедоступно и лежит на поверхности, выражено явным образом. Огромные пласты знания рассеяны по тысячам документов, в каждом из которых скрыта крохотная частичка необходимой кому-то информации.
В результате важные решения принимаются на основе недостаточной информации. По результатам исследования фирмы IBM решения топ-менеджеров основаны только на 7% необходимой информации. При этом нет недостатка в информации, многие из них говорят об «информационной усталости», популярен также термин «информационное загрязнение».
В скрытом, неявном виде пребывает довольно большая часть знания. По этой причине ощутимая часть средств управления знаниями посвящена переводу знаний из их наиболее распространенной неявной формы в явную. Только после этой процедуры можно с этими знаниями работать.
Речь далее пойдет не об анализе трафика, заголовков пакетов и тому подобной обслуживающей обвязки. Возможности такого анализа интересны, но они достойны другого исследования.
Попробуем поработать с самым информативным и самым трудным для автоматического анализа составляющим информационного мира – собственно контентом, текстом, изложенным на обычном человеческом языке.
Это тем более интересно, поскольку в информационном мире все действия оставляют следы, которые не стирает ветер и не смывает дождь1. Относительно недавно ставший популярным архив Интернета – тому подтверждение. Однако мало собрать гигабайты и терабайты информации, и неуспех Эшелона и Корнивура в борьбе с террористами, использовавшими обычную электронную почту, слишком хорошо в этом убеждает.
Выявить среди следов нужный, выяснить, куда только что пробежала «толпа», что ее там притягивает и вообще определить, двигалась ли она куда-нибудь – вот малая часть задач, которые могут волновать пиарщика или журналиста, маркетолога или эсбэшника.
И все это – примеры задач выявления знаний.
Инструменты решения проблемы и технология БИО-Зум
Вернемся чуть назад. Выйдем из информационного мира в наш реальный.
Есть всем известные инструменты перевода неявных знаний в явные. К ним можно отнести инструменты изучения общественного мнения. Стоит напомнить, как недешево стоят подобные исследования и как дорого обходятся их ошибки.
Но эффективность таких измерений при всей адресуемой им публичной критике довольно велика. Известно, какие страсти бушуют вокруг публикаций рейтинга политиков. Рейтинг телеканалов напрямую определяет потоки больших денег рекламодателей.
Применяются подобные методы и в информационном мире. В Сети постоянно проводятся опросы. На любом новостном сайте или интернет-газете, а часто и на обычной страничке, постоянно проводят один или даже несколько опросов.
Однако такая методика хорошо подходит только для ответов на простые вопросы. Она – всего лишь индикатор «Да»/«Нет» и не может дать комплексной картины ситуации. К тому же такая методика требует серьезных затрат и привлечения больших людских ресурсов, следовательно, не может использоваться достаточно часто. К тому же существуют группы людей (например, руководители), прямой опрос которых максимально затруднен.
Можно добавить, что этот инструмент является влияющим на отклик. В качестве примера можно предложить дать ответ на вопрос о решении чеченской проблемы в различных формулировках. Вот три варианта одного и того же по содержанию вопроса.
Вы согласны с тем, что с терроризмом в России должно быть покончено? |
Вы против антитеррористической военной акции в Чечне? |
Как Вы думаете, стоит ли проливать кровь российских солдат в Чечне? |
Нетрудно спрогнозировать распределение ответов.
Итак, выявление знания по методике опросов имеет и несомненные положительные качества, и отрицательные – оно некомплексное, дорогое, искажающее.
Анализ текстов – инструмент, подобный опросам, только опрашиваются в нем не люди, а документы. Недаром такие исследования входят в реестр услуг, предоставляемых организациями, занимающимися изучением общественного мнения.
Нельзя сказать, что в этом случае отсутствуют недостатки. Документы нельзя переспросить, что-то уточнить, у них, в отличие от их авторов, раз и навсегда определенная позиция2. Результаты исследования сильно зависят от выборки документов, не зря все большие аналитические конторы стремятся увеличить свою текстовую базу3.
При этом невозможно отрицать бОльшую объективность такого исследования (в смысле отсутствия влияния), возможность проверки – инвариантность, потенциальную относительную дешевизну4 и комплексность.
Кроме этого, надо отметить возможность работы в реальном времени, ведь от скорости решения задач зависит актуальность рекомендаций, следовательно, смысл самой работы по их решению.
Технология БИО-Зум5 – пример построения такого инструмента.
Она реализует идею текстового анализа большого объема текстов за реальное время (примерно тысяча документов за секунду). Такая технология выявления знания позволяет быстро «влезть» в незнакомую проблематику, получить основную начальную информацию для более глубокого исследования, сравнивать несколько исследуемых объектов.
При этом уходит риск пропустить что-то, «о чем говорят все».
Конечно, качество полученного нового знания напрямую зависит от качества и объема текстовой базы. Нельзя требовать от системы освещения вопросов садоводства, если в ней лежат документы по нейрохирургии.
Примеры решения проблемы
Технология БИО-Зум реализована в коммерческом продукте Зум.
Приведем два небольших примера для иллюстрации результатов работы системы.
Сначала – тема регионов.
База – СМИ статьи из газет и журналов за 2000-2001 гг.
Выбраны документы, удовлетворяющие запросу: Ростов-на-Дону и инвестиции (примерно полторы тысячи документов).
Система дает следующую картину6 (Информационный портрет в терминах БИО-Зум).
Ростов и инвестиции.
ИНВЕСТИЦИОННЫЙ | ХОЛДИНГ | ВОЛГОГРАДСКИЙ |
ОАО | ВОЗРОЖДЕНИЕ | КОРПОРАТИВНЫЙ |
ИНВЕСТОР | ОБЛИГАЦИЯ | ТАГАНРОГСКИЙ |
ДОНСКОЙ | АЭС | МАЛОЕ |
НИКОЙЛ | РОСТСЕЛЬМАШ | ИНВЕСТИЦИОННО-БАНКОВСКАЯ |
ЧУБ | АГРОПРОМЫШЛЕННЫЙ | БИРЖА |
ЮГ | ОПЕРАТОР | ТЕЛЕКОМИНВЕСТ |
КОМБАЙН | ПОРТ | АТОМНЫЙ |
ДОН | МОЩНОСТЬ | МТС |
БАЛТИКА | РОСТОВУГОЛЬ | ЗЕМЕЛЬНЫЙ |
СУБЪЕКТ | РЕСТРУКТУРИЗАЦИЯ | МЕГАФОН |
ЗЕРНО | АПК | ВЫМПЕЛКОМ |
КРАСНОДАРСКИЙ | ПИВОВАРЕННЫЙ | ПОТЕНЦИАЛ |
СЕЛЬСКОХОЗЯЙСТВЕННЫЙ | ПИВО | СОТОВЫЙ |
Списки ранжированы по убыванию значимости (числовому коэффициенту соответствия выборке) сверху вниз, а затем слева направо.
В списках выделены (вручную) названия организаций (НИКОЙЛ), персоналии (ЧУБ), направления инвестирования (ЗЕРНО).
Теперь такая же операция с документами по запросу: Волгоград и инвестиции (около двух тысяч документов).
Волгоград и инвестиции.
ВОЛГОГРАДСКИЙ | МЕСТОРОЖДЕНИЕ | НИКОЙЛ |
ОАО | ТРУБНЫЙ | НЕФТЕГАЗОВЫЙ |
ЛУКОЙЛ | ГАЗПРОМ | САРАТОВСКИЙ |
ИНВЕСТИЦИОННЫЙ | ХОЛДИНГ | АЛЕКПЕРОВ |
НЕФТЬ | ГАЗ | АЛЮМИНИЙ |
ВОЛЖСКИЙ | ПОДШИПНИКОВЫЙ | ОСВОЕНИЕ |
ВЗБТ | ТРАНСПОРТНЫЙ | ОСВОБОДИТЬ |
САВЧЕНКО | МОЩНОСТЬ | РОСТОВСКИЙ |
АСТРАХАНСКИЙ | ВТЗ | ТРАКТОРНЫЙ |
НЕФТЯНОЙ | ПОРТ | СЫРЬЕ |
ИНВЕСТОР | РЕКОНСТРУКЦИЯ | ШИННЫЙ |
ЗАО | МАКСЮТА | СЕЛЬСКОХОЗЯЙСТВЕННЫЙ |
АКЦИОНЕР | ДОБЫЧА | ЧУКОТКА |
СИБУР | ХИМПРОМ | |
ОБЛИГАЦИЯ | МАШИНОСТРОЕНИЕ |
Здесь и выше подчеркнуты общие объекты.
Видно, что в Ростове лидируют НИКОЙЛ и БАЛТИКА, в Волгограде – ЛУКОЙЛ и ВЗБТ (завод буровой техники).
При сравнении объектов общим являются ПОРТ и НИКОЙЛ.
В Волгограде основная деятельность – РЕКОНСТРУКЦИЯ, в Ростове – РЕСТРУКТУРИЗАЦИЯ.
Система выдала эти таблицы через несколько секунд работы. Еще несколько минут ушло на разбор информации.
Картина получилась довольно пестрая, неполная, но, как начальная информация, вполне подходит и, в общем, соответствует действительности.
Далее, пользуясь вышеприведенными данными как рубрикатором, можно двигаться вглубь, изучая материалы, опрашивая экспертов и делая новые выборки.
Теперь возьмем другой пример.
Попробуем изучить проблему наркомании в динамике на протяжении последних двух лет.
База та же – СМИ за 1999-2001 гг.
Выбраны документы, удовлетворяющие запросу: Наркотики (примерно по 3 тысячи документов в месяц).
Вот верхняя часть получаемых таблиц.
1999-1-2кв | 1999-3-4кв | 2000-1-2кв | 2000-3-4кв | 2001-1кв |
ГЕРОИН | ГЕРОИН | ГЕРОИН | ГЕРОИН | ГЕРОИН |
ПОДРОСТОК | СПИД | СПИД | СПИД | СПИД |
ПРЕСТУПНОСТЬ | ПОЧТОВЫЙ | ПОДРОСТОК | ПОЧТОВЫЙ | ПОДРОСТОК |
НЕСОВЕРШЕННОЛЕТНИЙ | ПОДРОСТОК | ПОДРОСТКОВЫЙ | ПОДРОСТОК | ВЛЕЧЬ |
СПИД | НЕСОВЕРШЕННОЛЕТНИЙ | ПРЕСТУПНОСТЬ | ОТПРАВЛЕНИЕ | ВИЧ |
ПОДРОСТКОВЫЙ | НЕЗАКОННЫЙ | НЕЗАКОННЫЙ | ВИЧ | ПРАВОНАРУШЕНИЕ |
НЕЗАКОННЫЙ | ПРЕСТУПНОСТЬ | ДОЗА | ВИЧ-ИНФИЦИРОВАННЫХ | АДМИНИСТРАТИВНЫЙ |
ПРЕСТУПНЫЙ | ИЗЪЯТЬ | БОЛЬНОЙ | НЕЗАКОННЫЙ | НЕЗАКОННЫЙ |
МАРИХУАНА | ПРЕСТУПНЫЙ | ВЕЩЕСТВО | ИЗЪЯТЬ | ПРОФИЛАКТИКА |
КРИМИНАЛЬНЫЙ | ПОДРОСТКОВЫЙ | ПРЕСТУПНЫЙ | ПОДРОСТКОВЫЙ | ПОДРОСТКОВЫЙ |
ИЗЪЯТЬ | ГЕПАТИТ | ПРОФИЛАКТИКА | ПРОФИЛАКТИКА | ИЗЪЯТЬ |
КОКАИН | КРИМИНАЛЬНЫЙ | КОКАИН | ШПРИЦ | РАСЧЕТНЫЙ |
УБИЙСТВО | БАНДИТ | МАРИХУАНА | ГЕПАТИТ | ВИЧ-ИНФИЦИРОВАННЫХ |
ЗЕЛЬЕ | БОЛЬНОЙ | ИЗЪЯТЬ | БОЛЬНОЙ | АЛКОГОЛИЗМ |
ПРЕСТУПНИК | КОКАИН | ВИЧ-ИНФИЦИРОВАННЫХ | МАРИХУАНА | ШТРАФ |
БОЛЬНОЙ | НАЛОЖЕНИЕ | ЛЕЧЕНИЕ | КРАЖА | ПРЕСТУПНОСТЬ |
Из всего списка исследуем сопровождающие наркотики преступления (взяты из списка выше).
КРАЖА
РАЗБОЙ
КОНТРАБАНДА
УБИЙСТВО
ГРАБЕЖ
ПРОСТИТУЦИЯ
Приведем график7 для первых трех терминов.
Видно, что из сопутствующих преступлений сильно растут кражи. Контрабанда, разбои – остаются примерно на одном уровне.
Аналогичный график показывает, что растут также убийство, грабеж, проституция, правда, заметно медленнее, чем кража.
Отсюда видно, что рост наркомании ведет не столько к росту контрабанды наркотиков, сколько к росту преступности практически во всех проявлениях. Дальнейшие выводы очевидны.
В заключение нужно отметить, что конечно, можно получить гораздо более полное представление о предмете, просто читая материалы исходных документов без всяких систем выявления знаний. Однако объем выборок даже в пару тысяч документов переводит задачу на другой уровень.
Есть два пути: ограничить волевым путем объем выборки8, или поручить анализ группе аналитиков. Правда, в последнем случае возникает отдельная задача сведения мнений разных людей9, а в первом случае велик риск пропустить что-то важное. И для обоих решений характерны большие затраты времени.
В конце концов, можно пройти из Москвы во Владивосток пешком, но большинство летит на самолете.
Правда, ситуация с системами управления знаниями пока обратная, но ситуация меняется, пусть не очень быстро. Ведущие агентства предсказывают рост рынка аналитического инструментария на 30% в год.
Наконец, небольшая цитата.
«…Роль аналитики заключается в переходе из реактивной (анализе того, что уже произошло) к проактивной (управление деловыми решениями). Мы верим, что деловая аналитика разворачивается в сторону технологий, прогнозирующих в реальном времени.»
Scott Phillips, Merrill Lynch, March 6, 2001
- Но все, точнее, почти все, подвластно руке человека (с правами администратора).
- Впрочем, последнее может оказаться преимуществом.
- Например, у Фонда эффективной политики база достигла десяти миллионов документов и ежедневно пополняется на 15 тысяч документов.
- Хотя для заказных исследований это не всегда верно.
- БИО – большие информационные объекты.
- Для экономии места приведены только слова, система дает еще словосочетания.
- Значения по оси Y даны для значимости.
- Например, выбрать случайным образом столько документов, сколько сможете прочесть.
- Эта задача также имеет отношение к управлению знаниями.