• 10.01.2003

Русский язык в интернете. Сб. статей. – Казань, Отечество, 2003

Рост массивов полнотекстовых документов, публикуемых в интернет, требует новых средств организации доступа к информации, многие из которых следует отнести к разряду систем искусственного интеллекта. Основной проблемой, возникающей при работе в интернет, является поиск документов по их содержанию. Ставшие традиционными средства контекстного поиска по вхождению слов в документ, представленные привычными поисковыми машинами, зачастую не обеспечивают адекватного выбора информации по запросу пользователя.

Одна из причин заключается в сложности точной формулировки запроса – подбора ключевых слов, которые предстоит искать в телах документов. Это может быть связано с рядом факторов, как то: недостаточным знанием пользователем терминологии предметной области, наличием в языке многозначных и синонимичных слов, и даже орфографическими ошибками в написании искомых слов, которые могут встречаться как в текстах, так и в самом запросе.
Другая фундаментальная причина заключается в том, что иногда пользователь не знает точно, какую именно информацию ему хотелось бы получить, имея лишь общее представление о границах своих интересов. Так, например, пытаясь расширить познания в области компьютерной лингвистики, на поисковом сервере AltaVista можно получить список из сотен тысяч документов, содержащих слова “computer“ и “linguistic”. Возможность классифицировать найденный материал по тематическим группам, отражающим, к примеру, основные событиям и разработки в этой области, либо отсутствует вообще, либо представлена в крайне примитивном виде.

Указанные проблемы стимулировали развитие средств, которые можно назвать тематическими навигаторами. Они дают возможность передвижения по связанным тематическим категориям (рубрикам), к каждой из которых может относиться большое число документов, близких по содержанию. Лучшие из таких навигаторов позволяют найти целый ряд связанных тем, к которым относятся интересующие документы (например, содержащие требуемые слова), а затем осуществить передвижение по темам.
С наиболее интересными из этих систем можно познакомиться на сайтах зарубежных фирм, таких как http://www.links2go.com, http://www.semio.com, http://www.inxight.com.
Ознакомившись с подобными навигаторами, можно отметить, что все они делятся на две категории.
Первые имеют жестко заданную структуру с априорно установленными темами и связями между ними. Здесь используется предопределенный рубрикатор с иерархией категорий, который отражает общепринятую систему устоявшихся отраслей знаний. Нижние ветви рубрикатора могут включать в себя классы слов языка, относящихся к соответствующим темам. Достоинством таких систем является возможность автоматически относить все входящие документы к соответствующим тематическим рубрикам, подсчитывая, к каким ветвям относится большинство слов текста. Однако, стандартная структура рубрикатора отражает лишь наиболее очевидные связи между темами, которые малоинтересны, так как не открывают пользователю новой информации.
Другая категория навигаторов для своего создания требует участия экспертов, которые формируют структуру тем на основании анализа содержания коллекции документов. В этом случае гипертекстовая структура обычно представляет семантическую сеть, связи которой отражают актуальное семантическое строение текстов. Ввиду высоких затрат на разработку, связанных с привлечением “ручного” труда, такие навигаторы создаются для небольших коллекций документов, обычно в узкой предметной области.

В настоящей статье мы расскажем о технологиях автоматического анализа содержания текста и их использовании в задачах информационного поиска и навигации в интернет.
Технологии основаны на оригинальных алгоритмах [7,8,9], реализованных с привлечением нейросетевых моделей речевой деятельности мозга в российской компании “Гарант-Парк-Интернет” (http://www.metric.ru), и позволяют решить широкий класс задач, как то: автоматическое выявление тем документов и смысловых связей между ними, составление резюме, классификация текстов и поиск похожих, формирование иерархических рубрикаторов.

1. Технология автоматического анализа текста на основе ассоциативно-статистической модели

Традиционно в задачах классификации и полнотекстового поиска при сравнении документов используются упрощенные векторные модели, представляющие текст набором составляющих слов [1]. Возможность повышения качества моделей связана с учетом коррелированности появления слов в тексте, обусловленной наличием между ними семантических связей.
Привлечение представлений нейропсихологии [2,3,4] и психолингвистики [5] об организации языковой коммуникации делает возможным построение качественно иной модели, которая учитывает ряд корреляционных эффектов, обусловленных механизмом порождения связного текста.
Рассмотрим кратко теоретические предпосылки описываемого подхода.

1.1. Ассоциативная семантическая сеть – аналог правополушарной модели мира

Высшие психические функции человека опираются на ассоциативную семантико-статистическую модель мира, формирующуюся в правом полушарии мозга на основе зрительных пространственно-предметных представлений [2,3].
Порождение текста можно рассматривать как временной процесс, обусловленный активацией элементов и связей модели, который происходит под управлением передних лобных отделов коры, реализующих функции произвольного внимания при наличии цели языковой коммуникации. Приняв ряд упрощений, в частности, игнорируя абстрактно-логическую форму мышления, можно считать, что в этом процессе левое полушарие реализует чисто языковые функции, связанные с развертыванием фрагментов правополушарной модели в последовательности грамматически правильных фраз, и обуславливает глубинно- и поверхностно-синтаксическую организацию порождаемого текста. При этом глубинная семантика сообщения определяется структурой правополушарной модели и деятельностью лобной коры, отражаясь в коммуникативном строении текста как тема-рематической иерархии, подтверждения чему можно найти в исследованиях внутренней и детской речи [5].
Исходя из сказанного, семантические связи между словами текста можно условно разбить на две группы. Первые (глубинно-семантические) представляют отражение связей семантической модели, задействованных на момент порождения высказывания. Именно эти связи определяют коммуникативное строение текста, в том числе и сверхфразовое. Связи второго вида (семантико-синтаксические) формируются в ходе оформления высказываний в языковых конструкциях, и в рамках принятой здесь модели рассматриваться не будут, так как их выявление требует грамматического анализа.
Полагая высказывание (предложение) основной коммуникативной единицей, будем считать, что его появление обусловлено активацией одного элемента семантической модели, находящегося в фокусе внимания и представляющего тему высказывания. Появление прочих слов в рематической части предложения обусловлено их связями с темой, задействованными в модели на момент порождения. Второе предположение опирается на представление о сверхфразовой связности сообщения в целом и состоит в том, что наиболее вероятно обуславливание темы высказывания одним из слов в рема- или тематической части предшествующего, что отражает сохранение фокуса внимания или его переключение на связанный элемент семантической модели.
Учитывая коррелированность появления слов в рамках высказанных предположений, можно представить процесс порождения текста как марковский процесс первого порядка, состояния которого соответствуют предложениям, а вероятности переходов между состояниями обуславливаются связями элементов семантической модели, соответствующих словам.

В качестве описания правополушарной модели предлагается использовать ассоциативную семантическую сеть, введенную в работе [7].
Семантическая сеть есть набор элементов, представляющих понятия предметной области (слова и словосочетания), которые связаны между собой ассоциативными связями, и может быть описана матрицей весов связей:

W = [wij], (1)

где wij может интерпретироваться как сила ассоциированности и отражать вероятность появления понятия j в смысловой связи с понятием i в рамках предметной области, описываемой сетью.

1.2. Модель процесса порождения текста на основе ассоциативной семантической сети. Автоматическая классификация документов

Пусть имеется модель ассоциативной семантической сети (1), представленная в виде

PN = [p(j|i)], i=1..N, j=1..N (2)

где p(j|i) ~ wij – условная вероятность появления j- го понятия в смысловой связи с i-м, а N – оличество элементов сети .

К задаче построения модели обратимся позже. Покажем, как оценить вероятность того, что произвольный текст был порожден на основе заданной модели.

Обозначим набор понятий как вектор W = (w i ), где w i=1, если i- ое понятие семантической сети присутствует в наборе , и w i=0 – в противном случае. Тогда |W | = å i w i(t) есть количество понятий в наборе. Пустой набор будем обозначать W 0.

Представим предложение как набор входящих в него понятий W (t) = (w j (t)), где t=1..T – порядковый номер предложения в тексте.

Будем считать, что каждое предложение имеет одно порождающее понятие – тему, которое обуславливает появление всех остальных понятий, связанных с ним, но попарно независимых.

Тогда вероятность порождения предложения W (t) от понятия-темы можно определить как

P(W (t)|m) = П i p(i|m) w i(t), i=1..N, (3)

где m – порождающее понятие .

Учитывая то, что порождающее понятие-тема достоверно неизвестно, и полагая его появление обусловленным понятиям предшествующего предложения, с привлечением формулы полной вероятности представим вероятность порождения предложения как условную :

P(W (t)|W (t-1)) = å m w m(t) P(W (t)|m) p(m|W (t-1), m=1..N, (4)

Полагая равновероятным, что любое из понятий предложения W (t-1) могло обусловить тему предложения W (t), имеем:

p(m|W (t-1) =å j w j(t-1) p(m|j) / å j w j(t-1), j=1..N (5)

Тогда, с учетом (3) и (5) из (4) окончательно получаем оценку вероятности порождения предложения в виде

P(W (t)|W (t-1)) = å m w m(t) П i p(i|m) w i(t) å j w j(t-1) p(m|j) / å j w j(t-1) (6)

Уравнение (6) описывает процесс порождения текста как марковский процесс первого порядка.

Для формальной корректности модели следует положить, что

W (0) = W 0;

P(W 0) = P(W 0|W (t) ) = 1/2N; (7)

p(m|W 0) = 1/å w j(t)

Таким образом, порождающее предложение текста считается пустым , появление пустого предложения считается необусловленным и необуславливающим событием , а в предложении, порожденным пустым, все понятия полагаются равновероятными в качестве тем. Появление пустого предложения ( в графическом тексте аналогичного началу нового абзаца) означает возможность переключения внимания автора сообщения на новую тему, выбор которой обусловлен факторами, не поддающимися оценке в рамках принятой модели.

Полная вероятность порождения наблюдаемого текста моделью есть вероятность соответствующей реализации марковского процесса (6), вычисляемая с учетом (7) как

P* = Пt P(W (t)|W (t+1)), t=0..T (8)

Описанная модель процесса порождения может быть использована для решения задачи автоматической классификации документов. Если принять, что множество текстов, относящихся к одному классу, порождается на основе одной семантической сети – эталона, то задача отнесения неизвестного текста к соответствующему классу сведется к определению вероятностей порождения текста на основе каждой из эталонных сетей. Предварительно должна быть решена задача оценки параметров сетей на базе коллекции эталонных текстов, разделенных по классам.

1.3. Оценка параметров ассоциативной семантической сети

Оценка параметров модели семантической сети в форме (2) требует определения понятий, а также условных вероятностей p(j|i) появления пары понятий в смысловой связи. Провести такую оценку возможно на основе анализа множества текстов, порожденных моделью – эталонных текстов из одного класса в задаче классификации.

Для выделения понятий сети, представляющих слова и связные словосочетания, может быть применен статистический алгоритм, основанный на анализе частоты встречаемости цепочек слов различной длины и их вхождения друг в друга, описанный в [6].

Покажем, как провести оценку весов связей.

По определению условной вероятности

p(j|i) = p(ij) / p(i), (9)

где p(ij) – вероятность появления пары понятий в смысловой связи, а p(i) – собственная вероятность появления i -го понятия в тексте.

В качестве критерия возможной связности понятий используем факт их появления в одном предложении текста. Отсутствие априорной информации на этапе построения модели не позволяет учесть сверхфразовые связи, вследствие чего разумно предположить все понятий равновероятными в качестве тем. Тогда, считая, что каждое из понятий равновероятно связано с любым из других, имеем

p(ij|W (t)) = w i(t)w j(t) / [å j w j(t)–1] для i ¹ j, (10)

 

p(ii|W (t)) º 1;

Полная вероятность связи понятий определяется по всему тексту как

p(ij) = å t p(ij|W (t)) P(W (t)) = å t p(ij|W (t)) / T, t=1..T (11)

Собственная вероятность появления понятия

p(i) = å t p(i|W (t)) P(W (t)) = å t w i(t) / T, t=1..T (12)

Окончательно, с учетом (11), (12) и (10) получаем из (9) искомую оценку

p(j|i) = å t p(ij|W (t)) / å t w i(t) = å t [w i(t)w j(t)/[å j w j(t)–1] ] / å t wi(t) (13)

Как видно, выражение в знаменателе представляет собственную частоту встречаемости понятия в тексте (исключая повторы в одном предложении), а выражение в числителе есть частота совместной встречаемости понятий в предложениях текста, нормированная c учетом количества понятий по каждому из предложений .

Для уточнения модели можно учесть, что некоторые связи не наблюдаются явно в предложениях текста, однако подразумеваются автором. Их скрытое влияние выражается в том, что вместо p(j|i) правильнее было бы использовать вероятность p(j|q)p(q|i), где p – ненаблюдаемое понятие. C учетом этого взамен p(j|i) можно использовать уточненную оценку p~ (j|i), учитывающую связь через третьи понятия:

p~(j|i) = maxq{ p(j|q)p(q|i) }, q=1..N (14)

На практике при использовании модели из предложений текста следует исключить общеупотребимые стоп-слова, появление которых обуславливается не учтенными здесь факторами, в частности, грамматикой языка.

1.4. Модель процесса восприятия текста на основе ассоциативной семантической сети. Тематический анализ текста

Рассмотрим применение семантической сети для анализа текста, основанного на выделении целостных фрагментов, связанных общим содержанием – сверхфразовых единств (СФЕ) [6]. Можно считать, что каждое СФЕ характеризуется главной темой, а каждой из тем соответствует ряд СФЕ в тексте. Отдельные СФЕ для различных тем могут пересекаться или включаться друг в друга, что отражает иерархическую тема-рематическую структуру текста – его коммуникативное построение в процессе порождения автором. Ввиду того, что коммуникативное членение текста при восприятии опирается на сформированную семантическую модель реципиента, решение задачи сверхфразового анализа в принципе не однозначно и определяется структурой используемой модели. В качестве таковой в простейшем случае может быть использована семантическая сеть самого исследуемого текста, а в более общем – сеть, предварительно созданная на базе эталонных текстов.

Считая, что каждая тема соответствует одному из понятий семантической сети, задачу выделения СФЕ можно сформулировать как задачу поиска фрагментов текста, близких “по-смыслу” к соответствующим понятиям. При этом в качестве описания темы можно использовать набор связей понятия в сети и принять, что при упоминании понятия в тексте речь также идет о всех связаных с ним понятиях, в степени, пропорциональной весам соответствующих связей.

Чтобы оценить отнесенность отдельных предложений к темам – элементам сети, введем понятие уровня активации i-го элемента на предложении с номером t:

w*i(t) = å j s j(t) wji / å j s j(t), j=1..I, (15)

где å j s j (t) – количество слов в предложении t, I – количество элементов сети,

s j(t) = {1, если понятие присутствует в предложении ; 0 – в противном случае }.

Такое определение означает, что понятие, встретившееся в предложении, повышает уровень активации каждого из прочих понятий сети на величину, пропорциональную соответствующему весу связи. В результате могут быть значительно активизированы понятия, имеющие сильные связи с понятиями из предложения. Это свойство обеспечивает устойчивость тематического анализа к используемой лексике за счет того, что при анализе локальных участков текста используется совокупная статистическая информация о содержании текстов, формировавших семантическую сеть, которая априори обладает более высокой достоверностью.

Тематическую отнесенность участков текста характеризует совокупный уровень активации элементов на интервале D T = (t, t+m-1):

w*i(t, m) = å k w*i(t+k), k=0..m (16)

Как видно, уровень активации показывает степень “насыщенности” фрагмента текста информацией, относящейся к теме, представленной i-ым элементом.

Можно считать, что динамика уровней активации понятий на временной оси текста в целом отражает его коммуникативное строение с точки зрения воспринимающего, использующего в качестве модели предметной области семантическую сеть. В этом случае появляется возможность выделения СФЕ для каждой из тем как участков с сохраняющимся в среднем высоким уровнем активации, не сопровождающимся длительным падением.

В качестве СФЕ выбирается последовательность предложений из наиболее продолжительного интервала D T , обеспечивающего выполнение следующих условий :

w*i(t) ³ w , w*i(t+m-1) ³ w и (17)

/$ D T’Ì D T , |D T’|>t : w*i(t’)<w для ” t’Î D T’.

Здесь w – параметр, задающий пороговое значение уровня активации, превышение которого позволяет говорить об отнесенности информации в предложении к i-ой теме. Параметр t накладывает ограничения на связность СФЕ. Его значение указывает максимальное количество предложений, на протяжении которых допускается отклонение в содержании текста от темы, сответствующей элементу.

Целесообразно ввести адаптацию порога w к уровню активации элементов вида

w = w (t) = å j s j(t) w*j(t) / å j s j(t), j=1..I (18)

Таким образом, значение порога принимается равным среднему уровню активации на понятиях, входящих в предложение, что аналогично введению латерального торможения между элементами сети.

Возможна также дополнительная адаптация параметра t к совокупному уровню активации понятия в интервале СФЕ D T = (t0, t0+ m-1) , например :

t = t ( t, i ) = ln w*i(t, t-t0) (19)

Это отражает тот факт что, при увеличении продолжительности СФЕ ограничение на связность может несколько ослабевать, а для короткого СФЕ разумно допускать лишь кратковременые отклонения от темы.

В целом, варьирование t позволяет регулировать детальность сверхфразового анализа.

Результатом сверхфразового анализа является выделение множества непересекающихся СФЕ для каждой из тем текста : {D Ti,1, D Ti,2, … DTi,P(i)}, D Ti,p = (ti,p, ti,p + mi,p -1), где P(i) – количество СФЕ по i-ой теме . При этом в качестве оценки информативности СФЕ для темы может использоваться совокупный уровень активации элемента на СФЕ-интервале – реферативный вес :

ri,p = w*i(ti,p, mi,p) (20)

Теперь возможно оценить “ значимость ” темы для текста в целом как совокупный реферативный вес по всем СФЕ, к ней отнесенным :

W*i = å p rj,p , p=1.. P(i), (21)

Как видно, подобный способ оценки учитывает только “неслучайные ” упоминания в тексте соответствующего понятия и связанных с ним.

Ранжирование тем на основе совокупных реферативных весов позволяет охарактеризовать степень отнесенности текста к каждой из тем и выделить главные.

Последовательность СФЕ c высоким реферативным весом, относящихся к одной теме и расположенных в порядке следования в тексте, может интерпретироваться как тематический реферат текста.

Сформировать общий реферат текста можно из наиболее весомых СФЕ по наиболее значимым темам. Учитывая то, что целью реферирования является вмещение наибольшего количества информации в ограниченный объем, целесобразной представляется оценка значимости каждого СФЕ с учетом перечечений с СФЕ других тем. Так, например, если одно СФЕ включает в себя другое, то его реферативный вес должен быть увеличен с учетом веса второго СФЕ и его темы. Тогда общий реферативный вес СФЕ по всем темам можно определить следующим образом:

Ri,p = å j å q rj,q W*j |D Ti,pÇ D Tj,q| / |D Tj,q| , q=1..Q(j), j=1..I, j¹ i, (22)

где |D Ti,pÇ D Tj,q| – длина интервала пересечения участков СФЕ i- го и j-го понятий.

Окончательно в реферат выбираются СФЕ с максимальным общим реферативным весом, располагаясь в порядке следования в тексте. При этом пересекающиеся СФЕ объединяются в одно.

Возможны и другие стратегии компоновки реферата.

Как видно, описанный подход одинаково применим и к анализу отдельного текста, без наличия априорной информации, и к анализу текста на основе предварительно сформированной семантической сети. Во втором случае происходит фильтрация информации текста, относящейся к темам из эталонной сети, что представляет одну из форм реализации функции смыслового поиска.

В завершение раздела приведем пример тематического анализа отдельного текста – статьи “Щепки полетели” из журнала “Эксперт” от 04.11.97:
На прошлой неделе краевое управление лесами Приморья обнародовало свою программу усиления борьбы с экономическими преступлениями в лесу. Программа начнет действовать в ноябре этого года и рассчитана до 2001 года.
Преступления, связанные с лесозаготовками – это хорошо отлаженный, организованный бизнес. К наиболее распространенным правонарушениям в этой области относятся: самовольная рубка леса мобильными, прекрасно экипированными группами злоумышленников, неучтенный вывоз за границу древесины ценных пород, а также нарушения правил рубки лесозаготовительными предприятиями.
Программа предусматривает проведение до конца 1997 года проверки договоров на аренду участков лесного фонда на предмет их соответствия существующему ныне законодательству. Управление намерено при помощи местной природоохранной прокуратуры ужесточить контроль за соблюдением лесного законодательства, добиваться, чтобы нарушители платили штрафы, возмещали ущерб, причиненный лесному фонду. Совместно с УВД края будут созданы опорные пункты в Пожарском, Дальнереченском, Чугуевском, Тернейском, Спасском и других районах края, чтобы контролировать прохождение лесопродукции по железной и автомобильной дорогам.При помощи администраций районов, лесхозов, крупных лесозаготовителей и природоохранных органов планируется создание оперативных групп для борьбы с самовольными рубками.

Жирным шрифтом в тексте выделены предложения, вошедшие в общий реферат документа. Отметим, что подробность реферирования может регулироваться выбором порога по весу СФЕ (21) и (22) для включения в реферат.
Ниже приведен список выделенных тем документа с тематическими весами и полученными тематическими рефератами. Как видно, тематические рефераты для разных тем могут частично или полностью совпадать.

Вес Название тем Тематический реферат
100 Лес На прошлой неделе краевое управление лесами Приморья обнародовало свою программу усиления борьбы с экономическими преступлениями в лесу.
Программа предусматривает проведение до конца 1997 года проверки договоров на аренду участков лесного фонда на предмет их соответствия существующему ныне законодательству. Управление намерено при помощи местной природоохранной прокуратуры ужесточить контроль за соблюдением лесного законодательства, добиваться, чтобы нарушители платили штрафы, возмещали ущерб, причиненный лесному фонду.
62 Законодательство Программа предусматривает проведение до конца 1997 года проверки договоров на аренду участков лесного фонда на предмет их соответствия существующему ныне законодательству. Управление намерено при помощи местной природоохранной прокуратуры ужесточить контроль за соблюдением лесного законодательства, добиваться, чтобы нарушители платили штрафы, возмещали ущерб, причиненный лесному фонду.
62 Лесной фонд Программа предусматривает проведение до конца 1997 года проверки договоров на аренду участков лесного фонда на предмет их соответствия существующему ныне законодательству. Управление намерено при помощи местной природоохранной прокуратуры ужесточить контроль за соблюдением лесного законодательства, добиваться, чтобы нарушители платили штрафы, возмещали ущерб, причиненный лесному фонду.
50 Программа На прошлой неделе краевое управление лесами Приморья обнародовало свою программу усиления борьбы с экономическими преступлениями в лесу. Программа начнет действовать в ноябре этого года и рассчитана до 2001 года.
25 Самовольная рубка К наиболее распространенным правонарушениям в этой области относятся: самовольная рубка леса мобильными, прекрасно экипированными группами злоумышленников, неучтенный вывоз за границу древесины ценных пород, а также нарушения правил рубки лесозаготовительными предприятиями.
При помощи администраций районов, лесхозов, крупных лесозаготовителей и природоохранных органов планируется создание оперативных групп для борьбы с самовольными рубками.
25 Лесозаготовитель К наиболее распространенным правонарушениям в этой области относятся: самовольная рубка леса мобильными, прекрасно экипированными группами злоумышленников, неучтенный вывоз за границу древесины ценных пород, а также нарушения правил рубки лесозаготовительными предприятиями.
При помощи администраций районов, лесхозов, крупных лесозаготовителей и природоохранных органов планируется создание оперативных групп для борьбы с самовольными рубками.
12 Преступление Преступления, связанные с лесозаготовками — это хорошо отлаженный, организованный бизнес.

2. Russian Context Optimizer и Oracle InterMedia – реализация технологий автоматического анализа текста

Одним из наиболее мощных продуктов, позволяющих реализовать поддержку полнотекстовых баз данных с доступом через интернет, является картридж interMedia Text в составе СУБД Oracle8i. В interMedia Text интеллектуальная обработка текста (тематическая классификация, аннотирование) сочетается с поисковыми возможностями, доступными при работе с реляционными базами данных. В частности, при написании приложений для обработки текста возможно использовать SQL с развитым языком запросов к полнотекстовой информации.

В основе технологий Oracle лежит использование семантического словаря английского языка – тезауруса, который содержит около полумиллиона слов, классифицированных по тематическим категориям и синонимическим рядам: для каждого слова установлены его синонимы, более общие и более частные понятия, а также “родственные” слова, часто имеющие с ним смысловую связь в тексте.
Например, слову “zoologically” соответствует синоним “zoology”, который, в свою очередь, относится к тематической категории, представленной более общим понятием “biology”. В то же время “zoology” выступает в качестве тематической категории для ряда более частных понятий – “animal life”, “animals”, “zoologists”, а также имеет родственные слова: “animal rights”, “cries”, “reproductive systems”, “veterinary medicine”.
Использование тезауруса в interMedia Text может оказать помощь при контекстном поиске документа за счет расширения слов запроса различными видами близких по смыслу слов.
Наличие тезауруса также позволяет interMedia проводить тематический анализ текста на английском языке. Относя каждое слово текста к соответствующим разделам тезауруса и учитывая частоту встречаемости слов, interMedia Text может выделить несколько главных тем документа.
Классификация документов по темам может оказать большую помощь при поиске, например в случае, если пользователь затрудняется точно подобрать ключевые слова, или же, если он хочет сузить область поиска, уточнив тематику, по которой следует искать документы.
Поиск по теме обладает более высокой точностью и полнотой по сравнению с простым контекстным поиском. Так, если контекстный поиск находит все документы, содержащие заданные слова, то тематический поиск возвращает лишь те документы, в которых словам запроса соответствует одна из ключевых тем. Кроме того, он позволяет найти документы, вовсе не содержащие слов из названия заданной темы, однако имеющие к ней отношение. Например, по запросу “lower life forms” могут быть найдены документы, содержащие слова “bacteria” и “viruses”.

Большинство возможностей interMedia оказывается доступно в полной мере лишь для английского языка и, в меньшей мере, еще для ряда европейских и восточно-азиатских языков.
Адаптацией технологий Oracle к русскоязычным базам данных занимаются специалисты компании «Гарант-Парк-Интернет», которая выпускает продукт под названием Russian Context Optimizer (RCO), предназначенный для совместного использования с картриджем interMedia Text.
Перенос технологий обработки текста с языка на язык не сводится к простой подмене лингвистического обеспечения. Поэтому реализация комплекса средств interMedia Text в RCO потребовала включения оригинальных алгоритмов, отличных от используемых Oracle. Необходимо признать, что отсутствие на рынке ряда важных компонент лингвистической поддержки, в частности, семантического словаря русского языка (который уже существует для английского), также стимулировало разработчиков внедрять новые решения.
Новая версия продукта RCO 3.0 задействовала в полной мере описанные в разделе (1) технологии анализа текста.

Настоящая версия RCO пока не обладает мощным тезаурусом с иерархией категорий, который бы делал возможным глубинное обобщение информации в ходе тематического анализа. Так например, если в тексте встречались слова “компьютерный” или “компьютеризация”, то RCO не сможет отнести документ к теме “вычислительная техника”. В отличии от interMedia, RCO не выбирает названия тем из тезауруса, а выявляет их в тексте.
Используемое в RCO лингвистическое обеспечение позволяет приводить к нормальной форме все грамматические формы слов русского языка, сводить воедино различные части речи, а также отождествлять близкие по смыслу словосочетания. Например, выражения типа “подписав нескольких новых указов” и “подписал два указа” будут рассмотрены как одна и та же смысловая сущность “подписание указа”. Дополнительно RCO исключает из числа тем общеупотребимые слова, не несущие самостоятельной смысловой нагрузки или обладающие слишком широким значением. Так, слова “концепция” и “развитие” сами по себе не могут характеризовать тему текста, но они могут входить в название темы, выраженное сочетанием с другим словом: “концепция развития сельского хозяйства”.
После выполнения лингвистической обработки текст подвергается процедурам статистического анализа, в результате этого извлекаются основные единицы смысла – понятия, выраженные словами и устойчивыми словосочетаниями, а также устанавливаются смысловые (ассоциативные) связи между ними и строится семантическая сеть. После ранжирования понятий по весам в тексте из их числа выделяются основные, которые и выступают в качестве ключевых тем документа.
Таким образом, алгоритмы RCO позволяют включать в число тем любые слова и их связные сочетания, несущие основную смысловую нагрузку, например: “указ о снижении подоходного налога”, и даже имена собственные, если им посвящено содержание документа.

Другой способностью, которой обладает как interMedia Text, так и RCO, является автоматическое реферирование текста, которое происходит в ходе тематического анализа (радел 1.4). При этом по каждой из выделенных тем выстраивается тематический реферат, а также общий реферат по ключевым темам документа. При выборе фрагментов текста в реферат interMedia опирается на формальную разметку, наподобие html-тегов, тогда как алгоритмы RCO самостоятельно членят текст на группы предложений, связанных общностью содержания – сверхфразовые единства.
Визуализация списка ключевых тем и резюме при просмотре найденных документов пользователем ускоряет выбор требуемой информации. Так, взгляд на небольшой реферат может подсказать, следует ли читать документ полностью.

Отсутствие тезауруса в RCO пока не позволяет задействовать все возможности расширения запроса при контекстном поиске документов, которые доступны для английского языка при работе с interMedia Text – расширение слов запроса синонимичными, более общими или более частными, родственными по смыслу понятиями.
Взамен этого RCO обладает способностью, отсутствующей в interMedia – он устанавливает смысловые связи между темами, выявляя их в тексте. В отличии от предопределенных и очевидных связей, которые задаются в тезаурусе, связи семантической сети RCO выявляются динамически и большинство из них оказывается уникальным для каждой коллекции документов.
Возможность найти совокупность тем, связанных со словами запроса, оказывается полезна как аналитику, ведущему мониторинг событий, связанных с интересующей темой, так и пользователю, плохо знакомому с терминологией предметной области или затрудняющемуся точно описать область своих интересов. Например, в ответ на запрос “нефть” можно получить следующий список тем: “добыча нефти”, “экспорт нефти”, “государственная нефтяная компания Азербайджана”, “Азербайджан”, “Ангарский НХК”, “топливные компании”, “ЮКОС” и т.д. Это позволяет определить смысловое окружение темы в коллекции документов и, уточнив зарос, выбрать требуемую информацию.

Еще одна полезная функция продукта – функции нечеткого поиска – позволяет расширить запрос словами, близкими по написанию. Нечеткий поиск целесообразно применять при поиске слов с опечатками, а также в тех случаях, когда возникают сомнения в правильном написании – фамилии, названия организации и т.п.
Нечеткий поиск в interMedia, как и прочие средства, не работает с русскоязычным текстом. Поэтому в RCO реализован оригинальный алгоритм, использующий систему быстрого ассоциативного доступа к списку слов, содержащихся в документах, которая позволяет найти слова по любым цепочкам составляющих их букв.
RCO способен найти все лексикографически близкие слова из коллекции документов, по которым ведется поиск, отличающиеся заменами, пропусками и вставками символов. Например, запрос “инкомбанк” может быть расширен словами-опечатками: “ипкомбан”, “инкобанки” “винкомбанке”. А если забыто точное название медицинского препарата “ипрониазид”, то можно задать что-нибудь похожее, например “импронизид” – RCO найдет нужные документы. Допустимая близость найденных слов к запросу при поиске может регулироваться.

Все описанные возможности interMedia Text и RCO могут использоваться совместно, в сочетании со средствами контекстного поиска документов по содержащимся в них словам и фразам, объединясь при необходимости булевыми операциями, что поддерживается языком запросов в сочетании с традиционным синтаксисом SQL для поиска документов по реляционным атрибутам. Поэтому можно утверждать, что совместное использование interMedia Text и RCO практически покрывает весь спектр услуг, необходимых для доступа к документам базы данных и создания интеллектуальных поисковых систем.

3. Визуализация информационных массивов в интернет

Как показал наш опыт создания информационных систем, основные направления развития поисковых машин в интернет связаны не только с качественным повышением полноты и точности поиска документов, но и с внедрением дружественного интерфейса, помогающего структурировать найденный материал и подсказать, какая информация может быть интересна.
В заключительном разделе мы расскажем о новых способах графического представления информации, предлагаемых нами для навигации в больших массивах документов, в частности, в интернет.

3.1. TopNet: тематические сети

Семантическая сеть главных тем документов представляет основу для навигации по ассоциативным связям между темами (рис.2). Технологии построения навигаторов на основе таких сетей мы дали название TopNet.

Ранжирование ассоциативных связей по весам (1) позволяет визуализировать фрагменты сети “по слоям”, отображая более или менее сильные связи. При этом обрыв слабых связей разбивает сеть на подсети, которые представляют отдельные тематические кластеры.
Связь между парой тем в сети всегда двусторонняя, однако ее веса в разные стороны в общем случае различаются (wij!=wij), отражая тот факт, что одна тема обычно выступает подтемой другой. При этом большое значение веса связи от одной темы к другой указывает на то, что первая тема в тексте почти всегда излагалась в контексте второй. Малое значение веса связи отражает тот факт, что относительно небольшая часть информации, касающаяся первой темы, касается в тоже время и второй.
Различие в весах прямой и обратной связи позволяет определить более общие и более частные темы и установить иерархические отношения, в результате чего вся сеть может быть представлена в форме леса деревьев, где каждое дерево представляет кластер взаимосвязанных тем.
В силу указанных особенностей визуальные формы представления сети могут быть различными.

Рис. 1. Два фрагмента семантической сети, построенной методом TopNet

На рисунке 1 приведена одна из возможных форм отображения фрагмента сети. В виде деревьев на верхнем рисунке представлено множество тем, связанных с темой “репрессировать”. Дерево сверху содержит темы, являющиеся более общими по отношению к теме “репрессировать”, а дерево снизу – более частные темы (подтемы). Нижний рисунок иллюстрирует фрагмент связей одной из подтем темы “репрессировать”.
При работе с таким навигатором пользователь имеет возможность перемещаться от темы к теме и получать документы как по отдельным темам, так и по выбранным связям. Например, можно извлечь документы, в которых тема “военная прокуратура” связана с темой “репрессияровать”.

Пример более традиционного представления фрагмента сети, относящегося к запросу “азербайджанская нефть”, приведен на рисунке 2.

Рис. 2. Фрагмент семантической сети, построенной методом TopNet

Здесь размер шара, соответствующего теме, пропорционален общему количеству документов по теме в коллекции. Яркость связи пропорциональная силе ассоциативной связи между парой тем. При этом стрелочкой обозначены связи от темы к подтеме. Яркость окраски шаров, соответствующих найденным темам, пропорциональна релевантности (близости) тем к запросу.
Для удобства восприятия темы на картинке располагаются таким образом, чтобы попарные расстояния между ними отражали силу ассоциативной связи. Алгоритм оптимального отображения сети на плоскость реализует один из методов решения известной в математике задачи многомерного шкалирования [10]. Он позволяет по заданной матрице попарных расстояний между объектами (весов связей) построить их оптимальное размещение в пространстве заданной размерности, в данном случае – на плоскости. Аналогично возможно отображение тем в трехмерное пространство.

3.2. TopSOM: самоорганизующиеся тематические карты

Еще один интересный метод визуализации основан на отображении многомерного пространства гипертекста на плоскость. В изначальной реализации метод носит название WebSOM (Web Self-Organaizing Maps) и предназначен для представления массивов документов в виде двумерной карты [11].
Конкретные документы при этом связываются со своими областями карты, причем к каждой области может относиться множество близких по содержанию документов – тематический класс. В свою очередь, близким областям обычно соответствуют близкие классы документов, что является основной особенностью карты. Области карты именуются в зависимости от содержания документов, к ним относящихся (рис.3).
Пользователь выбирает на карте интересующую область и получает класс соответствующих ей документов близкого содержания. Если же ищутся документы, включающие некоторые слова, то результаты поиска также могут быть отражены на карте, что достигается выделением областей, которым принадлежат найденные документы. В итоге пользователь получает возможность оценить тематическое распределение искомой информации (рис.4).

Для построения карты используется стандартный метод, основанный на нейронной сети Кохонена, описание которого можно найти сайте авторов WebSOM http://websom.hut.fi. Там же приведены примеры англоязычных карт, полученных авторами.
Ознакомившись с указанной демонстрацией, можно убедиться, что использование WebSOM пока не смогло обеспечить качественного представления, способного заинтересовать реального потребителя информационных систем и вывести технологию за рамки лабораторных исследований. Это связано с тем, что ключевым моментом технологии является выбор качественного описания содержания документов, на основании которого строится карта.
На наш взгляд, знание главных тем позволяет решить проблему и выбрать адекватные признаки, используемые для классификации документов, что повышает качество карты. Кроме этого, возникает возможность автоматически маркировать области карты названиями тем.
Сохраняя преемственность, наша модификация WebSOM с применением технологии тематического анализа получила название TopSOM – тематические самоорганизующиеся карты.

Фрагмент построенной карты приведен на рисунке 3.

Рис. 3. Фрагмент тематической карты, построенной методом TopSOM

Тематические классы близких документов здесь представлены шестиугольными областями. Каждой области в общем случае соответствует несколько тем, выделенных в соответствующих ей документах, которые ранжированы по значимости. В силу свойств карты большинство соседних областей образуют группы с одинаковой главной темой, которые обведены пунктиром, а название главной темы написано в некоторых местах выделенным шрифтом. Основные такие группы – это “долг”, “бюджет”, “правительство” “налог”,“предприятие”. Мелким шрифтом обозначены названия тем, следующих по значимости за главной в группе. Выбранный способ отображения позволяет детализировать информацию. Так, например, документы тематической группы “предприятие” в левом нижнем углу дифференцируются на ряд классов, в которых преобладают темы: “собственность”, “зарплата”, “прибыль”, “налог”, “деньги”, “имущество” и “долг”.
Ввиду того, что подавляющее большинство документов является политематическим, реальные границы между темами на карте оказываются континуальны. Так, в правом нижнем углу находятся три близких по содержанию класса документов по теме “Шохин”, причем документы в одном из них преимущественно относятся к тематической группе “налог”, а в другом преобладает тема “правительство”.
Яркость окраски пропорциональная количеству документов, относящихся к области.

Рис. 4. Тематическая карта TopSOM с подсветкой результатов поиска по запросу “наркотики”.

На рисунке 4 в более мелком масштабе представлена вся карта, содержащая около 2 тысяч областей, которая отражает содержание коллекции материалов периодической печати объемом более 10 тысяч документов. На ней красным цветом (здесь дополнительно обведены в овал) подсвечены области, которым принадлежат документы, найденные по запросу “наркотики”. В тех областях, которые не содержат документов, относящихся к запросу, сохранен исходный серый цвет окраски карты.
Как видно, основные скопления документов, содержащих слово “наркотики”, принадлежат к области, в которых преобладает тема “преступление”. Еще часть документов относится к тематике, связанной с “таможней” и “инфекцией”, а некоторые документы рассеяны по прочим областям. Выбрав заинтересовавшую область – в окрестности темы “таможня” – можно детально просмотреть фрагмент карты в увеличенном масштабе и отобрать документы, связанные, например, с наркокурьерами.

Заключение

В статье описан комплекс методов, предназначенных для создания интеллектуальных информационно-поисковых систем в интернет, разработка которых ведется специалистами компании “Гарант-Парк-Интернет” с момента основания в 1995 году. Многолетний интерес к достижениям в области искусственных нейронных сетей, нейропсихологии и лингвистики послужил фундаментом для развития технологий обработки текста на естественном языке.

Первая группа методов предназначена для автоматического анализа текстовых массивов и выделения семантических признаков – атрибутов, позволяющих повысить качество поиска и представления документов. К числу таких атрибутов относятся ключевые темы документов, ассоциативные связи между темами, рефераты.
Возможность нечеткого поиска информации по лексикографическому подобию позволяет решить другой класс проблем, связанный с ошибками в документах и поисковых запросах.
Разработанные алгоритмы уже получили внедрение в описанной здесь системе Russian Context Optimizer для СУБД Oracle.

Вторая группа методов предназначена для графического отображения содержания информационных массивов и обеспечивает новые виды навигации в интернет. Описанные методы визуализации TopMap и TopSOM в настоящий момент апробированы и ждут своего внедрения в поисковых системах.

Ознакомиться с полной on-line демонстрацией представленных технологий можно на сайте http://research.metric.ru/, который полностью посвящен результатам наших исследований.

Литература

1. van Rijsbergen C.J. Information retrieval. – London: Butterworths, 1979.
2. Лурия А.Р. Основы нейропсихологии – М.: МГУ, 1973. – 374с.
3. Глезерман Т.Б. Психофизиологические основы нарушений мышления при афазии – М.: Наука, 1986. – 230с.
4. Брагина Н.Н., Доброхотова Т.А. Функциональные асимметрии человека. – М: Медицина, 1981. – 287 с.
5. Ахутина Т.В. Порождение речи. Нейро-лингвистический анализ синтаксиса – М.: МГУ, 1989. – 215с.
6. Орлова Л.В. Структура сверхфразового единства в научных текстах. – Киев: Наукова Думка, 1988. – 154с.
7. Харламов А.А., Ермаков А.Е., Кузнецов Д.М. Технология обработки текстовой информации с опорой на семантическое представление на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания // Информационные технологии. – 1998. – N 2. – С. 26-32.
8. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. – 2000. – N 11.
9. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. – 2000. – N 12.
10. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. – М.: Финансы и статистика, 1989. – 606с.