• 01.01.2000

Информационные технологии. – 2000. – N 11.

Описывается подход к реализации ряда функций автоматической обработки текста в информационно-поисковых системах, основанный на использовании ассоциативной семантической сети для оценки сверхфразового строения текста.

Введение

Быстрый рост индустрии информационно-поисковых систем, стимулированный расширением сферы интернет в последние годы, происходит в условиях слабой развитости автоматизированных средств анализа естественно-языковой информации. Основная проблема связана с недостаточной проработанностью лингвистического обеспечения, однако есть все основания предполагать, что ситуация принципиально не изменится в ближайшее десятилетие как для русского, так и для прочих языков. К настоящему моменту прикладная лингвистика способна обеспечить разработчиков интеллектуальных систем не более чем средствами морфологического и лексического анализа (тезаурусы). Алгоритмы грамматического анализа/синтеза, реально используемые только в системах автоматического перевода, до сих пор опираются на формальную модель языка [1]. Такая модель практически проработана лишь до уровня поверхностного синтактсиса фразы и, похоже, не способна подняться выше в силу принципиальной ограниченности подхода, связанной с игнорированием психолингвистических аспектов порождения и восприятия текста.

Альтернативу формальным лингвистическим подходам представляет класс статистических методов анализа текста, и именно они используются в коммерческих системах для решения таких задач, как автоматическое реферирование, тематическая классификация и кластеризация текстов, смысловой поиск и т.п, которые можно рассматривать в комплексе, с единой позиции, как задачу тематического анализа. Статистическая информация об отдельных лексических единицах легко извлекается из текста и есть все основания полагать, что она адекватно отражает его содержание в целом. Косвенное подтверждение этому можно найти в нейропсихологических исследованиях, которые установили, что анализ печатного текста, опираясь на зрительное пространственное (а не на линейное слуховое) восприятие, реализуется преимущственно правым полушарием мозга, использующим ассоциативную статистическую модель [2,3]. Логический “левополушарный” анализ, моделированием которого по сути занимается формальная лингвистика, необходим лишь в отдельных “трудных” местах текста, несущих новую информацию и требующих детального осмысления.

Основной задачей статистического анализа является исследование распределения лексики в рамках различных единиц текста – предложений и фрагментов, которое желательно проводить с привлечением более общей статистической модели. Описываемый подход к решению задачи представляет конструктивное развитие идей, изложенных в работе [4], и претендует на попытку моделирования способов обработки информации правым полушарием человеческого мозга. Ключевым моментом подхода является возможность использовать на определенном этапе анализа ассоциативную семантическо-статистическую модель, сформированную на базе самого исследуемого текста.

  1. Анализ сверхфразовой структуры текста на основе ассоциативной семантической сети

В основе подхода лежит интегральное представление смысла текста в форме ассоциативной семантической сети, описанное в работе [4].

Семантическая сеть представляет множество понятий текста – слов и словосочетаний, ассоциативно связанных между собой. В качестве критерия связности предлагается использовать частоту совместной встречаемости понятий в предложениях текста.

Быстрый алгоритм выделения связных словосочетаний, представляющих целостные понятия сети, основывается на анализе частоты встречаемости цепочек слов различной длины и их вхождения друг в друга, который может быть произведен с применением многоуровневой нейроподобной структуры [4].

Важнейшим свойством семантической сети является дифференциация связей по весам, отражающим степень смысловой связности понятий. Связь от понятия i к понятию j предлагается характеризовать весом wij, который в простейшем случае определяется как

wij = fij / fj, (1)

где fij – частота совместной встречаемости понятий в предложениях текста, а fi – собственная частота встречаемости понятия в тексте. Как видно, вес связи отражает условную вероятность того, что при упоминании в тексте понятия i речь также идет о понятия j. В общем случае вес связи между парой понятий может учитывать их связи через третьи понятия, что можно представить как упрощенную модель механизма реорганизации информации во сне [4].

Рассмотрим применение такой семантической сети для тематического анализа текста, основанного на выделении целостных фрагментов, связанных общим содержанием – сверхфразовых единств (СФЕ) [5]. Можно считать, что каждое СФЕ характеризуется главной темой, а каждой из тем соответствует ряд СФЕ в тексте. Отдельные СФЕ для различных тем могут пересекаться или включаться друг в друга, что отражает иерархическую тема-рематическую структуру текста – его коммуникативное построение в процессе порождения автором. Ввиду того, что коммуникативное членение текста при восприятии опирается на сформированную семантическую модель реципиента [6], решение задачи сверхфразового анализа в принципе не однозначно и определяется структурой используемой модели. В качестве таковой в простейшем случае может быть использована семантическая сеть самого исследуемого текста, а в более общем – сеть, предварительно созданная на базе эталонных текстов.

Считая, что каждая тема соответствует одному из понятий семантической сети, задачу выделения СФЕ можно сформулировать как задачу поиска фрагментов текста, близких “по-смыслу” к соответствующим понятиям. При этом в качестве описания темы можно использовать набор связей понятия в сети и принять, что при упоминании понятия в тексте речь также идет о всех связаных с ним понятиях, в степени, пропорциональной весам соответствующих связей.

Чтобы оценить отнесенность отдельных предложений к темам – элементам сети, введем понятие уровня активации i-го элемента на предложении с номером t:

w*i(t) = å j s j(t) wji / å j s j(t), j=1..I, (2)

где å j s j (t) – количество слов в предложении t, I – количество элементов сети,

s j(t) = {1, если понятие присутствует в предложении ; 0 – в противном случае }.

Такое определение означает, что понятие, встретившееся в предложении, повышает уровень активации каждого из прочих понятий сети на величину, пропорциональную соответствующему весу связи. В результате могут быть значительно активизированы понятия, имеющие сильные связи с понятиями из предложения. Это свойство обеспечивает устойчивость тематического анализа к используемой лексике за счет того, что при анализе локальных участков текста используется совокупная статистическая информация о содержании текстов, формировавших семантическую сеть, которая априори обладает более высокой достоверностью.

Тематическую отнесенность участков текста характеризует совокупный уровень активации элементов на интервале D T = (t, t+m-1):

w*i(t, m) = å k w*i(t+k), k=0..m (3)

Как видно, уровень активации показывает степень “насыщенности” фрагмента текста информацией, относящейся к теме, представленной i-ым элементом.

Можно считать, что динамика уровней активации понятий на временной оси текста в целом отражает его коммуникативное строение с точки зрения воспринимающего, использующего в качестве модели предметной области семантическую сеть. В этом случае появляется возможность выделения СФЕ для каждой из тем как участков с сохраняющимся в среднем высоким уровнем активации, не сопровождающимся длительным падением.

В качестве СФЕ выбирается последовательность предложений из наиболее продолжительного интервала D T , обеспечивающего выполнение следующих условий :

w*i(t) ³ w , w*i(t+m-1) ³ w и (4)

/$ D T’Ì D T , |D T’|>t : w*i(t’)<w для t’Î D T’.

Здесь w – параметр, задающий пороговое значение уровня активации, превышение которого позволяет говорить об отнесенности информации в предложении к i-ой теме. Параметр t накладывает ограничения на связность СФЕ. Его значение указывает максимальное количество предложений, на протяжении которых допускается отклонение в содержании текста от темы, сответствующей элементу.

Целесообразно ввести адаптацию порога w к уровню активации элементов вида

w = w (t) = å j s j(t) w*j(t) / å j s j(t), j=1..I (5)

Таким образом, значение порога принимается равным среднему уровню активации на понятиях, входящих в предложение, что аналогично введению латерального торможения между элементами сети.

Возможна также дополнительная адаптация параметра t к совокупному уровню активации понятия в интервале СФЕ D T = (t0, t0+ m-1) , например :

t = t ( t, i ) = ln w*i(t, t-t0) (6)

Это отражает тот факт что, при увеличении продолжительности СФЕ ограничение на связность может несколько ослабевать, а для короткого СФЕ разумно допускать лишь кратковременые отклонения от темы.

В целом, варьирование t позволяет регулировать детальность сверхфразового анализа.

2. Реализация прикладных функций тематического анализа текста

Результатом сверхфразового анализа является выделение множества непересекающихся СФЕ для каждой из тем текста : {D Ti,1, D Ti,2, … DTi,P(i)}, D Ti,p = (ti,p, ti,p + mi,p -1), где P(i) – количество СФЕ по i-ой теме . При этом в качестве оценки информативности СФЕ для темы может использоваться совокупный уровень активации элемента на СФЕ-интервале – реферативный вес :

ri,p = w*i(ti,p, mi,p) (7)

Теперь возможно оценить “ значимость ” темы для текста в целом как совокупный реферативный вес по всем СФЕ, к ней отнесенным :

W*i = å p rj,p , p=1.. P(i), (8)

Как видно, подобный способ оценки учитывает только “неслучайные ” упоминания в тексте соответствующего понятия и связанных с ним.

Ранжирование тем на основе совокупных реферативных весов позволяет охарактеризовать степень отнесенности текста к каждой из тем и выделить главные.

Последовательность СФЕ c высоким реферативным весом, относящихся к одной теме и расположенных в порядке следования в тексте, может интерпретироваться как тематический реферат текста.

Сформировать общий реферат текста можно из наиболее весомых СФЕ по наиболее значимым темам. Учитывая то, что целью реферирования является вмещение наибольшего количества информации в ограниченный объем, целесобразной представляется оценка значимости каждого СФЕ с учетом перечечений с СФЕ других тем. Так, например, если одно СФЕ включает в себя другое, то его реферативный вес должен быть увеличен с учетом веса второго СФЕ и его темы. Тогда общий реферативный вес СФЕ по всем темам можно определить следующим образом:

Ri,p = å j å q rj,q W*j |D Ti,pÇ D Tj,q| / |D Tj,q| , q=1..Q(j), j=1..I, j¹ i, (9)

где |D Ti,pÇ D Tj,q| – длина интервала пересечения участков СФЕ i- го и j-го понятий.

Окончательно в реферат выбираются СФЕ с максимальным общим реферативным весом, располагаясь в порядке следования в тексте. При этом пересекающиеся СФЕ объединяются в одно.

Возможны и другие стратегии компоновки реферата.

Как видно, описанный подход одинаково применим и к анализу отдельного текста, без наличия априорной информации, и к анализу текста на основе предварительно сформированной семантической сети. Во втором случае происходит фильтрация информации текста, относящейся к темам из эталонной сети, что представляет одну из форм реализации функции смыслового поиска.

Заключение

Описанные алгоритмы исследованы и реализованы в компании “Гарант-Парк-Интернет” в ходе разработки программной библиотеки GPTopMining. Универсальность подхода и однородность использованных способов обработки информации позволили продемонстрировать высокую скорость анализа в сочетании с качеством, превосходящим существующие на рынке коммерческие решения задач тематического анализа текстов.

В настоящий момент средства библиотеки внедряются в ряд коммерческих продуктов компании, таких, как Russian Context иRussian Context Optimizer for Oracle Context Cartridge, информационные системы “Гарант” и “ИС-Парк”.

Литература

  1. Мельчук И.А Опыт теории лингвистических моделей “Смысл-Текст”. Семантика, синтаксис. – М.: Школа “Языки русской культуры”, 1999.
  2. Глезерман Т.Б. Психофизиологические основы нарушений мышления при афазии – М.: Наука, 1986. – 230с.
  3. Брагина Н.Н., Доброхотова Т.А. Функциональные асимметрии человека. – М: Медицина, 1981. – 287 с.
  4. Харламов А.А., Ермаков А.Е., Кузнецов Д.М. Технология обработки текстовой информации с опорой на семантическое представление на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания // Информационные технологии. – 1998. – N 2. – С. 26-32.
  5. Орлова Л.В. Структура сверхфразового единства в научных текстах. – Киев: Наукова Думка, 1988. – 154с.
  6. Ахутина Т.В. Порождение речи. Нейро-лингвистический анализ синтаксиса – М.: МГУ, 1989. – 215с.