Информационные технологии. – 2000. – N 12.
В работе предлагается статистическая модель порождения естественно-языкового текста, которая позволяет учесть ряд смысловых корреляций между словами за счет привлечения гипотез, основанных на представлениях нейропсихологии об организации языковой коммуникации. Рассматриваются вопросы применения модели для решения задачи автоматической классификации документов, в том числе оценка параметров модели на базе эталонных текстов.
Введение
Традиционно в задачах классификации и полнотекстового поиска при сравнении документов используются векторные модели, представляющие текст набором составляющих слов [1] . Попытки повышения качества моделей связаны с учетом коррелированности появления слов в тексте и проводились с применением формальных статистических методов в связи с отсутствием возможности выявления реальных семантических связей .
В тоже время привлечение представлений нейропсихологии [2,3,4] и психолингвистики [5] об организации языковой коммуникации делает возможным построение качественно иной модели, которая учитывает ряд корреляционных эффектов, обусловленных механизмом порождения связного текста .
Рассмотрим кратко теоретические предпосылки развиваемого в работе подхода.
Высшие психические функции человека опираются на ассоциативную семантико-статистическую модель мира, формирующуюся в правом полушарии мозга на основе зрительных пространственно-предметных представлений [2,3] . Порождение текста можно рассматривать как временной процесс, обусловленный активацией элементов и связей модели, который происходит под управлением передних лобных отделов коры, реализующих функции произвольного внимания при наличии цели языковой коммуникации. Приняв ряд упрощений, в частности, игнорируя абстрактно-логическую форму мышления, можно считать, что в этом процессе левое полушарие реализует чисто языковые функции, связанные с развертыванием фрагментов правополушарной модели в последовательности грамматически правильных фраз, и обуславливает глубинно- и поверхностно-синтаксическую организацию порождаемого текста. При этом глубинная семантика сообщения определяется структурой правополушарной модели и деятельностью лобной коры, отражаясь в коммуникативном строении текста как тема-рематической иерархии, подтверждения чему можно найти в исследованиях внутренней и детской речи [4].
Исходя из сказанного, семантические связи между словами текста можно условно разбить на две группы . Первые (глубинно-семантические) представляют отражение связей семантической модели, задействованных на момент порождения высказывания. Именно эти связи определяют коммуникативное строение текста, в том числе и сверхфразовое. Связи второго вида (семантико-синтаксические) формируются в ходе оформления высказываний в языковых конструкциях, и в рамках принятой здесь модели рассматриваться не будут, так как их выявление требует грамматического анализа.
Полагая высказывание (предложение) основной коммуникативной единицей, будем считать, что его появление обусловлено активацией одного элемента семантической модели, находящегося в фокусе внимания и представляющего тему высказывания. Появление прочих слов в рематической части предложения обусловлено их связями с темой, задействованными в модели на момент порождения. Второе предположение опирается на представление о сверхфразовой связности сообщения в целом и состоит в том, что наиболее вероятно обуславливание темы высказывания одним из слов в рема- или тематической части предшествующего, что отражает сохранение фокуса внимания или его переключение на связанный элемент семантической модели.
Учитывая коррелированность появления слов в рамках высказанных предположений, можно представить процесс порождения текста как марковский процесс первого порядка, состояния которого соответствуют предложениям, а вероятности переходов между состояниями обуславливаются связями элементов семантической модели, соответствующих словам.
В качестве описания правополушарной модели предлагается использовать ассоциативную семантическую сеть, введенную в работе [6].
Семантическая сеть есть набор элементов, представляющих понятия предметной области (слова и словосочетания), которые связаны между собой ассоциативными связями, и может быть описана матрицей весов связей:
W = [wij], (1)
где wij может интерпретироваться как степень ассоциированности и отражать вероятность появления понятия j в смысловой связи с понятием i в рамках предметной области, описываемой сетью.
Рассмотрим применение семантической сети для решения задачи автоматической классификации. Если принять, что множество текстов, относящихся к одному классу, порождается на основе одной семантической сети – эталона, то задача отнесения неизвестного текста к соответствующему классу сведется к определению вероятностей порождения текста на основе каждой из эталонных сетей. Предварительно должна быть решена задача оценки параметров сетей на базе коллекции эталонных текстов, разделенных по классам.
1. Порождение текста на основе ассоциативной семантической сети
Пусть имеется модель ассоциативной семантической сети (1), представленная в виде
PN = [p(j|i)], i=1..N, j=1..N (2)
где p(j|i) ~ wij – условная вероятность появления j- го понятия в смысловой связи с i-м, а N – оличество элементов сети .
К задаче построения модели обратимся позже. Покажем, как оценить вероятность того, что произвольный текст был порожден на основе заданной модели.
Обозначим набор понятий как вектор W = (w i ), где w i=1, если i- ое понятие семантической сети присутствует в наборе , и w i=0 – в противном случае. Тогда |W | = å i w i(t) есть количество понятий в наборе. Пустой набор будем обозначать W 0.
Представим предложение как набор входящих в него понятий W (t) = (w j (t)), где t=1..T – порядковый номер предложения в тексте.
Будем считать, что каждое предложение имеет одно порождающее понятие – тему, которое обуславливает появление всех остальных понятий, связанных с ним, но попарно независимых.
Тогда вероятность порождения предложения W (t) от понятия-темы можно определить как
P(W (t)|m) = П i p(i|m) w i(t), i=1..N, (3)
где m – порождающее понятие .
Учитывая то, что порождающее понятие-тема достоверно неизвестно, и полагая его появление обусловленным понятиям предшествующего предложения, с привлечением формулы полной вероятности представим вероятность порождения предложения как условную :
P(W (t)|W (t-1)) = å m w m(t) P(W (t)|m) p(m|W (t-1), m=1..N, (4)
Полагая равновероятным, что любое из понятий предложения W (t-1) могло обусловить тему предложения W (t), имеем:
p(m|W (t-1) =å j w j(t-1) p(m|j) / å j w j(t-1), j=1..N (5)
Тогда, с учетом (3) и (5) из (4) окончательно получаем оценку вероятности порождения предложения в виде
P(W (t)|W (t-1)) = å m w m(t) П i p(i|m) w i(t) å j w j(t-1) p(m|j) / å j w j(t-1) (6)
Уравнение (6) описывает процесс порождения текста как марковский процесс первого порядка.
Для формальной корректности модели следует положить, что
W (0) = W 0;
P(W 0) = P(W 0|W (t) ) = 1/2N; (7)
p(m|W 0) = 1/å w j(t)
Таким образом, порождающее предложение текста считается пустым , появление пустого предложения считается необусловленным и необуславливающим событием , а в предложении, порожденным пустым, все понятия полагаются равновероятными в качестве тем. Появление пустого предложения ( в графическом тексте аналогичного началу нового абзаца) означает возможность переключения внимания автора сообщения на новую тему, выбор которой обусловлен факторами, не поддающимися оценке в рамках принятой модели.
Полная вероятность порождения наблюдаемого текста моделью есть вероятность соответствующей реализации марковского процесса (6), вычисляемая с учетом (7) как
P* = Пt P(W (t)|W (t+1)), t=0..T (8)
2. Оценка параметров модели ассоциативной семантической сети
Оценка параметров модели семантической сети в форме (2) требует определения понятий, а также условных вероятностей p(j|i) появления пары понятий в смысловой связи. Провести такую оценку возможно на основе анализа множества текстов, порожденных моделью – эталонных текстов из одного класса в задаче классификации.
Для выделения понятий сети, представляющих слова и связные словосочетания, может быть применен статистический алгоритм, основанный на анализе частоты встречаемости цепочек слов различной длины и их вхождения друг в друга, описанный в [6].
Покажем, как провести оценку весов связей.
По определению условной вероятности
p(j|i) = p(ij) / p(i), (9)
где p(ij) – вероятность появления пары понятий в смысловой связи, а p(i) – собственная вероятность появления i -го понятия в тексте.
В качестве критерия возможной связности понятий используем факт их появления в одном предложении текста. Отсутствие априорной информации на этапе построения модели не позволяет учесть сверхфразовые связи, вследствие чего разумно предположить все понятий равновероятными в качестве тем. Тогда, считая, что каждое из понятий равновероятно связано с любым из других, имеем
p(ij|W (t)) = w i(t)w j(t) / [å j w j(t)–1] для i ¹ j, (10)
p(ii|W (t)) º 1;
Полная вероятность связи понятий определяется по всему тексту как
p(ij) = å t p(ij|W (t)) P(W (t)) = å t p(ij|W (t)) / T, t=1..T (11)
Собственная вероятность появления понятия
p(i) = å t p(i|W (t)) P(W (t)) = å t w i(t) / T, t=1..T (12)
Окончательно, с учетом (11), (12) и (10) получаем из (9) искомую оценку
p(j|i) = å t p(ij|W (t)) / å t w i(t) = å t [w i(t)w j(t)/[å j w j(t)–1] ] / å t wi(t) (13)
Как видно, выражение в знаменателе представляет собственную частоту встречаемости понятия в тексте (исключая повторы в одном предложении), а выражение в числителе есть частота совместной встречаемости понятий в предложениях текста, нормированная c учетом количества понятий по каждому из предложений .
Для уточнения модели можно учесть, что некоторые связи не наблюдаются явно в предложениях текста, однако подразумеваются автором. Их скрытое влияние выражается в том, что вместо p(j|i) правильнее было бы использовать вероятность p(j|q)p(q|i), где p – ненаблюдаемое понятие. C учетом этого взамен p(j|i) можно использовать уточненную оценку p~ (j|i), учитывающую связь через третьи понятия:
p~(j|i) = maxq{ p(j|q)p(q|i) }, q=1..N (14)
На практике при использовании модели из предложений текста следует исключить общеупотребимые стоп-слова, появление которых обуславливается не учтенными здесь факторами, в частности, грамматикой языка.
Заключение
Применение модели для вычисления близости текста в задаче классификации непосредственно в форме (6)-(8) на практике затруднено вследствие появления большого количества множителей, большинство из которых оказывается близко к нулю. Поэтому для повышения устойчивости оценки целесообразно заменить произведение (8) суммой, используя, например, просто среднее, что и было сделано при практическом исследовании алгоритма.
В качестве тестовой использовалась выборка из 7 тысяч документов, представляющих материалы периодической печати из 50 тематических рубрик базы ИС “Парк”, общим объемом 30Мбайт. В формировании эталонных моделей для каждого класса участвовало по 30 текстов, и около 100 текстов на каждый класс было автоматически классифицировано. Точность классификации достигла почти 95%, что следует считать высоким показателем ввиду присутствия в коллекции большого количества близких тематических классов, а также того, что многие тексты оказались политематическими по содержанию.
Литература
- van Rijsbergen C.J. Information retrieval. – London: Butterworths, 1979.
- Лурия А.Р. Основы нейропсихологии – М.: МГУ, 1973. – 374с.
- Глезерман Т.Б. Психофизиологические основы нарушений мышления при афазии – М.: Наука, 1986. – 230с.
- Брагина Н.Н., Доброхотова Т.А. Функциональные асимметрии человека. – М: Медицина, 1981. – 287 с.
- Ахутина Т.В. Порождение речи. Нейро-лингвистический анализ синтаксиса – М.: МГУ, 1989. – 215с.
- Харламов А.А., Ермаков А.Е., Кузнецов Д.М. Технология обработки текстовой информации с опорой на семантическое представление на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания // Информационные технологии. – 1998. – N 2. – С. 2 6-32.