Русский язык: исторические судьбы и современность. Международный конгресс. Труды и материалы. – Москва, МГУ, 2001.
Развитие информационно-поисковых систем, в частности, поисковых машин в интернет, происходит на фоне слабой развитости лингвистического обеспечения и алгоритмов, способных к синтактико-семантическому анализу естественно-языкового текста.
Решение большинства прикладных задач компьютерного анализа текстовой информации (автоматическое аннотирование, тематическая категоризация и т.д) требует привлечения средств, позволяющих выявлять основные единицы смысла текста и семантические связи между ними, предоставить которые прикладная лингвистика пока не в состоянии. Вследствие этого в коммерческих информационо-поисковых системах возобладали статистические методы.
Как показала практика, для достижения приемлемого качества решения практических задач не требуется полный грамматический анализ фразы. Достаточно выделить наиболее информативные единицы текста – ключевые слова, словосочетания, предложения и фрагменты, причем в качестве критерия информативности хорошо работает частота повторения в тексте. Упрощенный в силу необходимости, подход тем не менее оказывается обоснованным и подтверждается нейропсихологическими исследованиями, которые установили, что анализ печатного текста человеком опирается преимущественно на зрительное пространственно-предметное (а не на линейное слуховое) восприятие и реализуется затылочно-теменной корой правого полушария мозга, представляющей ассоциативную семантико-статистическую модель мира [1,2]. Синтактико-семантический анализ с привлечением синтагматических представлений левого полушария необходим лишь в отдельных местах текста, требующих детального “осмысления”.
Порождение текста представляет процесс, обусловленный активацией узлов и связей правополушарной модели, который происходит под управлением лобных отделов коры, реализующих функции произвольного внимания при наличии цели коммуникации. Приняв ряд упрощений, можно считать, что левое полушарие реализует чисто языковые функции, связанные с развертыванием фрагментов правополушарной модели в последовательности грамматически правильных фраз, и обуславливает глубинно- и поверхностно-синтаксическую организацию текста. Глубинная семантика сообщения изначально определяется структурой правополушарной модели, и отражается в коммуникативном строении текста как иерархии тем и рем с соответствующей им совокупностью сверхфразовых единств [3].
Указанные посылки легли в основу статистического подхода, на базе которого в компании “Гарант-Парк-Интернет” (http://www.metric.ru) реализован ряд технологий автоматической обработки полнотекстовой информации, с демонстрацией которых можно ознакомиться по адресу: http://research.metric.ru.
В основе подхода лежит представление смысла текста в форме ассоциативной семантической сети [4], узлы которой представлены множеством часто встречавшихся понятий текста – слов и устойчивых словосочетаний, из числа которых исключены общеупотребимые слова. Узлы сети ассоциативно связаны между собой с различной силой, причем сила связи коррелирована с частотой совместной встречаемости понятий в предложениях текста. Семантическая сеть может быть автоматически построена на базе множества текстов и использована впоследствии как модель предметной области для анализа неизвестных документов.
В модели процесса порождения [5] появление предложения считается обусловленным активацией одного узла сети, находящегося в фокусе внимания и представляющего тему высказывания. Появление прочих слов в предложении обусловлено их связями с темой, задействованными в сети на момент порождения. Учитывая сверхфразовую связность сообщения в целом, считается, что наиболее вероятно обуславливание темы высказывания темой или ремой предшествующего, что отражает сохранение фокуса внимания или его переключение на связанный узел сети. В итоге порождение текста можно представить как марковский процесс, состояния которого соответствуют предложениям, а вероятности переходов между ними обуславливаются силой связей элементов семантической сети.
Если имеется несколько эталонных сетей, которые представляют тематические классы близких по содержанию документов, то можно классифицировать новый текст, определив вероятность его порождения каждой сетью.
В модели процесса восприятия с опорой на семантическую сеть [6] каждое понятие текста активизирует совокупность связанных узлов в сети, в степени, пропорциональной силе ассоциативных связей. Анализ динамики активизации узлов на временной шкале текста позволяет выделить связные фрагменты – сверхфразовые единства (СФЕ), отнесенные к соответствующим узлам, которые представляют темы документа. Результатами анализа являются: набор ключевых тем документа, представленных понятиями семантической сети и ранжированных по релевантности; тематические резюме по ключевым темам, представленные наиболее информативными СФЕ; общий реферат, составленный из наиболее информативных СФЕ по ключевым темам.
При отсутствии априорной информации для анализа может быть использована сеть, построенная на базе самого исследуемого текста. В этом случае возникает аналогия с процессом экспресс-обучения человека новому предмету (в частности, новому языку). Цикл статистической обработки моделирует ход итеративного усвоения материала текста: вначале выделяются повторяющиеся понятия, затем ассоциативные связи, после чего – единицы смысла сверхфразового уровня, которые классифицируются по темам.
1. Глезерман Т.Б. (1986). Психофизиологические основы нарушений мышления при афазии. – М.: Наука.
2. Брагина Н.Н., Доброхотова Т.А. (1981). Функциональные асимметрии человека. – М: Медицина.
3. Ахутина Т.В.(1989). Порождение речи. Нейро-лингвистический анализ синтаксиса. – М.: МГУ.
4. Харламов А.А., Ермаков А.Е., Кузнецов Д.М. (1998). Технология обработки текстовой информации с опорой на семантическое представление на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания // Информационные технологии. – N 2.
5. Ермаков А.Е., Плешко В.В. (2000). Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. – N 12.
6. Ермаков А.Е. (2000). Тематический анализ текста с выявлением сверхфразовой структуры // Информационные технологии. – N 11.