При обработке текста в информационно-поисковых системах чаще всего возникает задача построения информационного портрета документа, который характеризовал бы в компактной форме основное содержание текста — описанные в нем предметы, лица, ситуации и т.п.
Наличие такого содержательного портрета позволяет:
- эффективно решать задачи, требующие сравнения документов по содержанию — находить похожие документы, производить автоматическую классификацию, категоризацию и рубрицирование документов, новостную агрегацию;
- автоматически строить глоссарии, частотные словари употреблявшихся в тексте терминов, словосочетаний;
- компактно представлять содержание документа на экране в форме списка ключевых тем, затронутых в его тексте, или же в форме реферата — набора репрезентативных предложений из текста, содержащих упоминания о ключевых темах.
В качестве элементов информационного портрета текста рассматриваются имена упоминавшихся в нем событий и предметов.
События — это действия, процессы или состояния, которые именуются глаголами и отглагольными существительными, часто с дополнительными словами-распространителями, например: высокая инфляция, принять закон об отмене льгот, борьба с наводнением, бороться за права человека.
Предметы — это обычно участники событий – одушевленные и неодушевленные, природные и искусственные, материальные или идеальные, обозначаемые именными группами: вычислительная сеть, реки Камчатки,торговец спиртным. Сюда же относится разряд сущностей, которые находятся на границе между признаками и предметами: классическая борьба, туризм. Именованные сущности: персоны, организации, географические названия, артефакты — также входят в содержательный портрет (см. [упоминания персон и организаций]).
Прочие элементы содержания текста, не включаемые в содержательный портрет, — это либо чистые признаки, обозначаемые прилагательными, наречиями или адъективными существительными, либо элементы смысла, характеризующие позицию автора по отношению к описываемым предметам и событиям и выражающиеся разными языковыми средствами как лексическими (слова служебных частей речи, строевые глаголы), так и грамматическими (вид, время и залог глагола).
При формирования содержательного портрета текста выполняются следующие ключевые шаги:
- Преобразование каждого предложения текста в сеть синтактико-семантических отношений. Разбор предложения производится с учетом правил грамматики русского языка, моделей управления предикатами, законов семантического согласования. Учитываются разные стандарты и формы написания наименований организаций и персон, географических названий, дат, различных цифровых конструкций. Используются специальные алгоритмы анализа сочетаемости и склоняемости неизвестных слов по всему тексту. Проводится анализ референции слов в тексте, в том числе отождествление различных обозначений персон и (полных, кратких, косвенных и местоименных обозначений), отождествление имен нарицательных — полных и кратких словосочетаний и слов.
- Синтез всех элементов содержательного портрета текста — словосочетаний, обозначающих события и предметы, описанные в тексте. Применяются правила эксплицирования элементов смысла из семантической сети, тезаурус.
- Для каждого элемента определяется его самостоятельность — употреблялось ли данное слово/словосочетание независимо или только в составе другого словосочетания. Это позволяет очистить портрет от “шумовых” элементов, не имеющих в тексте самостоятельного значения. Так, слова “президент”, “Россия”, “президент России”, употреблявшееся только в словосочетании “указ президента России”, своего значения в тексте не имеют и не должны учитываться при сравнении этого документа с другими, либо должны учитываться в последнюю очередь.
- Числовая оценка веса каждого элемента в портрете текста — коммуникативного ранга, который отражается в позиции в синтаксической структуре предложения (член предложения и тип клаузы). Так, позиция подлежащего соответствует основному фокусу внимания автора. Наличие этой оценки в сочетании с частотой встречаемости и близостью к началу документа позволяют сформировать содержательный портрет текста с той или степенью подробности, включая в него более или менее значимые элементы.
- Построение общего и тематических рефератов текста с заданной степенью подробности. Тематический реферат — это набор предложений, содержащих упоминания об одном элементе содержательного портрета текста. В тематический реферат в первую очередь включаются те предложения, в которых упоминаемый элемент имеет наибольший коммуникативный ранг — допустим, является подлежащим в активном залоге. В общий реферат включаются предложения, содержащие наиболее существенные упоминания о наиболее значимых элементах текста.
Пример построения содержательного портрета текста “Разрабатывая с 1999 года различные лингвистические технологии, компания “ЭР СИ О” выпускает серию продуктов для компьютерного анализа текста“.
Категория | Элемент портрета текста | Значимость |
Самостоятельные | ||
Организация | “ЭР СИ О” | 100 |
Событие | ВЫПУСК ПРОДУКТА | 64 |
Событие | РАЗРАБОТКА ЛИНГВИСТИЧЕСКОЙ ТЕХНОЛОГИИ | 40 |
Событие | КОМПЬЮТЕРНЫЙ АНАЛИЗ ТЕКСТА | 24 |
Производные | ||
Предмет | ПРОДУКТ | 25 |
Предмет | ЛИНГВИСТИЧЕСКАЯ ТЕХНОЛОГИЯ | 24 |
Событие | АНАЛИЗ ТЕКСТА | 16 |
Событие | КОМПЬЮТЕРНЫЙ АНАЛИЗ | 16 |
Предмет | ТЕХНОЛОГИЯ | 12 |
Предмет | ТЕКСТ | 9 |
В таблице приведены все элементы содержательного портрета текста в порядке убывания значимости. Производные элементы входят в состав самостоятельных, ввиду чего самостоятельные элементы хорошо использовать для представления содержания текста человеку, а производные — для компьютерной обработки (поиска документов по теме, сравнения документов по содержанию).
Продукты, использующие технологию: