При создании электронных архивов документов традиционно встает задача упорядочения информационного массива, когда документы, близкие по определенным содержательным критериям, объединяются в группы, называемые категориями, рубриками, тематическими подборками, кластерами, сюжетами и т.п.
В таком процессе выделяют три составляющие:
А) Формирование системы категорий — построение рубрикатора, классификатора, обычно организованного в иерархию;
Б) Формирование описаний категорий — профилей. Традиционно используют два вида профилей: набор терминов с весовыми коэффициентами, характеризующими относительную значимость терминов для рубрики — лексический профиль; набор поисковых запросов, которым должны удовлетворять тексты, относящиеся к категории;
В) Отнесение документов к релевантным категориям на основании сравнения текстов с профилями категорий.
Составляющая (А) обычно реализуется экспертами без участия машины. В некоторых случаях для формирования категорий применяется машинный анализ текстов, в котором используются математические алгоритмы, называемые алгоритмами кластерного анализа.
Математические алгоритмы, реализующие составляющие (Б) и (В), обычно называют алгоритмами автоматической классификации. При этом составляющую (Б) принято называть обучением классификатора, а составляющую (В) собственно классификацией.
Уже более десяти лет специалисты ЭР СИ О занимаются разработкой самых разных систем автоматической классификации текстов для своих заказчиков, экспериментально исследуют комбинации различных математических методов и лингвистических моделей, накапливают разнообразные программные компоненты для построения комплексных решений к информационно-поисковым и информационно-аналитическим системам.
Для формирования лексических профилей нами используется лучший лингвистический анализатор русского текста — библиотека RCO Fact Extractor SDK, что обеспечивает дополнительное конкурентное преимущество.
Вот наиболее типовые из внедряемых нами решений:
- Библиотека RCO Text Categorization Engine позволяет включить возможности автоматической категоризациии текстов в любые приложения. Категории описываются лексическими профилями, которые содержат термины, задаваемые в виде поисковых выражений с использованием операторов И, ИЛИ, НЕ, РЯДОМ, ВСЕ_ФОРМЫ_СЛОВА. Библиотека позволяет эффективно вычислять близость текста к профилям, учитывать русскую морфологию, получать количество вхождений терминов в текст и позиции в тексте. Помимо тематической категоризациями, библиотека может применяться для тематического таргетинга в баннерных сетях, мониторинга ключевой лексики в системах мониторинга и сбора информации.
- RCO Text Categorization Engine — программный комплекс для тематической категоризации текстов на базе СУБД Oracle. Решение под Oracle строится на основе библиотеки категоризациии текстов RCO Text Categorization Engine и библиотеки лингвистического анализа текста RCO Fact Extractor SDK, включает в себя набор объектов БД и предоставляет PL/SQL-API с полным комплексом функций для работы с автоматическим классификатором. Для описания категорий используются лексические профили с возможностью их автоматического построения на основе анализа текстов-примеров. Дополнительно существует автоматизированные рабочие места (АРМ), реализующее оригинальную методику автоматизированной настройки профилей и коррекции обучающей выборки.
- RCO News Clustering Engine — программный комплекс для агрегации новостных сообщений на базе СУБД Oracle. Производится связывание сообщений, описывающих одни и те же события, в кластеры (сюжеты), и ведение сюжетной линии во времени.
Наши экспериментальные исследования в области классификации нормативно-правовых документов, веб-ресурсов, новостных потоков и др. ежегодно представляются на Российском Семинаре по Оценке Методов Информационного Поиска (РОМИП) с момента появления семинара в 2003 году.