Решение “Мониторинг СМИ” предназначено для работы как с архивами СМИ, так и с текущими новостными потоками, для решения следующих типовых задач:
В данном решении используются следующие базовые технологии RCO:
- Содержательный портрет текста: Построение информационного портрета документа, который характеризовал бы в компактной форме основное содержание текста – описанные в нем предметы, лица, ситуации и т.п. Позволяет находить похожие документы, производить автоматическую категоризацию и кластеризацию документов; автоматически стоить глоссарии, частотные словари терминов;
- Упоминания персон и организаций: Распознавание и разбор наименований объектов с выделением всех элементов наименования (ФИО, ОПФ, форма хозяйственной деятельности, название, география и т.д.), отождествление различных вариантов наименования одного и того же объекта в тексте, в том числе косвенных обозначений, не содержащих в себе имени собственного;
- Упоминания особых объектов: Распознавание объектов, отличающихся специального вида написанием – почтовые адреса, идентификационные и паспортные данные, марки товаров и модели устройств и т.п. Используется язык, который позволяет оперировать как формальными особенностями написания текста, так и всеми грамматическими атрибутами слов. Образцы сложных конструкций могут строиться иерархически, включая образцы более простых. Возможно, как бесконтекстное, так и контекстно-зависимое распознавание;
- Связи между объектами в тексте: Выявление связи между описанными в тексте событиями, именованными и неименованными сущностями. Сеть связей, построенная по коллекции документов, помогает при поиске заранее неизвестной информации, служит основой для решения различных аналитических задач;
- Распознавание ситуаций в тексте: Позволяет найти в тексте описания ситуаций нужного типа, выделить всех участников ситуации в соответствии с их ролями, классифицировать описания ситуаций, сгруппировав их по заданным критериям;
- Отношение к объекту в тексте: Анализ текста на предмет выражения в нем положительного или отрицательного отношения к объекту. Позволяет выявить как явную характеристику объекта с использованием тонально-окрашенной лексики, так и неявную характеристику объекта, связанную с упоминанием в тексте таких ситуаций, при восприятии которых возникает эмоциональная реакция;
- Категоризация текстов: Упорядочение информационного массива, когда документы, близкие по определенным содержательным критериям, объединяются в группы, называемые категориями, рубриками, тематическими подборками. Разработана методика формирования описаний категорий – профилей;
- Кластеризация новостей: Связывание сообщений, описывающих одни и те же события, в кластеры – сюжеты, и ведение сюжетной линии во времени. Построение обзорных рефератов, категоризация сюжетов, поиск похожих сюжетов. Значительно повышает эффективность анализа информационного потока;
В данном решении используются следующие продукты RCO: