• 01.05.2014

Лингвистический анализ содержания текста позволяет выявить связи между описанными в нем событиями, именованными и неименованными сущностями. Сеть связей, построенная между интересующими типами объектов по коллекции текстовых документов:
А) помогает при поиске заранее неизвестной информации, позволяя выдать пользователю возможные “подсказки” для уточнения запроса. Например, в ответ на запрос нефть можно получить список событий и предметов, связанных с нефтью в тексте документов, по которым ведется поиск: добыча нефти, экспорт нефти, государственная нефтяная компания Азербайджана,Азербайджан, Ангарский НХК, топливные компании, ЮКОС и т.п.
Б) служит основой для решения различных аналитических задач, позволяя исследовать окружение выбранного объекта, находить цепочки и группы связности во множестве объектов.

Как устанавливается связь? Показателем наличия некоторой связи между предметами является описание их участия в одном событии, процессе, действии. В простейшем случае такая ситуация выражается в подчинении имен существительных, называющих предметы, одному глаголу или отглагольному существительному в тексте: Юкос перерабатывает нефть,переработка нефти Юкосом, добыча нефти в Азербайджане. Точно установить такие связи в осложненных предложениях русского и английского языков позволяет синтактико-семантический анализ текста: занимаясь глубокой переработкой нефтепродуктов и сырой нефти, добываемых в Кавказском регионе, Лукойл и Юкос сегодня достигли….

Теоретико-множественное объединение всех выделенных в тексте троек {объект, связь, объект} формирует общую сеть связей текста. В качестве характеристик связей, если требуется, можно использовать глаголы или отглагольные существительные.

Разработанные нами и другими производителями ПО средства отображения семантических сетей предоставляют удобную форму навигации по информационному массиву. Она позволяет перемещаться вдоль связанных цепочек узлов и находить документы, относящиеся к узлам и связям.

На рисунке ниже представлен фрагмент семантической сети, построенной в системе Convera с использованием нашего решения RCO TopNet.

t2

Следующий рисунок содержит фрагмент сети, построенной по запросу “Норникель” в системе бизнес-разведки “Аналитический курьер”, также использовавшей в одной из ранних версий решение RCO TopNet.

t3

На обоих рисунках размер шара, соответствующего теме, пропорционален общему количеству документов по теме в коллекции. Яркость связи пропорциональная силе связи между парой тем — количеству документов, в которых эта связь проявлялась. Яркость окраски шаров, соответствующих найденным темам, пропорциональна релевантности (близости) тем к запросу.

Для удобства восприятия темы на картинке располагаются таким образом, чтобы попарные расстояния между ними отражали силу связи. Алгоритм оптимального отображения сети на плоскость реализует один из методов решения известной в математике задаче многомерного шкалирования. Он позволяет по заданной матрице попарных расстояний между объектами (весов связей) построить их размещение в пространстве заданной размерности (в данном случае — на плоскости).

Большие сети связей могут быть еще эффективнее визуализированы при помощи профессиональных систем визуализации, например i2, VisuaLinks, IRule.

Продукты, использующие технологию: