Аннотация

Пакет для разработки программного обеспечения RCO TopExtractor SDK предназначен для решения задачи построения информационного портрета анализируемого текста в виде набора наиболее значимых терминов, общего реферата, рефератов по каждому термину, карты ассоциативных связей между терминами.

В качестве терминов информационного портрета используютсяся слова и словосочетания, обозначающие предметы и события. При этом в информационный портрет текста не включаются признаки, обозначаемые прилагательными, наречиями или адъективными существительными, либо элементы смысла, характеризующие позицию автора по отношению к описываемым предметам и событиям, и выражающиеся разными языковыми средствами, как лексическими (слова служебных частей речи, строевые глаголы), так и грамматическими (вид, время и залог глагола).

Характеристики

При оценке значимости термина используются такие факторы как:

  • самостоятельность термина ‑ употребляется в составе словосочетаний или независимо;
  • роль в предложении (например, позиция подлежащего соответствует основному фокусу внимания автора);
  • близость к началу документа;
  • частота встречаемости в тексте.

Рефераты составляются из наиболее репрезентативных предложений текста. При отборе предложений, в частности, учитывается количество и значимость входящих в них терминов. При этом по возможности обеспечивается связность и читабильность текста.

Карта ассоциативных связей между терминами строится на основе анализа собственных частот значимых терминов, а также частот их совместной встречаемости в предложениях текста.

Система лицензирования

Пакет лицензируется по количеству одновременно запускаемых экземпляров.

Примеры использования

  • Построение информационного портрета текста.

Требования

Пакет является расширением библиотеки RCO Fact Extractor SDK. Для работы пакета необходима предустановка библиотеки в любой редакции.