Аннотация
Пакет для разработки программного обеспечения RCO TopExtractor SDK предназначен для решения задачи построения информационного портрета анализируемого текста в виде набора наиболее значимых терминов, общего реферата, рефератов по каждому термину, карты ассоциативных связей между терминами.
В качестве терминов информационного портрета используютсяся слова и словосочетания, обозначающие предметы и события. При этом в информационный портрет текста не включаются признаки, обозначаемые прилагательными, наречиями или адъективными существительными, либо элементы смысла, характеризующие позицию автора по отношению к описываемым предметам и событиям, и выражающиеся разными языковыми средствами, как лексическими (слова служебных частей речи, строевые глаголы), так и грамматическими (вид, время и залог глагола).
Характеристики
При оценке значимости термина используются такие факторы как:
- самостоятельность термина ‑ употребляется в составе словосочетаний или независимо;
- роль в предложении (например, позиция подлежащего соответствует основному фокусу внимания автора);
- близость к началу документа;
-
частота встречаемости в тексте.
Рефераты составляются из наиболее репрезентативных предложений текста. При отборе предложений, в частности, учитывается количество и значимость входящих в них терминов. При этом по возможности обеспечивается связность и читабильность текста.
Карта ассоциативных связей между терминами строится на основе анализа собственных частот значимых терминов, а также частот их совместной встречаемости в предложениях текста.
Система лицензирования
Пакет лицензируется по количеству одновременно запускаемых экземпляров.
Примеры использования
- Построение информационного портрета текста.
Требования
Пакет является расширением библиотеки RCO Fact Extractor SDK. Для работы пакета необходима предустановка библиотеки в любой редакции.