Российская компания ЭР СИ О, специализирующаяся на разработке компьютерных программ для анализа текстовой информации, объявляет о выходе новой версии пакета лингвистического анализа русского текста RCO Fact Extractor SDK 2.9.
В версии 2.9 ядра пакета — библиотеке RCOFXRu.dll — реализованы следующие обновления:
- Добавлен новый атрибут извлекаемых из текста сущностей — идентификатор референтности, который позволяет установить идентичность сущностей как в пределах одного текстового документа, так и в пределах множества текстов;
- Предусмотрено извлечение метаданных о возможных результатах анализа текста, получаемых на основе загруженной конфигурации лингвистических ресурсов;
- Существенно расширен язык описания конструкций в модуле RCO Pattern Extractor. Новые возможности предназначены, прежде всего, для разбора и нормализации записей в полях БД;
- В состав библиотеки включен новый модуль для извлечения информации из html и подобных таблиц — RCO Table Parser. Специальный язык, основанный на языке RCO Pattern Extractor, позволяет описывать правила связывания текста полей из различных столбцов таблиц для последующего извлечения информации в форме фреймов, аналогично извлекаемым из текста на естественном языке.