Компания “ЭР СИ О” анонсирует UIMA-совместимые аннотаторы, предназначенные для расширения возможностей IBM OmniFind в области семантического поиска и анализа неструктурированной текстовой информации.Корпоративная поисковая система IBM OmniFind включает реализацию UIMA (Unstructured Information Management Architecture), позволяющую подключать дополнительные модули обработки текста (т.н. “аннотаторы”). Использование аннотаторов, извлекающих семантические данные из текста в процессе их обработки в среде OmniFind, позволяет использовать эти данные как при поиске (поиск по семантическим атрибутам), так и для последующего анализа внешними BI-системами.Линейка продуктов RCO для IBM OmniFind включает следующие аннотаторы:
Person annotator |
Выделяет упоминания о физических лицах из текста.
Нормализует словоформы и сокращения. Выделяет и связывает с физическим лицом упомянутые в тексте его дополнительные атрибуты и факты:
- Дата рождения;
- Место рождения;
- Гражданство;
- Адреса проживания;
- ИНН;
- Паспортные данные;
- Родственники;
- Образование;
- Работа, должности;
- Имущество в собственности;
- Источники дохода;
- и ряд других
|
Org annotator |
Извлекает упоминания об организациях из документа. Нормализует словоформы и сокращения названий юридических лиц. Выделяет, разбирает, нормализует и связывает с организацией упомянутые в тексте факты и ее дополнительные атрибуты:
- Юридический и физический адрес;
- Банковские реквизиты;
- Регистрационные атрибуты (ИНН, ОГРН, ОКПО);
- Учредители;
- Руководство;
- Уставной капитал;
- Оборот;
- Род деятельности;
- Лицензии;
- Торговые марки и бренды;
- Филиалы и отделения;
- и ряд других.
|
Geo annotator |
Извлекает из документа компоненты географической и адресной информации. |
Entity annotator |
Извлекает из документа, разбирает и нормализует различные сущности:
- Числительные;
- Денежные суммы;
- Даты и обстоятельства времени;
- Именованные объекты (артефакты)
- Марки автомобилей;
- Регистрационные номера автомобилей;
- Электронные адреса;
- Телефонные номера;
- и ряд других.
|
Themes annotator |
На основе лексических профилей, описывающих заданную тематику, выдает перечень тем, к которым относится документ. В качестве дополнительной информации по каждой теме выдается краткий тематический реферат, а также координаты слов и словосочетаний (для подсветки) благодаря которым документ был отнесен к теме. |
Business facts annotator |
Извлекает из текста факты, определяет и нормализует их фигурантов. Поддерживает несколько десятков типов событий и фактов (бизнес-тематика) с возможностью расширения, например:
- Договора;
- Предприятия: экономические показатели;
- Купля-продажа: акции;
- Владение собственностью;
- Выпуск товаров;
- Предоставление услуг;
- Поставки сырья, комплектующих;
- Партнерство;
- IPO.
|
Social facts annotator |
Аналог Business facts annotator для общественно-политической и социальной тематики, включает несколько десятков типов событий и фактов с возможностью расширения:
- Выборы;
- Политические акции;
- Письма, обращения;
- Встреча;
- Путешествия;
- Конфликты;
- Суды, расследования, аресты;
- События;
- Мероприятия.
|
Линейка аннотаторов RCO представлена в виде модулей, полностью готовых к подключению к IBM OmniFind стандартными средствами (с использованием интерфейса управления OmniFind). |