• 29.09.2008
Компания “ЭР СИ О” анонсирует UIMA-совместимые аннотаторы, предназначенные для расширения возможностей IBM OmniFind в области семантического поиска и анализа неструктурированной текстовой информации.Корпоративная поисковая система IBM OmniFind включает реализацию UIMA (Unstructured Information Management Architecture), позволяющую подключать дополнительные модули обработки текста (т.н. “аннотаторы”). Использование аннотаторов, извлекающих семантические данные из текста в процессе их обработки в среде OmniFind, позволяет использовать эти данные как при поиске (поиск по семантическим атрибутам), так и для последующего анализа внешними BI-системами.Линейка продуктов RCO для IBM OmniFind включает следующие аннотаторы:

Person annotator Выделяет упоминания о физических лицах из текста.
Нормализует словоформы и сокращения. Выделяет и связывает с физическим лицом упомянутые в тексте его дополнительные атрибуты и факты:

  • Дата рождения;
  • Место рождения;
  • Гражданство;
  • Адреса проживания;
  • ИНН;
  • Паспортные данные;
  • Родственники;
  • Образование;
  • Работа, должности;
  • Имущество в собственности;
  • Источники дохода;
  • и ряд других
Org annotator Извлекает упоминания об организациях из документа. Нормализует словоформы и сокращения названий юридических лиц. Выделяет, разбирает, нормализует и связывает с организацией упомянутые в тексте факты и ее дополнительные атрибуты:

  • Юридический и физический адрес;
  • Банковские реквизиты;
  • Регистрационные атрибуты (ИНН, ОГРН, ОКПО);
  • Учредители;
  • Руководство;
  • Уставной капитал;
  • Оборот;
  • Род деятельности;
  • Лицензии;
  • Торговые марки и бренды;
  • Филиалы и отделения;
  • и ряд других.
Geo annotator Извлекает из документа компоненты географической и адресной информации.
Entity annotator Извлекает из документа, разбирает и нормализует различные сущности:

  • Числительные;
  • Денежные суммы;
  • Даты и обстоятельства времени;
  • Именованные объекты (артефакты)
  • Марки автомобилей;
  • Регистрационные номера автомобилей;
  • Электронные адреса;
  • Телефонные номера;
  • и ряд других.
Themes annotator На основе лексических профилей, описывающих заданную тематику, выдает перечень тем, к которым относится документ. В качестве дополнительной информации по каждой теме выдается краткий тематический реферат, а также координаты слов и словосочетаний (для подсветки) благодаря которым документ был отнесен к теме.
Business facts annotator Извлекает из текста факты, определяет и нормализует их фигурантов. Поддерживает несколько десятков типов событий и фактов (бизнес-тематика) с возможностью расширения, например:

  • Договора;
  • Предприятия: экономические показатели;
  • Купля-продажа: акции;
  • Владение собственностью;
  • Выпуск товаров;
  • Предоставление услуг;
  • Поставки сырья, комплектующих;
  • Партнерство;
  • IPO.
Social facts annotator Аналог Business facts annotator для общественно-политической и социальной тематики, включает несколько десятков типов событий и фактов с возможностью расширения:

  • Выборы;
  • Политические акции;
  • Письма, обращения;
  • Встреча;
  • Путешествия;
  • Конфликты;
  • Суды, расследования, аресты;
  • События;
  • Мероприятия.

Линейка аннотаторов RCO представлена в виде модулей, полностью готовых к подключению к IBM OmniFind стандартными средствами (с использованием интерфейса управления OmniFind).