• 25.07.2008

В версии 2.0 ядра пакета – библиотеке RCOFXRu.dll – реализованы следующие обновления:

Добавлены новые настройки, позволяющие регулировать механизм выделения фреймов, в частности, определять условия обработки неоднозначных ситуаций, одновременно относимых к фреймам различных классов.

Реализован новый механизм установления анафорических связей между именами нарицательными (в предыдущей версии анафорические связи устанавливались только между именами собственными, личными местоимениями). Теперь для сущности, обозначенной в тексте именем существительным, устанавливается ссылка на ее предыдущее упоминание в тексте – кореферентную сущность, например: … коммерческое образование …<- … образование …; … депутат Думы … <- … этот депутат … ; … взорвать мост … <- … взрыв …

Встроенные средства обеспечивают использование анафорических связей при синтезе имен сущностей для получения более развернутых словосочетаний (этот налог = новый налог на имущество, введение этого налога = введение нового налога на имущество, реформа = реформировать сельское хозяйство).

При поиске ситуаций теперь находятся дополнительные участники, связанные с кореферентными сущностями в других предложениях текста. Сущности, заполняющие слоты фрейма, теперь могут находиться в различных предложениях.

Существенно переработаны алгоритмы обработки имен собственных и снятия омонимии, что обеспечило повышение полноты и точности выделения персон, организаций, географических и прочих именованных объектов. Теперь при идентификации слов и словосочетаний, похожих на имена собственные (написанных с большой буквы, в кавычках и т.п.), используется информация о контексте их упоминания в рамках всего текста (в прошлой версии библиотеки учитывались только предыдущие упоминания по тексту). Реализован многопроходный механизм контекстно-зависимой идентификации, когда на первой фазе анализа всего текста выделяются наиболее достоверные имена (В.А. Волков, ООО “Красные ворота”), а на каждой последующей фазе – все менее достоверные (Владимир Волков, компания Ромашка, мэр Лужков, город Владимир, “Красные ворота”), завершая этот процесс идентификацией отдельных слов (Волков, Владимир, Ромашка, Лужков), причем на каждой фазе используется информация об именах, идентифицированных на предыдущих фазах в рамках целого текста.

С подробным описанием продукта можно ознакомиться здесь.