Содержательный портрет текста

При обработке текста в информационно-поисковых системах чаще всего возникает задача построения информационного портрета документа, который характеризовал бы в компактной форме основное содержание текста — описанные в нем предметы, лица, ситуации и…

Подробнее

Упоминания персон и организаций

Объектом интереса в задачах компьютерной разведки чаще всего являются персоны или организации. Распознавание имен таких объектов, упоминавшихся в документе, выделение всех упоминаний об интересующих объектах из «текстовой помойки» являются необходимыми…

Подробнее

Упоминания особых объектов

Не только в базах данных, но и в текстах на естественном языке могут встречаться упоминания особых объектов, отличающихся специального вида написанием — наименования почтовых адресов, различных видов идентификационных и паспортных данных,…

Подробнее

Связи между объектами

Лингвистический анализ содержания текста позволяет выявить связи между описанными в нем событиями, именованными и неименованными сущностями. Сеть связей, построенная между интересующими типами объектов по коллекции текстовых документов: А) помогает при…

Подробнее

Распознавание ситуаций

Распознавание ситуаций — событий или фактов заданного типа — необходимо для компьютерной разведки, например, для подбора материала к досье на заданную персону или для мониторинга выбранных сторон деятельности организации, освещаемых в прессе.…

Подробнее

Отношение к объекту

Речь идет о задаче компьютерного анализа текста на предмет выражения в нем положительного или отрицательного отношения к объекту (персоне, организации, товару): “кого и за что хвалят или ругают?”. В России…

Подробнее

Анализ предметной области

Для эффективного решения задач автоматизированной обработки информации из выбранного типа информационных источников необходим предварительный анализ предметной области с последующей настройкой информационной системы. В результате такого анализа общее лингвистическое обеспечение (словари…

Подробнее

Обработка знаний

Сегодня темой многих исследований является построение автоматизированных человеко-машинных систем, которые реализуют комплекс функций, обозначаемых словами “извлечение/управление/обработка знаний”. В большинстве случаев под знаниями понимается нечто, выражающееся на естественном языке и изначально…

Подробнее

Очистка информации в базах данных

Задача обеспечения качества информации в базе данных является типовой для больших коммерческих компаний (финансовых, страховых, телекоммуникационных, поставщиков услуг), а также учреждений, занимающихся проблемами безопасности, правоохранной деятельностью, ведущих различного рода расследования.…

Подробнее

Разбор частично-структурированного текста

На практике часть интересующей информации в текстовых документах уже бывает представлена в структурированном виде — например, описание проектов на web-сайте может содержать, помимо полнотекстовой аннотации к проекту, еще такие выделенные поля,…

Подробнее

Классификация текстов

При создании электронных архивов документов традиционно встает задача упорядочения информационного массива, когда документы, близкие по определенным содержательным критериям, объединяются в группы, называемые категориями, рубриками, тематическими подборками, кластерами, сюжетами и т.п.…

Подробнее

Поиск похожих фрагментов

Данный вид поиска позволяет для заданного текста найти другие тексты, содержащие фрагменты, похожие на какие-либо фрагменты заданного текста. Оригинальный алгоритм поиска устойчив к изменениям текста и способен найти не точное…

Подробнее

Поиск с опечатками

Поиск с опечатками позволяет расширять запрос близкими по написанию словами, содержащимися в коллекции документов, по которым ведется поиск. Такой поиск целесообразно применять как при поиске документов, содержащих слова с опечатками,…

Подробнее

Поиск на естественном языке

Языки запросов современных поисковых машин, используемых для поиска текстов в базах данных или полнотекстовых хранилищах документов, разрешают задавать различные ограничения на искомые комбинации слов в тексте, определяя обязательность или необязательность…

Подробнее