Содержательный портрет текста
При обработке текста в информационно-поисковых системах чаще всего возникает задача построения информационного портрета документа, который характеризовал бы в компактной форме основное содержание текста — описанные в нем предметы, лица, ситуации и…
Подробнее →Упоминания персон и организаций
Объектом интереса в задачах компьютерной разведки чаще всего являются персоны или организации. Распознавание имен таких объектов, упоминавшихся в документе, выделение всех упоминаний об интересующих объектах из «текстовой помойки» являются необходимыми…
Подробнее →Упоминания особых объектов
Не только в базах данных, но и в текстах на естественном языке могут встречаться упоминания особых объектов, отличающихся специального вида написанием — наименования почтовых адресов, различных видов идентификационных и паспортных данных,…
Подробнее →Связи между объектами
Лингвистический анализ содержания текста позволяет выявить связи между описанными в нем событиями, именованными и неименованными сущностями. Сеть связей, построенная между интересующими типами объектов по коллекции текстовых документов: А) помогает при…
Подробнее →Распознавание ситуаций
Распознавание ситуаций — событий или фактов заданного типа — необходимо для компьютерной разведки, например, для подбора материала к досье на заданную персону или для мониторинга выбранных сторон деятельности организации, освещаемых в прессе.…
Подробнее →Отношение к объекту
Речь идет о задаче компьютерного анализа текста на предмет выражения в нем положительного или отрицательного отношения к объекту (персоне, организации, товару): “кого и за что хвалят или ругают?”. В России…
Подробнее →Анализ предметной области
Для эффективного решения задач автоматизированной обработки информации из выбранного типа информационных источников необходим предварительный анализ предметной области с последующей настройкой информационной системы. В результате такого анализа общее лингвистическое обеспечение (словари…
Подробнее →Обработка знаний
Сегодня темой многих исследований является построение автоматизированных человеко-машинных систем, которые реализуют комплекс функций, обозначаемых словами “извлечение/управление/обработка знаний”. В большинстве случаев под знаниями понимается нечто, выражающееся на естественном языке и изначально…
Подробнее →Очистка информации в базах данных
Задача обеспечения качества информации в базе данных является типовой для больших коммерческих компаний (финансовых, страховых, телекоммуникационных, поставщиков услуг), а также учреждений, занимающихся проблемами безопасности, правоохранной деятельностью, ведущих различного рода расследования.…
Подробнее →Разбор частично-структурированного текста
На практике часть интересующей информации в текстовых документах уже бывает представлена в структурированном виде — например, описание проектов на web-сайте может содержать, помимо полнотекстовой аннотации к проекту, еще такие выделенные поля,…
Подробнее →Классификация текстов
При создании электронных архивов документов традиционно встает задача упорядочения информационного массива, когда документы, близкие по определенным содержательным критериям, объединяются в группы, называемые категориями, рубриками, тематическими подборками, кластерами, сюжетами и т.п.…
Подробнее →Поиск похожих фрагментов
Данный вид поиска позволяет для заданного текста найти другие тексты, содержащие фрагменты, похожие на какие-либо фрагменты заданного текста. Оригинальный алгоритм поиска устойчив к изменениям текста и способен найти не точное…
Подробнее →Поиск с опечатками
Поиск с опечатками позволяет расширять запрос близкими по написанию словами, содержащимися в коллекции документов, по которым ведется поиск. Такой поиск целесообразно применять как при поиске документов, содержащих слова с опечатками,…
Подробнее →Поиск на естественном языке
Языки запросов современных поисковых машин, используемых для поиска текстов в базах данных или полнотекстовых хранилищах документов, разрешают задавать различные ограничения на искомые комбинации слов в тексте, определяя обязательность или необязательность…
Подробнее →