Ключевой возможностью ИАС «АРИОН» является проблемный анализ текстов на естественном языке.
Что такое проблемный анализ текстов?Проблемный (семантический) анализ текстов - это извлечение из них сведений об интересующих объектах, фактах и событиях. Полученные таким образом сведения представляются в формализованной форме в виде объектов предметной области и связей между ними, после чего поступают на обработку традиционными методами в зависимости от текущих задач.
Зачем это нужно?Мы привыкли к тому, что компьютеры, как правило, работают со структурированными и формализованными данными. Это могут быть базы данных с таблицами и полями, электронные формы и карточки объектов, тексты программ на формальных языках и инструкции (программы) в машинных кодах. Вместе с тем, для человека наиболее естественной формой представления информации является естественный язык, то есть применительно к компьютеру, это записанный в документ текст. Какие возможности по обработке текста нам предоставляют современные информационные средства? Это, прежде всего, хранение, передача, поиск и проверка орфографии. Но все эти сервисы относятся непосредственно к текстовому представлению (символам, в лучшем случае – словам и фразам), а не к информации, которая в этих текстах содержится! В итоге складывается ситуация, когда в организации накоплен значительный объем текстовых документов, но информация, содержащаяся в них, не доступна для обработки классическими автоматизированными средствами. Семантический анализ текстов позволяет эффективно использовать эти информационные ресурсы для решения различных задач.
Как это работает?В состав ИАС «АРИОН» входит специальный модуль – Лингвистический процессор АРИОН-ЛИНГВО. На вход Лингвистический процессор получает текстовый документ. Результатом его работы является массив связной фактографической информации, который далее передается в модуль идентификации для выделения похожих и слияния совпадающих объектов.
Выделение фактографической информации осуществляется с помощью специализированных правил, которые описывают процедуры выделения объектов и связей на внутрисистемном языке Лингвистического процессора, построенном на базе XML.
Лингвистический процессор выполняет обработку полнотекстовой информации в соответствии со следующими этапами:

На этапе графематического анализа текст разбивается на отдельные образцы специальных типов: «слово_в_кавычках», «слово», «знак_пунктуации», «блок_чисел», «блок_буквенно_цифровой» и т.д.
На этапе морфологического анализа для каждого слова записывается его порядковый номер в тексте, начальная форма, часть речи, форма, в которой слово встретилось в тексте, морфологические признаки. Результатом морфологического анализа является сеть, состоящая из отдельных лексем с порядковым номером в тексте.
В процессе синтаксического анализа выявляется структура предложения и зависимости между его членами (словами).
Выделение фактографической информации заключается в выделении словарных понятий, разборе объектов предметной области и создании связей между выделенными объектами.
Что является результатом разбора?Результатом работы Лингвистического процессора является набор объектов и связей между ними, который традиционно представляют в виде так называемой фактографической (семантической) сети.

Данная форма визуализации является удобной и естественной для дальнейшей работы пользователя с выделенной информацией. Такой интерфейс интуитивно понятен и не требует длительного освоения и обучения.
Каждый объект имеет набор атрибутов, заданных в рамках описания предметной области. Атрибуты – это характеристики объекта, например, «Имя», «Фамилия» и «Дата рождения» для объекта «Человек».
Связь имеет смысловую окраску и тип.
Как это можно использовать?Основные применения Лингвистического процессора описаны здесь.
Входные данные, как правило, поступают из следующих источников:
- электронный архив и система электронного документооборота организации
- почтовый сервер организации
- новостные СМИ и ленты информагентств
- Интернет/Интранет сайты компании
- внешние Интернет-сайты
- накопленные текстовые массивы
SyTech - разработка программного обеспечения: аналитические системы,
электронный документооборот, корпоративные системы, информационные
порталы.
|