Sytech
О компании
ИАС «АРИОН»
Возможности
Анализ текстов на естественном языке
Экранные формы
Программная архитектура
Варианты применения
Библиотека
Применение
Решения
Контакты
English version Тел.: +7 (495) 984 6336 | E-mail: info@sytech.ru 
Главная страница
Поиск    Искать
Главная / ИАС "АРИОН" /

Анализ текстов на естественном языке

Анализ текстов на естественном языке

 

Ключевой возможностью ИАС «АРИОН» является проблемный анализ текстов на естественном языке.

Что такое проблемный анализ текстов?Проблемный (семантический) анализ текстов - это извлечение из них сведений об интересующих объектах, фактах и событиях. Полученные таким образом сведения представляются в формализованной форме в виде объектов предметной области и связей между ними, после чего поступают на обработку традиционными методами в зависимости от текущих задач.

Зачем это нужно?Мы привыкли к тому, что компьютеры, как правило, работают со структурированными и формализованными данными. Это могут быть базы данных с таблицами и полями, электронные формы и карточки объектов, тексты программ на формальных языках и инструкции (программы) в машинных кодах. Вместе с тем, для человека наиболее естественной формой представления информации является естественный язык, то есть применительно к компьютеру, это записанный в документ текст. Какие возможности по обработке текста нам предоставляют современные информационные средства? Это, прежде всего, хранение, передача, поиск и проверка орфографии. Но все эти сервисы относятся непосредственно к текстовому представлению (символам, в лучшем случае – словам и фразам), а не к информации, которая в этих текстах содержится! В итоге складывается ситуация, когда в организации накоплен значительный объем текстовых документов, но информация, содержащаяся в них, не доступна для обработки классическими автоматизированными средствами. Семантический анализ текстов позволяет эффективно использовать эти информационные ресурсы для решения различных задач.

Как это работает?В состав ИАС «АРИОН» входит специальный модуль – Лингвистический процессор АРИОН-ЛИНГВО. На вход Лингвистический процессор получает текстовый документ. Результатом его работы является массив связной фактографической информации, который далее передается в модуль идентификации для выделения похожих и слияния совпадающих объектов.

Выделение фактографической информации осуществляется с помощью специализированных правил, которые описывают процедуры выделения объектов и связей на внутрисистемном языке Лингвистического процессора, построенном на базе XML.

Лингвистический процессор выполняет обработку полнотекстовой информации в соответствии со следующими этапами:

На этапе графематического анализа текст разбивается на отдельные образцы специальных типов: «слово_в_кавычках», «слово», «знак_пунктуации», «блок_чисел», «блок_буквенно_цифровой» и т.д.

На этапе морфологического анализа для каждого слова записывается его порядковый номер в тексте, начальная форма, часть речи, форма, в которой слово встретилось в тексте, морфологические признаки. Результатом морфологического анализа является сеть, состоящая из отдельных лексем с порядковым номером в тексте.

В процессе синтаксического анализа выявляется структура предложения и зависимости между его членами (словами).

Выделение фактографической информации заключается в выделении словарных понятий, разборе объектов предметной области и создании связей между выделенными объектами.

Что является результатом разбора?Результатом работы Лингвистического процессора является набор объектов и связей между ними, который традиционно представляют в виде так называемой фактографической (семантической) сети.

Данная форма визуализации является удобной и естественной для дальнейшей работы пользователя с выделенной информацией. Такой интерфейс интуитивно понятен и не требует длительного освоения и обучения.

Каждый объект имеет набор атрибутов, заданных в рамках описания предметной области. Атрибуты – это характеристики объекта, например, «Имя», «Фамилия» и «Дата рождения» для объекта «Человек».

Связь имеет смысловую окраску и тип.

Как это можно использовать?Основные применения Лингвистического процессора описаны здесь.

Входные данные, как правило, поступают из следующих источников:

  • электронный архив и система электронного документооборота организации
  • почтовый сервер организации
  • новостные СМИ и ленты информагентств
  • Интернет/Интранет сайты компании
  • внешние Интернет-сайты
  • накопленные текстовые массивы

SyTech - разработка программного обеспечения: аналитические системы, электронный документооборот, корпоративные системы, информационные порталы.