Sytech
О компании
ИАС «АРИОН»
Применение
Мониторинг СМИ
Обработка обращений
Расследование происшествий
Формирование онтологий
Ведение досье
Анализ деятельности организации
Обработка больших информационных массивов
Подготовка ответов на запросы
Решения
Контакты
English version Тел.: +7 (495) 984 6336 | E-mail: info@sytech.ru 
Главная страница
Поиск    Искать
Главная / Практическое применение /

Формирование онтологий

Формирование онтологий

 

Формирование онтологий предметных областейФормирование онтологий предметных областей предполагает выделение из массива полнотекстовой информации значимых объектов для формирования справочников предметных областей. В настоящее время во многих организациях накоплены значительные текстовые массивы, и выделение из них значимых объектов вручную является практически нереализуемой задачей.

Для построения справочника в системе «АРИОН» формальным образом описывается требуемая информационная структура объекта и возможные варианты его полнотекстового представления. Далее формируются внутренние правила обработки информации, предназначенные для выделения всего перечня объектов определенного ранее типа.

Процедура формирования правил обычно состоит из следующих этапов:

  • анализ предметной области экспертом;
  • подготовка источников информации;
  • формирование типовой модели информационного объекта;
  • формализация предметной области посредством выделения набора типовых объектов и связей;
  • формирование эталонного информационного массива.

Процедура формирования правил

Правила, прошедшие первоначальное тестирование, апробируются на реальных информационных массивах. Данная работа, как правило, выполняется разработчиком совместно с экспертом и на данном этапе осуществляется требуемая доработка правил. После того, как достигнуто требуемое качество обработки данных, выполняется требуемая доработка для достижения необходимой скорости обработки данных.

Пример применения технологии формирования онтологийВ качестве примера можно взять следующую задачу: имеется массив договоров в форме бумажных и электронных текстовых документов; необходимо сформировать справочник всех организаций, которые в данных договорах участвуют.

Для этого бумажные документы переводится в электронный вид с помощью средств сканирования и распознавания документов. Формируются исходные словари для организационно правых форм организаций, шаблоны ее реквизитов (ИНН, КПП и т.д.) и правила выделения значимых данных из текстов.

В результате выделения организаций из всего массива текстов с помощью лингвистического процессора мы получим полный список участников договоров. Далее, выполнив процедуру идентификации, мы получим перечень организаций, в котором нет повторений, то есть требуемый справочник. Также может решаться и более сложная задача построения двух связанных справочников: организаций и руководителей.

Полученный справочник организаций может быть использован как словарь во внутренних правилах системы «АРИОН», что позволит в дальнейшем выделять данные организации по их названиям из других текстов (например, рекламных статей).

Другими примерами применения данного режима являются:

  • построение иерархической организационно-штатной структуры предприятия на основании должностных инструкций;
  • формирование реестра организаций, упоминающихся в некотором документе (например, аналитическом отчете).

SyTech - разработка программного обеспечения: аналитические системы, электронный документооборот, корпоративные системы, информационные порталы.