В. В. Ланин, Л. Н. Лядова, П. А. Мальцев




Скачать 111.3 Kb.
Дата25.04.2016
Размер111.3 Kb.
В.В. Ланин, Л.Н. Лядова, П.А. Мальцев

Россия, Пермь,
Пермской государственный университет,
Государственный университет – Высшая школа экономики
(Пермский филиал)


Lanin@perm.ru, LyadovaLN@hse.perm.ru, Pavel_Maltsev@mail.ru

ТЕХНОЛОГИИ СБОРА И АНАЛИЗА ИНФОРМАЦИИ
ДЛЯ ИССЛЕДОВАТЕЛЬСКОГО ПОРТАЛА


Описывается подход к разработке средств сбора и анализа информации для исследовательского портала «Инновационное развитие регионов», предназначенного для организации коллективной работы исследователей, занимающихся изучением инновационной активности предприятий, территорий. Средства портала поддерживают поиск и анализ информации, создание и исследование моделей, публикацию результатов.

The approach to development of means of gathering and the analysis of the information for a research portal «Innovative Development of Regions» is described. This information system is intended for the organisation of collaboration of the researchers in studying of innovative activity of the enterprises and territories. The portal tools support information retrieval and analysis, creation and research of models, publication of research results.

Задача организации коллективной работы исследователей в области инновационного развития предприятий и территорий, их инновационной активности решается при создании исследовательского портала «Инновационное развитие регионов». Создаваемая информационно-аналитическая система должна обеспечить пользователей средствами интеллектуального поиска и анализа информации, относящейся к теме их исследований, а также средствами создания моделей инновационной активности, их изучения, публикации полученных результатов.

Подобные задачи решаются многими разработчиками. В представленном проекте предлагается подход, основанный на интеграции информационных технологий, программных инструментариев различного назначения в единую систему на основе знаний о предметной области.

Основа портала – хранилище данных, в котором накапливается как структурированная информация о предметной области, получаемая из гетерогенных источников или вводимая пользователями для исследования созданных ими моделей инновационного развития, анализа полученных результатов, так и документы в различных форматах, относящиеся к данной области, получаемые из различных источников. Документы, в которых отражаются результаты исследований пользователей портала, также размещаются в хранилище. При этом встает задача интеграции всей имеющейся информации, объединения ее в единую систему с установлением связей между данными и документами.

Решение поставленной задачи требует выполнения интеллектуального поиска и анализа документов, их классификации и каталогизации, извлечения из них необходимой информации в пригодной для обработки форме. Поиск информации осуществляется на основе моделей предметной области, построенных пользователями. Такой подход реализуется многими разработчиками [2, 3, 12, 13]. Применение онтологического подхода позволяет существенно снизить трудоемкость поиска и обработки информации по запросам пользователей, ее анализа и возможности использования в исследованиях. С другой стороны, полученная в результате поиска и анализа документов информация может использоваться исследователями для усовершенствования, уточнения моделей предметной области, построенных ими. Для реализации этой возможности в системах, основанных на онтологическом подходе, должна решаться задача автоматизации онтологического инжиниринга [1]. Таким образом, появляется основа для создания интеллектуальной системы с высокой степенью обратной связи. Ориентация на знания является базовым механизмом функционирования разрабатываемого портала, что позволяет комплексно решать поставленные задачи.

Технологии поиска и анализа данных основываются на использовании онтологического и агентного подходов [5 6]. Онтологии представляют собой модели предметной области, создавая их, пользователи отражают в них свое представление о прикладной области, настраивают систему для решения своих задач, в частности, задачи информационного поиска. Чтобы интегрировать все подсистемы портала, построенные модели должны управлять функционированием всей системы. Так как модели могут модифицироваться в ходе работы пользователей, информационная система должна работать в режиме их интерпретации, что обеспечивает максимальную гибкость, адаптируемость информационной системы. Эти характеристики системы обеспечиваются при использовании для ее разработки инструментальных средств, CASE-инструментария, основанного на технологии DSM (Domain specific Modeling) с интерпретацией (мета)моделей [7].

Чтобы обеспечить возможность работы пользователей портала в привычных для них терминах предметной области, учесть специфику их потребностей, необходимо предоставить им средства, позволяющие самостоятельно разрабатывать модели и настраивать их. Описание моделей предполагает использование формального языка, настраиваемого на конкретную предметную область. Эта задача решается при включении в состав системы языкового инструментария, позволяющего создавать такие предметно-зависимые языки (DSL, Domain Specific Languages). Инструментарий для создания предметно-ориентированных языков – основа для разработки моделей предметных областей, управляющих функционированием программных компонентов системы [8, 14].

Языковой инструментарий предназначен для создания DSL. Каждый язык – это метамодель, которая используется для создания модели в соответствующей предметной области. Чтобы обеспечить интерпретацию моделей предметных областей, созданных пользователями на разработанных для этого языках DSL, они переводятся в модели базовых уровней, описывающие модель состояния предметной области на общем для всех базовом языке, т.е. выполняется вертикальная трансформация (трансляция) моделей.

Пользователи системы, работающие со своими моделями, могут обмениваться не только документами и данными, но и предлагать для исследования свои модели, интегрировать их. При этом может потребоваться горизонтальная трансформация моделей, их перевод с одного языка на другой.

Все эти задачи решаются на базе единой DSM-платформы, позволяющей создавать как визуальные языки, предназначенные для наглядного представления и редактирования моделей онтологического уровня пользователями, так и текстовые языки, с помощью которых может быть реализована «нестандартная» логика, специфические правила предметной области, дополняющие визуальные средства разработки моделей.

Задачи извлечения информации из текста решаются во многих работах [4, 13]. Построенные модели позволяют решать задачи информационного поиска, интеллектуального анализа документов с учетом специфики описанной пользователем предметной области, извлекать из них новую информацию, факты для исследования и уточнения моделей. Реализация этих средств позволяет с большей эффективностью организовать работу пользователей портала [5, 6]. При работе с порталом пользователи получают эффективные интеллектуальные средства поиска информации на основе семантической индексации, автоматической классификации и каталогизации найденных документов с построением семантических связей между ними, автоматического реферирования документов с использованием знаний. Используются также средства структурного анализа документов.

В качестве основы исследовательского портала должно быть создано информационное ядро дисциплины, которую он представляет. Это ядро описывается моделями базовых уровней, которые непосредственно интерпретируются программным обеспечением портала. Модели базовых уровней позволяют описать «ядро» портала, базовые понятия его предметной области, а также сгенерировать и настроить интерфейс пользователя и сформировать базу данных портала. Онтологии располагаются на трех уровнях репозитария. На первом уровне расположены онтологии, описывающие объекты, используемые в конкретной системе и учитывающие ее особенности. На втором уровне описываются объекты, инвариантные к предметной области. Объекты третьего уровня описывают наиболее общие понятия и аксиомы, с помощью которых описываются объекты других уровней.

Портал создается как «саморазвивающийся» и «самоподдерживающийся» ресурс: развитие портала, расширение его ядра и наполнение новыми ресурсами, как и управление, ложится на самих пользователей. На основе ядра, предоставляющего исследователям базовую информацию и набор сервисов, должны развиваться информационные ресурсы, создаваемые пользователями портала в ходе их исследований. Развитие портала осуществляется через создание многоуровневых моделей предметных областей, разрабатываемых пользователями на основе моделей базовых уровней с помощью языкового инструментария портала. Каждый пользователь создает свои модели и вносит информацию о состоянии области своих исследований в хранилище данных портала. Это могут быть как подготовленные и опубликованные на портале документы, так и созданные модели инновационного развития, инструменты их анализа, средства, которые дают возможность проведения исследований, а также данные о развитии конкретных регионов, отдельных территорий и предприятий, позволяющие исследовать модели, провести их апробацию.

Проект создания портала «Инновационное развитие регионов» ставит задачу разработки информационно-аналитической системы, реализующей сбор, хранение, представление и анализ разнородных данных об инновационной активности. При разработке портала особенно важно иметь инструмент, позволяющий извлечь максимум новых знаний из всего богатства данных, накопленных в хранилище портала.

Пользователь портала, решая поставленные задачи, может задать вопрос: «Как связанны между собой факты, записи о которых имеются в хранилище данных?». Современные методы интеллектуального анализа данных позволяют определить лишь характер ранее выявленной связи, таким образом, само наличие некой связи между событиями должно быть установлено заранее. Гораздо полезнее и удобнее для пользователя иметь средство, которое позволяло бы обнаруживать новые связи или проверять гипотезы исследователя о наличии связей между фактами. Но, к сожалению, информация о связях между фактами в явном виде в информационных системах содержится редко. Умение проводить качественный анализ связей между фактами позволит извлечь новые, скрытые знания о причинно-следственных связях, что позволит решать задачи анализа и прогнозирования на более высоком уровне.

При реализации портала предлагается подход к моделированию и анализу фактов, записи о которых имеются в хранилище данных, и связей между ними. Выделяется три типа связей между фактами: информация о структурных связях заложена в структуре самой базы данных (БД); семантические связи «менее явны», т.к. заложены в данные, в их семантику; знания о неявных связях, неизвестных, не выделенных в данных, содержащихся в БД, являются самыми ценными для исследователей. Реализуемый в проекте создания портала подход ориентирован на выделение именно неявных связей. Суть подхода – в автоматическом построении математической модели фактов отдельной предметной области на основе накопленной статистики. Важную роль здесь играют так называемые статистические шаблоны. Данные шаблоны позволяют идентифицировать основные структуры (следствия, обобщения, совокупности и т.д.), то есть структуры модели фактов. Важной особенностью является то, что база статистических шаблонов может редактиваться.

Исследователь здесь обладает широким полем для эксперимента. Для описания моделей фактов предлагается формальная математическая теория – «исчисление фактов». По своей сути модель фактов представляет онтологию. Модель может быть дополнена или отредактирована пользователем (экспертом), а внесённые пользователем изменения могут быть проверены на имеющихся данных. Таким образом, описанный подход позволяет не только автоматически стоить онтологию фактов, но и осуществить поддержку эксперта в проверке его гипотез.

Работы по созданию исследовательского портала «Инновационное развитие регионов» поддержаны грантом РГНФ (проект № 09-02-00373в/И).



Литература

1. Ермаков А.Е. Автоматизация онтологического инжиниринга в системах извлечения знаний из текста // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4 8 июня 2008 г.). Вып. 7 (14).– М.: РГГУ, 2008. С. 154 158.

2. Загорулько Ю.А., Булгаков С.В. Использование онтологий для построения инновационных цепочек в системе поддержки инновационной деятельности в регионе // Труды VI-й международной конференции «Проблемы управления и моделирования в сложных системах». Самара: Самарский Научный Центр РАН, 2004. С. 328 333.

3. Загорулько Ю.А. Автоматизация сбора онтологической информации об Интернет-ресурсах для портала научных знаний // Известия Томского политехнического университета / Томск: Томский политехнический университет, 2008. Т. 312. № 5. С. 114-119.

4. Кононенко И.С., Сидорова Е.А. Подход к извлечению фактов из текста на основе онтологии // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009» (Бекасово, 27 31 мая 2009 г.). Вып. 8 (15).– М.: РГГУ, 2009. С. 451 457.

5. Ланин В.В. Методы и средства решения задач информационного поиска для системы поддержки научных исследований // Инновационное развитие регионов: методы оценки и поддержка исследований: межвуз. сб. науч. статей / Перм. гос. ун т. – Пермь, 2009. С. 80 88.

6. Ланин В.В. Решение задач информационного поиска для исследовательского портала на основе агентного и онтологического подходов // Инновационное развитие регионов: методы оценки и поддержка исследований: межвуз. сб. науч. статей / Перм. гос. ун т. – Пермь, 2009. С. 89 96.

7. Лядова Л.Н. О подходе к построению исследовательского портала на основе метамоделирования // Инновационное развитие регионов: методы оценки и поддержка исследований: Межвуз. сб. науч. статей / Перм. гос. ун т. – Пермь, 2009. С. 74 79.

8. Лядова Л.Н., Сухов А.О. Языковой инструментарий системы MetaLanguage // Математика программных систем: Межвуз. сб. научн. тр. / Перм. ун т. Пермь, 2008. C. 40 51.

9. Мальцев П. Моделирование многомерных данных в системе METAS BI-PLATFORM // Advanced Studies in Software and Knowledge Engineering: International Book Series / Sofia, 2008. P. 173 180.

10. Мальцев П.А., Лядова Л.Н. Формализация многомерной модели данных // Математика программных систем: Межвузовский сб. науч. тр. / Перм. ун-т. Пермь, 2006. С. 74 87.

11. Мальцев П.А. Работа с аналитическими отчетами в исследовательском портале «Инновационное развитие регионов» // Intelligent Engineering: International Book Series “Information Science & Computing”, Number 11: Supplement to the International Journal “Information Technologies & Knowledge”, Volume 3. Sofia, 2009. P. 146 150.

12. Мальцева С.В., Проценко Д.С. Серверы отношений сетевых сообществ практики на основе онтологических моделей // Автоматизация и современные технологии. № 3, 2008. Научно-техническое издательство «Машиностроение». С. 26 29.

13. Мальцева С.В. Применение онтологических моделей для решения задач идентификации и мониторинга предметных областей // Бизнес-информатика, №3(05), 2008. С. 18 24.



14. Сухов А.О. Предметно-ориентированный язык в адаптируемых информационных системах // Технологии Microsoft в теории и практике программирования / Материалы конф. Новосибирск, 2008. С. 25 26.


База данных защищена авторским правом ©ekonoom.ru 2016
обратиться к администрации

    Главная страница