К вопросу о реализации проекта по обработке и хранению информации о научных публикациях в вузе

На сегодняшний день научное сообщество сталкивается с такими проблемами, как:

  • отсутствие актуальной информации о научных сотрудниках;
  • большие трудозатраты, необходимые для проверки истинности информации;
  • отсутствие единого хранилища данных о научных сотрудниках;
  • отсутствие автоматизированного ввода;
  • наличие большого количества научных статей, хранящихся на разнородных носителях в различных форматах;
  • отсутствие доверия научных деятелей к ресурсам подобного рода;
  • отсутствие специализированного автоматизированного поиска по научным деятелям;
  • отсутствие алгоритмов для решения поставленных задач и подбора научных коллективов;
  • территориальная разрозненность научных учреждений.

Предлагаемая информационная модель хранения и обработки научных трудов делает попытку решить большинство из представленных выше проблем. Система, реализованная на основе предложенной модели, позволяет в автоматизированном режиме осуществлять поиск опубликованных научных работ в сети Интернет, обрабатывать обнаруженную информацию из научных журналов текстовым поиском по документам, собирать данные о научных деятелях, аккумулировать информацию в базе данных, выполнять различные проверки на достоверность предоставленной информации.

Информационная модель системы хранения и обработки научных трудов ограничивается реализацией следующих модулей:

  • создание реляционной базы данных, содержащей нормализованные таблицы для улучшения работы системы;
  • внешний веб-интерфейс, позволяющий просматривать информацию о внесенной в хранилище информации и формирования комплексных запросов к системе;
  • алгоритм обработки текста, позволяющий обрабатывать тексты научных статей в любых форматах, переданных системе.

Полученные данные о научных трудах публикуются в открытом доступе. Для просмотра и агрегации данных необходим доступ в сеть Интернет и наличие веббраузера. Регистрации на ресурсе не требуется. Для изменения информации необходимо обладать правами администратора. Использование данных, полученных в результате сбора, не противоречит казахстанскому законодательству, так как изначально данные находятся в открытом доступе.

Так как тексты статьи в результирующий набор не включаются, данные, полученные после агрегации, не представляют научной ценности. Информация является актуальной и истинной с большой вероятностью, так как документы проходят несколько стадий проверки, в соответствии с ГОСТ и интеллектуальным разбором текста. Из полученного системой документа выделяются фрагменты текста, необходимые для получения информации об авторе или авторах работы. Информация вносится в базу данных вместе с сопутствующими параметрами, обогащается и может быть использована для организационных задач научных учреждений. Веб-интерфейс содержит вкладки с полным списком авторов научных трудов в алфавитном порядке, форму для подбора научных коллективов, контактную информацию и общую информацию о ресурсе. Во вкладке, содержащей список всех научных сотрудников, реализована возможность поиска по фамилии автора научных статей. Вкладка с формой для подбора научного коллектива позволяет создавать списки ученых, в соответствии с заданными пользователем параметрами. Данная функция позволяет выбирать авторов:

  • занимающихся схожими задачами,
  • ссылающимися на одинаковую литературу,
  • имеющих одинаковые ключевые слова,
  • имеющих совместные труды,
  • обладающих выбранной ученой степенью,
  • обладающих выбранным ученым званием.

Результатом выборки по указанным параметрам является список научных сотрудников, которые могут составить научный коллектив по решению некоторой проблемы. Список может быть импортирован в отдельный файл для ручной обработки и других действий. В данной модели информационной системы осуществляется ручная подача документов на вход программе по обработке и анализу текстов. В алгоритме работы анализатора учитываются основные использующиеся форматы текстовых документов:.docx,.pdf,.txt,.html; и графический формат.jpeg. Все типы документов приводятся к стандартному виду при помощи внешней части системы и далее анализируются и трансформируются для последующей записи в базу данных. Появление записи о конкретном научном деятеле в базе данных связано с активностями только администратора базы данных. В связи с этим, сведения о научных сотрудниках будут появляться в информационной системе без их участия. Таким образом, доверие к системе в научной среде усилится, что приведет к возможности сбора сведений непосредственно от научных сотрудников. Результатом нашей является модель информационной системы хранения и обработки информации, включающая в себя основные составляющие: база данных (информационное хранилище), алгоритм обработки текстовых документов, содержащих информацию о научных сотрудниках, система автоматического поиска информации о научных сотрудниках в сети Интернет и веб-интерфейс для отображения собранной информации.

Информационная система должна отвечать следующим функциональным требованиям:

  • автоматическая обработка текста в системе;
  • алгоритм проверки на корректность и актуальность данных;
  • автоматический поиск информации по сети Интернет;
  • нахождение оптимального решения для СУБД и надстройки над СУБД.

Система включает в себя две схемы взаимодействия: взаимодействие с пользователем и с администратором. Для администратора схема функциональности проходит по следующему сценарию: на вход системе при помощи веб-интерфейса подается текстовый файл в одном из возможных форматов. Система преобразует файл к стандартизированному формату и записывает полученную информацию в базу данных. Данные, полученные после агрегации, можно предварительно отредактировать в диалоговом окне.

После загрузки данных в хранилище администратор имеет возможность проверить их корректность верхнеуровневыми пользовательскими запросами в веб интерфейсе.

Для корректного функционирования системы необходимо создать базу данных с информацией о научных сотрудниках, содержащую следующую информацию:

  • ФИО научного сотрудника;
  • труд/ труды, опубликованные под именем данного сотрудника;
  • ссылки на литературу, использованную в данных научных трудах;
  • ключевые слова к каждому научному труду данного сотрудника;
  • ученая степень научного сотрудника;
  • ученое звание научного сотрудника;
  • контактная информация (в случае существования в открытом доступе).

Система позволяет осуществлять взаимодействие между хранилищем данных и пользователем при помощи вебинтерфейса. Интерфейсный объект расположен на удаленном сервере и обеспечивает загрузку данных на сайт в режиме реального времени. Структура веб интерфейса построена таким образом, что позволяет избежать возникновения трудностей при пользовании системой у пользователя. Система позволяет в автоматизированном режиме осуществлять поиск необходимой информации в сети Интернет. Целью запросов является поиск и исследование Интернет-пространства на наличие информации о научных сотрудниках, не занесенной в хранилище. Поисковые запросы имеют заранее определенный стандартный вид. Информация, содержащаяся в научных журналах, проверяется и фильтруется при помощи специализированного алгоритма. Алгоритм поиска по тексту позволяет отсеивать заведомо некорректную и сомнительную информацию, обеспечивая, таким образом, достоверность данных в хранилище системы. Модель информационной системы хранения и обработки научных трудов ограничивается реализацией следующих модулей:

  • создание реляционной базы данных, содержащей нормализованные таблицы для улучшения работы системы;
  • внешний веб-интерфейс, позволяющий просматривать информацию о внесенной в хранилище информации и формирования комплексных запросов к системе;
  • алгоритм обработки текста, позволяющий обрабатывать тексты научных статей в любых форматах, переданных системе. Система ИСТИНА разработана в КазахстанскоАмериканском свободном университете. Данная система предназначена для анализа научно-технической информации в научных организациях с целью подготовки принятия решений.

Данная система позволяет реализовывать следующие цели:

  1. способствовать расширению информационного пространства КАСУ и повышению его рейтинга;
  2. дать возможность сотрудникам подразделений организации формировать годовые научные отчеты в автоматизированном режиме;
  3. предоставить руководителям отдельных подразделений и организации в целом автоматизированное средство проведения количественного и тематического анализа научной деятельности каждого из сотрудников, подразделений и учреждения в целом. В рамках количественного анализа деятельности организации система должна позволять вычислять научные баллы сотрудников ее подразделений;
  4. реализовать функцию формирования годовых научных отчетов сотрудников организации в автоматизированном режиме на основе введенных ими данных о публикациях и других аспектах научной и учебной деятельности;
  5. реализовать функцию подсчета научных баллов сотрудников в автоматизированном режиме на основе внесенной в хранилище системы информации об учебной и научной деятельности сотрудников. На основе системы ИСТИНА предполагается создание средства сравнительного тематического анализа научной деятельности сотрудников всех подразделений университета.

Расширение системы предполагает включение следующих модулей:

  1. модуль поиска информации в сети Интернет;
  2. модуль построения семантической модели предметной области с помощью онтологий;
  3. модуль тематической классификации публикаций, данные о которых содержатся в хранилище системы. 

Данные в системе нельзя считать корректными, так как после внесения пользователем личной информации и информации о научных трудах правильность введения не проверяется. Все данные содержатся в разнородных форматах и дублируются, в связи с эти разработан стандартный профиль пользователя.

В системе информационного хранения и обработки свойств научных трудов данная проблема учтена и решена с помощью автоматического интеллектуального распознавания текста научных трудов. Пользователь не вводит информацию самостоятельно, поэтому исключается возможность опечатки и дублирования данных. Все данные приведены к единому формату.

В ходе исследования автором:

  • рассмотрены существующие решения информационных систем научной среды;
  • выделены особенности данных систем;
  • сформированы списки необходимых функциональных требований
  • создана инновационная система хранения и обработки научных трудов. На основе исследованных функциональных требований разработана модельная информационная система хранения и обработки свойств научных трудов.

В рамках данной работы выполнено:

  • создание модели информационной системы хранения и обработки информации:
  • создание алгоритма автоматической обработки текстов;
  • создание алгоритма подбора научных коллективов;
  • разработка основных функций информационной системы;
  • возможность сбора статистики;
  • создание алгоритма автоматического поиска по ресурсам сети Интернет;
  • реализация информационной системы на основе предложенной модели:
  • создание хранилища данных о деятельности научных сотрудников вне зависимости от места проживания и формате хранения статьей;
  • создание модельной информационной системы хранения и обработки информации и научных сотрудниках;
  • создание программного обеспечения для автоматической обработки текста;
  • реализация основных функций информационной системы;
  • создание веб-интерфейса для эффективного доступа к хранилищу;
  • создание методологии использования системы в научном сообществе:
  • получение корректной детальной информации и потребностях научных сотрудников;
  • получение списков потенциальных научных коллективов;
  • получение информации о научных сотрудниках.

 

ЛИТЕРАТУРА

  1. Голубков Е.П. Теория и методология маркетинга: настоящее и будущее, М.2008.
  2. Грофф Дж.Р.Вайнберг П.Н. Полное руководство по MySQL. – М., 2005.
  3. Коннолли Т.Бегг К. Базы данных, проектирование, реализация, сопровождение. – М., 2006
  4. Журнал "Коммерсантъ Деньги", №14 (671), 14.04.2008.
  5. Кристиан Д.Эмилиан Б. PHP и MySQL: создание интернет-магазина. Beginning PHP and MySQL E-Commerce: From Novice to Professional. М., 2010.
Год: 2013
Категория: Информатика