Температура кипения (ТК) при нормальном давлении относится к числу фундаментальных свойств химических соединений и коррелирует с такими физическими свойствами, как температура вспышки, энтальпия испарения и др. ТК определяет поведение летучего компонента в природных и технологических системах, поэтому с увеличением потребности в надежных данных для оптимизации производственных процессов важно развивать адекватные методы оценки нормальных точек кипения для еще не синтезированных веществ или таких, температуры кипения которых неизвестны. Существует достаточно много аддитивных методов оценки, однако наибольшее признание в последние годы получил QSPR-метод (Quantitative Structure- Property Relationships), о современном состоянии которого можно судить по обзорным работам [1-3]. В подавляющем большинстве научных публикаций уделяется внимание моделированию ТК, т.е. установлению корреляции между данным свойством и дескрипторами (параметрами) молекулярной структуры. Качество корреляционной связи обычно характеризуют стандартным отклонением s и коэффициентом корреляции R между экспериментальными и расчётными значениями свойства. Реже качество корреляционной модели, построенной на тренировочной или обучающей выборке, проверяется на внешней (контрольной) выборке. И в относительно небольшом числе исследований качество моделей проверяется при скользящем контроле, когда каждое вещество из набора поочередно входит в тренировочную выборку и, кроме того, выступает в качестве контрольного примера. Подобный прием также носит название перекрестной проверки - leave-one-out («удаление одного из»). Именно этот вариант моделирования и можно назвать собственно прогнозом неизвестных значений. Однако, алгоритмы такого «технологического» прогнозирования слабо разработаны и имеют более низкие показатели качества по сравнению с простыми моделями.
В настоящей работе рассмотрена возможность построения эффективного алгоритма скользящего контроля на примере ТК алкенов с использованием дескрипторов, генерируемых программой Dragon 5•5 [4]•
На сайте NIST [5] предварительно были отобраны 106 алкенов с известными температурами кипения. Всего программа Dragon 5•5 позволяет вычислять 3224 молекулярных дескриптора 24 различных видов, в т.ч. конституциональные, топологические, геометрические и др. Для класса алкенов число значимых дескрипторов оказалось 1250, что все же превышает число веществ. В подобных случаях, если имеется избыточность дескрипторов, применяются различные процедуры отбора наименее коррелированных. В наших работах используется алгоритм, позволяющий снять проблему отбора путем сжатия факторного пространства [6] без отбраковки дескрипторов. Виду большого размаха значений дескрипторов перед вычислениями они были нормированы в столбцах по формуле
Модель |
Выборка |
Число веществ |
Показатели корреляции |
|
R |
s |
|||
1 |
Весь набор |
106 |
0,9996 |
1,04 |
Тренировочная |
66 |
0,9999 |
0,50 |
|
Контрольная |
40 |
0,9984 |
1,57 |
|
2 |
Весь набор |
106 |
0,9998 |
0,85 |
Тренировочная |
71 |
0,9999 |
0,49 |
|
Контрольная |
35 |
0,9990 |
1,23 |
|
3 |
Весь набор |
106 |
0,9998 |
0,78 |
Тренировочная |
76 |
0,9999 |
0,63 |
|
Контрольная |
30 |
0,9994 |
1,05 |
Следует отметить, что модель 3 по качеству превосходит модели, полученные другими авторами [1].
207
Для улучшения качества прогнозирования при скользящем контроле нами предложен прием, суть которого состоит в контролировании качества прогнозирования спарринг – свойства при его одновременном прогнозировании с целевым свойством. В качестве спарринг- партнера удобнее всего использовать молекулярную массу, определение которой не представляет особых проблем. Тогда алгоритм решения будет заключаться в поиске условий (веществ тренировочной выборки, ранга матрицы дескрипторов), при которых достигается наиболее точное значение молекулярной массы (или находится наилучшее решение для другого спарринг – партнера). Ранее этот прием нами успешно применен при прогнозировании температуры кипения спиртов с использованием ИК спектров в качестве дескрипторов [7]. Результаты прогнозирования представлены на рисунке 1.
Рисунку 1 соответствуют такие статистические параметры как R= 0,9989 и s= 1,81. Для сравнения наших результатов с возможностями известных программ, было выполнено прогнозирование на тех же объектах с помощью онлайн - программы, встроенной в сайт dic'niSpider [8]. Результаты прогнозирования представлены на рисунке 2.
208
Рисунку 2 соответствуют R= 0,9729 и s= 7,64, что значительно уступает показателям, полученным с модифицированным скользящим контролем.
Таким образом, предложенной нами способ позволяет прогнозировать температуру кипения алкенов с точностью, соизмеримой с точностью ее экспериментального определения.
Литература
- A.R. Katritzky, M. Kuanar, S. Slavov, C. D. Hall, M. Karelson, I. Kahn, D.A. Dobchev Quantitative Correlation of Physical and Chemical Properties with Chemical Structure: Utility for Prediction // Chem. Rev. 2010, 110, 5714– 5789.
- Katritzky A.R., Maran U., Lobanov V.S., Karelson M. Structurally Diverse Quantitative Structure-Property Relationship Correlations of Technologically Relevant Physical Properties // J. Chem. Inf. Comput. Sci. - 2000. -Vol. 40, № 1. -P. 1-18.
- Taskinen J., Yliruusi J. Prediction of physicochemical properties based on neural network modelling // Advanced Drug Delivery Reviews. - 2003. - Vol. 55. - P. 1163-1183.
- http://www.vcclab.org/lab/edragon/
- NIST Chemistry WebBook. NIST Standard Reference Database Number 69 - November 1998 Release. http: // webbook.nist.gov/chemistry/
- Важев В.В. Использование ИК - и масс-спектров в QSAR/QSPR – исследованиях. – Костанай: Изд-во КГУ, 2003. - 114 с.
- Важев В.В., Кухарева А.Ю., Цебрук А.В. компьютерное прогнозирование и экспертиза значений температуры кипения спиртов по ИК спектрам // Вестник Кар.ун-та. Серия «Химия». - 2010. - № 2 (58). - С. 5 –10.
- http://www.chemspider.com/