Аңдатпа
Техника мен технологиялардың дамуы ғылым әлемінде төңкеріс жасауда, атап айтсак бір ғана есептеуіш техникасының пайда болуы кез келген ғылым саласына жаңа серпін беріп, түрлі жаңалықтардың ашылуына себепші болды. Қазіргі танда ғылым салаларының бірлесуі ғылым әлемінде тың ойлардың туындауын және бүрынғы әдістердің қаншалықты дәрежеде оңтайлы екенін бағалауға мүміндік береді. Бұл мақалада ең әуелі зерттеліп отырған тақырып бойынша шет елдік жарияланымдарға әдебиеттерге шолу жасадық, Лоренц метрикасының Евклид кеңістігімен салыстырып айырмашылығын формулалар мен суреттерде мысал ретінде келтірдік. Лоренц метрикасын пайдалана отырып үлгі тануда жаңа алгоритм құрдық және бүл алгоритмнің тиімділігін тексеру үшін деректер базасында түрлі сынақтардан өткіздік. Жүргізілген тәжірибе нәтижесінде Лоренц метрикасы арқылы құрылган алгоритм классикалық алгоритмдермен салыстырылды, атап айтсак Bayes, ENN және осы секілді алгоритмдер, содан соң нақты түрде сараптамалық нәтижелерді үсындық.
Kipicne
Бұл жүмыста біз Лоренц кеңістігінің қашықтықты өлшеуін жіктеу мәселелерінде қолдануды ұсынамыз.Бұл тәсіл метрикалық оқытудың және көп қырлы оқытудың жалпы парадигмасына жатады [1, 2]. Лоренц кеңістігі өзінің жеке қасиеттері бар классификацияда қолдануға арналған жоғары әлеуетке ие [3]. Лоренц кеңістіктегі қашықтықты метрика оң болып табылмайды, сол себепті біз деректер нүктелерін жіктеу жылдамдығын арттыру үшін ерекше түрде ұйымдастыруға мүмкіндік аламыз. Сондықтан Лоренц қашықтығы жіктеу мәселелерінде пайдалы. Лоренц кеңістігі әдетте физикада жалпы және арнайы салыстырмалық теорияларының өрістерінде, сондай - ақ ғарыш теориясы мен дифференциалдық салалардағы математикада қолданылады [4]. Физикада, әсіресе салыстырмалы теорияда тығыз қолданғандықтан, Лоренц кеңістігі мен оның қасиеттері туралы теориялық материалдар жеткілікті. Лоренц кеңістігінде математикалық операцияларды қолдану зерттелді [5].
Лоренц кеңістігін пайдалану туралы кейбір ғылыми зерттеулер бар [6, 7]. Жалпы алғанда, бүл зерттеулерде Лоренц кеңістігінің артықшылығын пайдаланып, жаңа функционалды экстракция және өлшемді азайту әдістері жасалды. Содан кейін зерттеушілер Лоренц метрикалық тензорды қолдану арқылы жартылай бақыланатын өлшемді азайту әдісін ұсынды. Авторлар жаңа үлгіде таңбаланбаған үлгілердің жергілікті құрылымын сақтауы мүмкін екендігін атап өтті [8]. Осылайша, ұсынылған алгоритм жоғары дисперсиялық қимылдарды анықтай алады.
Лоренц кеңістігіндегі қашықтық пен аймак метрикасы
Лоренц кеңістігі математика, кеңістіктік теория және дифференциалдық геометрияда кеңінен қолданылатын кеңістік болып табылады. Дегенмен, инженерлік қосымшалар бойынша зерттеулер жеткіліксіз. Сондықтан, Лоренц кеңістігіндегі математикалық білімдерді әдебиетте тануды және жіктеуді тану сияқты жаңа салалар ретінде қолдануға болады.
Лоренц кеңістігі ерекше кеңістік және Евклидтік емес кеңістік деп аталады. Лоренц кеңістігіндегі ішкі айнымалылар Евклид кеңістігінен ерекшеленеді, өйткені Лоренц кеңістігінде оң анықтылықтың жағдайы қолайсыз болып табылады. Евклид кеңістігіндегі тең қашықтықтың нүктелерінің орналасуы шеңберді құрайды. Дегенмен, Лоренц кеңістігіндегі бірдей қашықтықтардың нүктелерінің құрылымы басқаша. Лоренц кеңістігіндегі аймақ тұжырымдамасын зерттеу үшін ең алдымен осы кеңістіктегі екі нүктенің арасындағы қашықтықты түсіну қажет. Әр кеңістіктегі қашықтықты есептеу кезінде арнайы метрикалар анықталуы керек [9].
мүнда 1 - кеңістіктің өлшемі (элементтер саны) және қашықтықтың өлшеміне соңғы өлшемнің қосындысы теріс екенін ескеріңіз.
1 - формуладан көріп отырғанымыздай, Лоренц метрикасы уақыттың өсіне сәйкес келетін екінші мерзімде минус белгіге ие. Лоренц метрикасының негізгі айырмашылығы - бүл екі нүктенің арасындағы қашықтық нөлге тең болуы мүмкін.
Лоренц кеңістігінде Лоренц аралығындағы екі нүктенің арасындағы қашықтық көлденең бағытта параллель 45°-та нөлге тең. Содан кейін аймақты бейнелеу үшін, біз Гаусс таратуына сәйкес кездейсоқ 5000 нүкте аламыз.Біріншіден, Евклид қашықтығы d<=l бойынша координат жазығының басына ең жақын нүктелері таңдалады. Бұл 2.а суретте көрсетілген Евклид бірлігінің шеңбері. Екіншіден, Лоренц аралығындағы d <= 1 қашықтығымен координат жазығының басына ең жақын нүктелер таңдалады. Бұл 2.6 суретте көрсетілген кресттің гиперболалық пішіні. Осылайша, Евклид жэне Лоренц кеңістіктерінде аймақтар әртүрлі. Бұл күбылыс бізге Лоренц кеңістігінде қолдануға арналған нүктелерді өзгерту идеясын береді.
Қолданылган мэліметтер коры
Бұл зерттеуде Лоренц кеңістігін жіктеуде пайдалануды, сондай-ақ осы тұрғыда әзірленген классификациялық алгоритмдердің дәлдігі мен сенімділігін тексеру үшін CLIMATE, GESTURE, PARKINSON, RELAX, VERTEBRAL жэне WINE деректер жиынтығын пайдалануды қарастырадық. Бұл деректер жиындарындағы атрибуттардың саны 6 дан 500-ге дейін болады жэне екі сыныптың деректер жиыны эдетте қолайлы болады. Эксперименттерде деректер жинақтарындағы үлгілердің 30%-ы оқу үшін, қалғаны - тестілеу үшін пайдаланылды. Қосымшада пайдаланылған мэліметтер жиынтығы туралы кейбір статистикалық деректер 1 Кестеде келтірілген.
Кесте 1 Деректер жинағының статистикасы
Атрибуттардың саны |
Сыныптар саны |
Үлгілердің саны |
Оқыту |
Тест |
|
CLIMATE |
8 |
2 |
540 |
120 |
420 |
GESTURE |
18 |
2 |
448 |
150 |
298 |
PARKINSON |
29 |
2 |
1040 |
200 |
60 |
RELAX |
12 |
2 |
182 |
60 |
122 |
VERTEBRAL |
6 |
3 |
310 |
110 |
200 |
WINE |
13 |
2 |
130 |
44 |
86 |
Үсынылған әдістер
Бұл мақалада Лоренц кеңістігінде жаңа жіктеу эдісі жэне оның екі нұсқасы үсынылған. Ұсынылған эдістің негізгі мэні Лоренц аралығын шектеу критерий! ретінде пайдалану болып табылады. Бұл эдіс Лоренц қашықтыққа сэйкес ең жақын үлгілерді немесе көршілерді анықтау арқылы жіктеуді жүзеге асырады.
-
- Алдын ала өңдеу
Жіктеудің тиімділігін арттыру үшін алдын ала өңдеу қадамы барлық үлгілерге қолданылуы керек. Алдын ала өңдеу сатысы математика мен алгебрадағы матрицаларды аудару жэне көбейту сияқты жақсы белгілі негізгі операциялардан тұрады (қысу). Осылайша, үлгілер Евклидтік бір шеңбердің пішініне сэйкес келетін гиперболалық крест пішінінің бір кідірісінде белу ретінде жарамды болады. Алдын ала өңдеу сатысында матрицалық көбейту Лоренц қашықтығы үшін үлгілерді мағыналы түрде түрлендіру эдісінде қолданылады. Матрицаны көбейту немесе қысуды елеулі пайдалану үшін ауысымдық жұмыс қосымша қүрал ретінде таңдалады [10].
Үлгілердің (деректердің) ауысуы қарапайым, олардың сомасынП вектордың нүктесін 5-мен ауыстыру жеткілікті, жэне бүл төменде көрсетілгендей оператордың көмегімен жүзеге асуы мүмкін:
□ □□(□) = □(□ + □), (2)
Алдын ала өңдеу сатысында тек матрицалық көбейту (қысу) саналы түрде таңдалады, бірақ бұл матрицалық теорияда диагональды матрицаның қасиеттеріне
Зерттеулер мен нәтижелер
Осы мақалада ұсынылған әдістердің классификациялық проблемалардағы нәтижелерін тексеру үшін кейбір қоғамдық деректер жинақтары таңдалған. CLIMATE, GESTURE, PARKINSON, RELAX, VERTEBRAL жэне WINE эксперпменттерінде пайдаланылады. Таңдалған деректер жиынтығындағы мүмкіндіктер саны 6-29 аралықта өзгереді. Бұл кестелер туралы 1-кестеде статистикалық ақпарат бар.
Эксперименттерде екі өлшемді Лоренц кеңістігі зерттелді, сондықтан барлық ерекшеліктер жұптарға бөлінеді. Мысалы, RELAX деректер жиынтығынан функционалды топ үшін, 73.50% ең жақсы жіктеу жылдамдығы басқа эдістермен салыстырғанда Лоренц метрикасы бойынша жіктеу (ЛМЖ) эдісімен алынады. Сол функционалдық топта kNN 62,39% қатынасын құрады. Евклид қашықтығын Лоренцке ауыстырғаннан кейін, kNN классификациясы нәтижесіне шамамен 10% табыс деңгейі қосылды. Әдебиеттерден белгілі болғандай, CBM екі кластағы деректер жиынтығымен жақсы жұмыс істейді, алайда біздің жағдайымызда жіктеу коэффициент! SVM арқылы 47,86% құрайды. Сондай - ақ, Bayes классификаторы жіктеу коэффициентін 72,65% құрайды, бұл ЛМЖ арқылы алынған нәтижелерге өте жақын. Лоренц метрикасы бойынша жіктеуде айналуды әдісін қолдану (ЛМЖА)эдісі бұл жағдайда Bayes сияқты нәтиже береді. Бірақ бұл жағдайда ең жақсы жіктеу коэффициент! оңтайлы қысу матрицасы бойынша жүмыс істейтін Лоренц метрикасы бойынша жіктеуде қысу матрицасының оңтайлы параметрлері (ЛМЖП) алгоритм! бойынша алынған, ол 82,05% құрайды.
ЛМЖА ЛМЖ - ге қарағанда ЛМЖА жылдамдығы аз болса, CLIMATE және GESTURE деректер жиынтығынан көруге болады, бірақ ЛМЖА нәтижелері басқа классификаторларға қарағанда жақсы. Бұл жағдайларда ЛМЖП әдісімен үздік нәтижелер 93,99% және 91,38% сәйкес келеді. Сонымен қатар, ЛМЖП GESTURE ішінде 20% шамасында айтарлықтай айырмашылық бар. Бұл жағдайда ЛМЖ шығысы үшін ең жақын қаражат kNN-мен 69,83% -ды құрайды, сонымен қатар CLIMATE деректер жинағында ең жақын жылдамдық 90,14% -ды құрайды. Эксперименттерде, WINE деректер жиынтығынан алынған функционалды топ үшін, барлық үш ЛМЖ, ЛМЖА жэне ЛМЖП әдістерінің ең жақсы жіктеу жылдамдығы 96,20% деп жазады. Осындай жағдайға ең жақын нәтиже kNN бойынша 93,67%, Bayes және SVM нэтижесі сэйкесінше 84,81% жэне 88,61% құрады.
PARKINSON үшін ЛМЖ жэне ЛМЖА эдістеріне тиісінше 73,30% жэне 73,33% жіктеу жылдамдығы. Жоғары SVM шығарылымына қарамастан, ЛМЖ жэне ЛМЖА 2% мөлшерінде жақсы нэтиже береді. Дегенмен, ЛМЖП ең жақсы жіктеу нэтижесін 80,00% -ға дейін арттырады, бүл өндірісті айтарлықтай арттырады. VERTEBRAL деректер жиынтығы үшін ең жақсы нэтиже ЛМЖА бойынша 76,50% деңгейінде алынды, онда ЛМЖ жэне ЛМЖП тиісінше 70,00% жэне 72,00% өндіреді. Сол жағдайда ЛМЖ-ге ең жақын ставка kNN-мен 60,00% -ды алады, ал ең нашар шығыс SVM-да 38,50% -ды құрайды. Бүл ЛМЖП ЛМЖА-дан гөрі жіктеу жылдамдығын азайтқан жағдайда ғана, бірақ басқа жағдайларда артықшылық сақталады.
Мүнда ең нашар жағдай үшін оңтайлы параметрлер алынады, содан кейін оны барлық жүп жүптарда қолданамыз. Осылайша есептеу қиындықтары едэуір азайды. Сонымен қатар, қысу матрицасының оңтайлы параметрлері эрбір функция үшін жеке есептелуі мүмкін. Біз жіктеу ставкалары бүдан да арта түсетінін күтудеміз, бірақ есептік күрделілігі де жағымсыз түрде өседі. Классификация нэтижелеріне негізделе отырып, ЛМЖП эдісі көп жағдайларда kNN жэне ЛМЖ, ЛМЖА-мен салыстырғанда жақсы.
Осы кестелердегі эр түрлі k мэндеріндегі ауысулар сэйкес kNN нэтижелерімен сәйкес келмейді. CLIMATE деректер жинағының CL мэнінің CL мэнінің томен мэнінде, ЛМЖА жэне ЛМЖП мэндері 77% -дан 87% -ға дейін өзгереді, бірақ k = 5 бастап, жіктеу нэтижелері 92% жэне 94% арасында өзгереді. Сол жағдайларда, kNN аз өзгерістері бар өзгерістерді көрсетеді. ЛМЖ, ЛМЖА жэне ЛМЖП эдістерінің жіктелуі нашар k мэндері үшін нашар, содан кейін жоғары k мэндеріне тез көтеріледі. Осы жағдайға қарамастан, ЛМЖ, ЛМЖА жэне ЛМЖП эдістері kNN жэне басқа классикалық эдістерге қарағанда жақсы нэтиже береді.
Қорытынды
Осы мақалада Лоренц қашықтықты метрикасына негізделген жаңа жіктеу эдісі үсынылды. Кейбір қоғамдық деректер жиынтығын қолдана отырып, ЛМЖ эдісінің жарамдылығы тексерілді. Эксперименттік нэтижелерге сүйенсек, ЛМЖ эдісі деректер жиынтығының бөлінуіне сэйкес эр түрлі сомалар бойынша жіктеу жылдамдығын арттырды. Жақсы жіктеу коэффициенттерін басқа әдістермен алу жағдайында, ЛМЖ әдісі жақсартылған шағын нәтижелермен жақсы нәтиже береді. Дегенмен, басқа әдістермен төменгі классификацияның көрсеткіштері алынған жағдайда, ЛМЖ әдісі жоғары жетілдірулермен жақсы нәтиже береді. Дифференциалды жақсарту 20%-дан жоғары болуы мүмкін.
Қалған зерттеулерде ротациялық операцияны қосу және қысу матрицасының оңтайлы параметрлерін табу арқылы алдын ала өңдеу қадамы күшейтілді және екі кеңейтілген ЛМЖА және ЛМЖП алгоритмдері ұсынылды. Жаңа ЛМЖ, ЛМЖА және ЛМЖП әдістерінің нәтижелері CLIMATE, GESTURE, PARKINSON, RELAX, VERTEBRAL, WINE деректер жинақтары арқылы жасалды. Алдын ала өңдеу қадамындағы үлгілердің айналу бүрышы таңдалған және 45° деп бекітілген. Сығымдау матрицасының оңтайлы параметрлерін анықтағанда, нашар жіктеу жылдамдығын беретін ерекшелікті жүп сілтеме ретінде таңдалды.
Жалпы ЛМЖ әдісі және ЛМЖА және ЛМЖП кеңейтілген нұсқалары классикалық классификаторларға қарағанда жақсы нәтиже береді. Осылайша, Лоренц қашықтығы метрикасын жіктеу мәселелерінде қолдану дәлелденді. Лоренц қашықтығы қазіргі кездегі екі қиындыққа жауап береді. Әрине, біз көп өлшемді деректер жиынтығын көптеген екі өлшемді ішкі жиындарға азайта аламыз, содан кейін осы ішкі жиындарды жіктеуге қолдана аламыз. Болашақта жүмыста, сыныптардың үлкен саны мен жоғары өлшемді сипаттамалары, Лоренц қашықтықты метрикасын қарапайым жіктеу мәселелері бойынша айрықша критерий ретінде қарастырып, егжей-тегжейлі зерттелетін болады.
Әдебиет:
- Y. Deng , Y. Li , Y. Qian . X. Ji . Q. Dai . Visual words assignment via infonnation-theoretic manifold embedding, IEEE Trans. Cybem. 44 (10) (2014) 1924-1937.
- Tan X., et al. "Face recognition from a single image per person: A survey". Pattern recognition 39(9):1725-1745,2006.
- Theodoridis S., Koutroumbas K.. Pattern Recognition, 4th ed., Elsevier. 2009.
- Kerimbekov Y.. et al., "The use of Lorentz distance metric in classification problems." Pattern RecognitionLetters. 84: 170-176.2016.
- R. Liu . Z. Su , Z. Lin . X. Hou . Lorentzian discriminant projection and its applications, in: ACCV‘09, 3, 2009, pp. 311-320.
- H.S. Bilge , Y. Kerimbekov . Classification with Lorentzian distance metric, in: 23th Signal Processing and Communications Applications Conference (SIU2015), 2015. pp. 2106-2109.
- H.S. Bilge , Y. Kerimbekov . H.H. Ugurlu , A new classification method by using Lorentzian distance metric, in: Innovations in Intelligent SysTems and Applications 2015 International Symposium on, 2015, pp. 1-6.
- Y. Deng , Q. Dai , R. Liu , Z. Zhang , S. Hu . Low-rank Stractme learning via non-convex heuristic recovery, IEEE Trans. Nemal Netw. Leam. Syst. 24 (3) (2013) 383-396.
- Giindogan H., Kccioglu O., "Lorentz matrix multiplicaiton and the motions on Lorentz plane”, GlasnikMatematicki, 41: 329-334. 2006.
- Brualdi R., Introductory Combinatorics, 5th ed.. Pearson Prentice Hall, 2010.
- Abate A.F., et al. "2D and 3D face recognition: A survey", Pattern recognition letters, 28(14): 1885— 1906, 2007.