Мәтіндердің жиіліктік талдауы үшін лексикографиялық сұрыптау мәселелері қазіргі қазақ тілі лексикасының жиілігін зерттеу бойынша тиісті материалдарда жеткілікті қарастырылған. [1; 2; 3]. Берілген мақалада қолдану түріне: ауызша немесе жазбаша түріне қарай лексиканың ерекшелігін анықтауға және ауызекі және жазбаша мәтіндер сілемдері бойынша қалыптастырылған жиілік тізімдер / жиліктік сөздіктердің (ЖТ) ерекшелігіне ерекше мән берілген. Бұндай салыстыру сұрыпталған материалдың сөздікте берілетін ақпаратының негізі болып табылатындығын көрсетеді. [4].
ЖТ-нің мәтін сипаттамасынан детерминденуін / шарттылығын дәлелдеу мақсатында, лексикалық қолданыстың бір саласы болып табылатын – БАҚ, және сөйлеу әрекетінің бір түрін білдіретін әртүрлі интервью түрлерінің мәтіндерінен қалыптастырылған төмендегі екі ЖТ-ге салыстыру жүргізілді, бірақ олар бір көрсеткіш бойынша ерекшеленеді, яғни берілу түрімен; ауызекі немесе жазбаша. Бір ғана көрсеткіші бойынша салыстыру берілген жағдайда, мәтіннің басқа сипаттарымен шарттастырылмаған, шынымен, маңызды ерекшеліктерді анықтауға мүмкіндік береді.
Олай болса, жазылған материалдарды талдау барысында коммуникацияның төмендегі негізгі көрсеткіштері (маңызды сипаттамалары) анықталды: жанры – интервью, сұхбаттасу, жазбаша жазбалар, интервью; формасы – диалог, сұрақтар, ілеспе сөздер, сипаттамалар мен сұрақ-жауап: тілі қазақ тілі, қазіргі заманғы; қатысым типі – ауызекі, сөйлеу және жазбалар, жазбаша интервью мәтіндері; тіл таратушылары – қазақ тілі бірінші тіл / ана тілі; жағдайлар – тікелей ауызекі қатысым және жанамаланған жазбаша; сөйлеу әрекетінің қатысушылары – бүгінгі Қазақстан Республикасының азаматтары; стиль әдеби стиль, әдеби қарапайым, қазақ тілінің ауызекі сөйлеу стилі; білімі – әртүрлі деңгейде: көбінесе орта және жоғары; жасы – жас, орта және егде жастағы адамдар және қатысым әрекетінің басқа да жалпы сипаттамалары (қатысым әрекеттері туралы қараңыз) [5]. Берілген тарылған ракурстағы ерекшеліктердің көрсеткіші тек қана қарым-қатынас жасау, яғни жазылып алынған аудио диалогтар мен жазбаша берілген мәтіндер (тілші / респондент).
Егер ауызекі қатысымның екі аудио және жазбаша ЖТ қарастырса, ерекшеліктер жиілік тізімінің бірінші позицияларында-ақ көріне бастайды (тізімдердің лексикалық бірліктері қолдану жиілігінің азаюы тәртібінде берілген). Төмендегі БАҚ-ында берілген диалогтардың ЖТ кестесімен салыстырыңыз:
- бірінші ЖТ көбінесе аудио және видео қатармен берілген интервью мәтіндерін құрайды. Бұндай формада жаңалықтар мен Қазақстан [6], Еларна [7], Хабар [8] ТРК сайттарында берілген материалдар, сондай-ақ BAQ.kz [9] қазақ басылымының жаңалықтар агрегаторындағы интервью мәтіндері берілген.
- екінші ЖТ аудио / бейне жазбалар, ауызша айтылған интервью, сұхбаттар, ток-шоу диалогтарының стенограммалары және ауызекі сөйлеудің басқа да формаларын құрайды. Мәтіндердің екі түрі де диалог түрлерін білдіреді, тек олардың ерекшелігі берілу көрсеткіштерінде: ауызша және аудио файлдар мен мәтіндер түрінде жазбаша белгіленген.
Талдау үшін алғашқы 100 жоғары жиілікті лексикалық бірлік таңдап алынды, өйткені 100 жоғары белсенді лексема статистикаға сәйкес бастапқы мәтіннің толық қамтылғанының жеткілікті жоғары пайызын көрсетеді және оған айғақ бола алады (толығырақ жиілік принциптері мен мәтінді қамту көлемдері туралы қараңыз) [10]. Сонымен қатар, мәтінді жиілікті қамту көрсеткіштері туралы толығырақ қараңыз [11; 12; 13]
Екінші түрдің (ауызекі қатысым) ЖТ бастапқы болжамына сәйкес, олар айтылу жағынан өте қатты құрылымдалмаған еркін және бейресми сөйлеуден (сөйлеу кезінде сөздерді еркін қолданатын, бірақ жазбаша түзету емес) тұрады, бұл етістіктердің ауызекі формаларының ең жоғары рангын анықтауға (әсіресе құрамды формаларын), әлеуметтік жаргондарды, сөйлеу сленгтерін, тұрақты ауызекі клишелер мен сөз тіркестерін кеңінен енгізуге мүмкіндік береді. Төменде берілген ЖТ берілген болжамның маңыздылығын көрсетеді.
Кесте – БАҚ лексикалық бірліктер қолданысының жиілік тізімі
Жазбаша түрінде (ТВ сайттарда, жаңалықтар агрегаторында) |
||
ранг |
лексикалық бірлік |
жиіл. |
1. |
және |
344 |
2. |
мен |
325 |
3. |
бұл |
308 |
4. |
да |
250 |
5. |
деу (п) |
246 |
6. |
астана |
200 |
7. |
бір |
198 |
8. |
baq.kz |
186 |
9. |
үшін |
179 |
10. |
бойынша |
175 |
11. |
де |
167 |
12. |
осы |
154 |
13. |
ал |
143 |
14. |
бар |
141 |
15. |
ол |
136 |
16. |
деген |
134 |
17. |
оның |
128 |
18. |
туралы |
123 |
19. |
өз |
123 |
20. |
ақ |
120 |
21. |
білім |
119 |
22. |
болу (болады) |
102 |
23. |
болу (болып) |
102 |
Ауызекі түрінде (ТВ бағдарламалар, интервью және ток-шоу) |
||
ранг |
лексикалық бірлік |
жиіл. |
1. |
енді |
267 |
2. |
ғой |
237 |
3. |
бір |
229 |
4. |
мен |
203 |
5. |
бар |
185 |
6. |
да |
184 |
7. |
деу (п) |
173 |
8. |
сол |
149 |
9. |
ол |
136 |
10. |
осы |
131 |
11. |
деу (деген) |
130 |
12. |
де |
124 |
13. |
біз |
120 |
14. |
бұл |
115 |
15. |
жоқ |
113 |
16. |
ма |
105 |
17. |
ба |
99 |
18. |
ал |
95 |
19. |
керек |
91 |
20. |
кез(де) |
89 |
21. |
екен |
86 |
22. |
болу (болды) |
84 |
23. |
менің |
82 |
Жазбаша түрінде (ТВ сайттарда, жаңалықтар агрегаторында) |
||
ранг |
лексикалық бірлік |
жиіл. |
24. |
емес |
101 |
25. |
жоқ |
101 |
26. |
қыркүйек |
101 |
27. |
мың |
100 |
28. |
отыр |
99 |
29. |
керек |
95 |
30. |
жылы |
87 |
31. |
жаңа |
86 |
32. |
жұмыс |
83 |
33. |
ұлттық |
80 |
34. |
өткен |
76 |
35. |
жыл |
75 |
36. |
іс |
75 |
37. |
болу (болған) |
74 |
38. |
12 |
73 |
39. |
дейін |
73 |
40. |
сол |
72 |
41. |
ғана |
72 |
42. |
олардың |
71 |
43. |
дейді |
70 |
44. |
қазіргі |
69 |
45. |
деді |
68 |
46. |
болу (болатын) |
66 |
47. |
бірақ |
66 |
48. |
қатысты |
66 |
49. |
көп |
65 |
50. |
екен |
64 |
51. |
күн(і) |
64 |
52. |
мемлекеттік |
63 |
53. |
екі |
62 |
54. |
тең |
62 |
55. |
біз |
60 |
56. |
ең |
60 |
57. |
пен |
60 |
58. |
ата |
59 |
59. |
жалпы |
59 |
60. |
ҚР |
59 |
61. |
болу(болса) |
58 |
62. |
бас |
57 |
63. |
болу (болды) |
56 |
64. |
саны |
56 |
65. |
жастар |
55 |
66. |
мемлекет |
55 |
67. |
қатар |
55 |
68. |
1 |
54 |
69. |
сондай |
54 |
70. |
басшы |
53 |
Ауызекі түрінде (ТВ бағдарламалар, интервью және ток-шоу) |
||
ранг |
лексикалық бірлік |
жиіл. |
24. |
жүргізуші |
81 |
25. |
болу (болады) |
81 |
26. |
болу (болып) |
77 |
27. |
бірақ |
75 |
28. |
көп |
70 |
29. |
не |
70 |
30. |
сен |
69 |
31. |
емес |
69 |
32. |
жақсы |
69 |
33. |
қазір |
68 |
34. |
қалай |
68 |
35. |
мына |
67 |
36. |
біздің |
67 |
37. |
иә |
66 |
38. |
рахмет |
63 |
39. |
үшін |
57 |
40. |
кейін |
57 |
41. |
айту |
55 |
42. |
өзі |
54 |
43. |
қандай |
51 |
44. |
керемет |
50 |
45. |
екі |
49 |
46. |
құрметті |
49 |
47. |
деу (дейді) |
48 |
48. |
сізге |
47 |
49. |
ия |
47 |
50. |
алу (алып) |
45 |
51. |
өте |
45 |
52. |
қой |
44 |
53. |
жатыр |
44 |
54. |
сияқты |
44 |
55. |
келу (келген) |
43 |
56. |
жұмыс |
43 |
57. |
үлкен |
41 |
58. |
ән |
41 |
59. |
негізі |
40 |
60. |
жалпы |
40 |
61. |
келу (келіп) |
39 |
62. |
сіз |
39 |
63. |
жер(де) |
39 |
64. |
шығ(ар) |
39 |
65. |
келу |
39 |
66. |
дұрыс |
38 |
67. |
болу (болсын) |
37 |
68. |
бүгін |
37 |
69. |
мынау |
37 |
70. |
маған |
36 |
Кестенің жалғасы
Жазбаша түрінде (ТВ сайттарда, жаңалықтар агрегаторында) |
||
ранг |
лексикалық бірлік |
жиіл. |
71. |
млн |
52 |
72. |
13 |
51 |
73. |
9 |
51 |
74. |
айтуынша |
51 |
75. |
алғашқы |
51 |
76. |
кейін |
51 |
77. |
алайда |
50 |
78. |
Алматы |
50 |
79. |
енді |
50 |
80. |
бала |
49 |
81. |
сонымен |
49 |
82. |
атау (атап) |
48 |
83. |
барлық |
48 |
84. |
келу (келген) |
48 |
85. |
хабарлау |
48 |
86. |
жоғары |
47 |
87. |
жылда |
47 |
88. |
халықаралық |
47 |
89. |
бірінші |
46 |
90. |
қаржы |
46 |
91. |
қарсы |
46 |
92. |
10 |
45 |
93. |
алған |
45 |
94. |
арасында |
45 |
95. |
рет |
45 |
96. |
ретінде |
45 |
97. |
арқылы |
44 |
98. |
басқа |
44 |
99. |
қажет |
44 |
100. |
қылмыстық |
44 |
Ауызекі түрінде (ТВ бағдарламалар, интервью және ток-шоу) |
||
ранг |
лексикалық бірлік |
жиіл. |
71. |
жарау (жарайды) |
36 |
72. |
бірінші |
36 |
73. |
оны |
35 |
74. |
ең |
34 |
75. |
болу (болған) |
34 |
76. |
бүгінгі |
34 |
77. |
бәрі |
34 |
78. |
әрине |
34 |
79. |
осындай |
33 |
80. |
болу (болса) |
32 |
81. |
тағы |
32 |
82. |
әдемі |
32 |
83. |
міне |
30 |
84. |
оның |
29 |
85. |
сіздің |
29 |
86. |
жыл |
29 |
87. |
өйткені |
29 |
88. |
мысалы |
29 |
89. |
өз |
29 |
90. |
жаңа |
29 |
91. |
содан |
28 |
92. |
жеңіс |
28 |
93. |
және |
28 |
94. |
той |
28 |
95. |
дос(тар) |
28 |
96. |
жүру (жүрген) |
27 |
97. |
сұрақ |
27 |
98. |
ана |
27 |
99. |
ғана |
27 |
100. |
өзің |
26 |
Жоғарыда келтірілген ЖТ-нің көрнекі мысалдарын салыстыру кезінде, біріншіден, бір лексикалық – тақырыптық өріс шеңберінде екі ЖТ деректерінің лексикалық құрамының жақындығын аңғаруға болады. Сонымен қатар ЖТ деректер ерекшелігін айта кеткен жөн. Ол, алдымен, көмекші сөздердің жоғары рангта тұрғандығын көрсетеді. Бұл ауызекі қатысымға тән құбылыс. Одан кейін көмекші етістіктердің жоғары позицияда тұрғандығын, әсіресе, семантикалық жағынан төмен және қызметі жағынан жоғары валентті «болу» етістігінің әртүрлі формаларда берілуін көруге болады.
Жалпы алғанда, берілген салыстыру деректер бойынша анық көрінеді және қазақ тілімен жұмыс істейтін әртүрлі мамандар үшін маңызды
тізім болып табылады. Мысалы, қазақ тілі бірінші / ана тілі ретінде оқытатын қазақ тілінің оқытушысы үшін берілген тізім тілдік материал және оқу тақырыптарын бірізді беруді білдіреді. Өйткені, лексикалық база тек лексиканың немесе сөз түрлерінің бір немесе басқа топтарының өзектілігін көрсетпейді, сондай-ақ сол немесе басқа грамматикалық категориялар қолданысының жиілігін анықтайды. Бұл оқу курсын тіл өзектілігіне сәйкес құруға негіз болады.
Қазақ тілін екінші тіл / ана тілі емес ретінде оқытатын қазақ тілінің оқытушы үшін осындай ЖТ және оларды құрастыру тек қана белсенді лексика мен оқу материалдарын грамматикалық жағынан бірізді беруді ғана көрсетпейді, сонымен қатар жазбаша тілді оқыту мен ауызекі қатысымды оқыту кезінде ерекшеліктерді аңғаруға мүмкіндік береді. Екінші тізім одағайлар мен көмекші сөздердің, семантикалық мағынасы жоқ бірліктердің жоғары жиілігін көрсетеді. Бұл семантикалық мағынасы бар бірліктерді оқытумен бірге, семантикалық жағынан мәнсіз, бірақ қатысымда белсенді бірлік болып табылатын бірліктерді оқыту маңыздылығын білдіреді [14]. Ғаламтор мамандары үшін, мысалы, іздеу машиналарын, рәсімдегіштерді, web оңтайландырғыштарды әзірлеушілер үшін мәліметтер базасына ауызекі сөйлеу тілінің жоғары рангты сөздерді енгізу қажеттілігі анық көрсетілген. Өйткені ғаламторды пайдаланушылар ауызекі сөйлеу тілін пайдалана отырып, іздеу тапсырыстарын қалыптастырады (Ғаламтор тілінде сөйлеудің ресми стилі аз қолданылады). Сонымен қатар жиілік әзірлемелері әртүрлі мәтіндерді талдаушылардың (Ranks NL http://www.ranks. nl/home), семантикалық (Text Analyzer http:// textalyser.net/), SЕО оңтайландырғыштардың (SEO Workers http://www.seoworkers.com/tools/ analyzer.html) бастапқы базасы болып табылады және мәтінге талдау жасау жұмыстары кезінде басқа да қолданбалы мақсаттар үшін қолданылады.
Қазақ мәтіндерінің лексикалық мәліметтерін өңдеуге арналған құралдың болмауы, оны халықаралық ғылыми қауымға енгізуге мүмкіндік емес етіп отыр. Сондай-ақ, қазақ тілінде импактфактордың ғылыми өлшемді анализаторларында Scopus, Science Citation Index (SCI) / Web of Science, Thomson Scientific сияқты ғылыми іздегіштерде табу мүмкін емес. Бүгінгі таңда бірде-бір әлемдік лингвистикалық рәсімдегіш қазақ тілді мәтінмен жұмыс істемейді. Олай болса, бұл бұрын және қазіргі уақытта мемлекеттік тілде жазылып жатқан қазақ тілді ғылым түріне қарай өңделмейді, индекстелмейді және іздеу машиналарына ұсыныла алмайды және әлемдік ғылым айналымына енгізілмейді деген сөз. Дегенмен, бұған қазақ тілі үшін тиісті қолданбалы құралды әзірлеу арқылы қол жеткізуге болады. Оның ішіне тілдің жиілігін сипаттау міндеті де кіре ді және ол қазақ тіліне жаһандық ғылыми және практикалық мақсаттарына орындауға мүмкіндік береді.
Бүгінде қазақ тілінің әртүрлі мамандары: филологтар, әдебиеттанушылар мен тілшілер, журналисттер, аудармашылар мен редакторлар, жарнама мамандары және т.б. орфографиялық тексеруі бар мәтіндік редакторларды немесе анти-плагиаттарды қолданады. Ал осылардың негізі жиіліктік әзірлемелер болып табылатынын айтып кеткен жөн. Жиілік тізімін электронды аударма сөздіктерді немесе қазақ тілін оқыту әзірлемелерін құрастырушылар қолданады, себебі осындай бағдарламалық өнімдердің де негізінде жиіліктік лексикалық база жатыр. Олай болса, әрбір маман немесе пайдаланушы өзінің қызметіне сәйкес тиісті лексикалық ЖТ және көрсеткіштерін ала алады. Осындай жиіліктік материалдарды әртүрлі салада және ҚР-ның мемлекеттік тілін дамыту үшін практикалық қолданыстың әртүрлі мақсаттарында пайдалануға болады.
Әдебиеттер
- Боранбаев С.А., Данаева Н.Т., Жұмабаев А.А., Құрышжанова Ә.Ә., Өмірзақова А.К. Қазақ тілі қолданбалы лингвистикасының жиілік зерттеулері мәселелері. – XLIII Научно-методическая конференция КазНУ «Компетентностная модель выпускника в системе современного непрерывного профессионального образования». – Алматы, 2013. – С. 100-104.
- Данаева Н.Т., Курышжан А.А.О формировании лексических баз данных на основе языка казахских кинофильмов. – Материалы Международной научно-теоретической конференции «Тюркский мир: язык, история и культура» – Алматы: КазНУ, 2014 – С. 274-278.
- Мемлекеттік тілдегі ұлттық «Тіл – қазына» деректер базасының теориялық негіздері. Мемлекеттік тіл – ұлттық бірегейліктің негізі. – Алматы: ҰҒА, Тіл білімі институты, «Қазақ энциклопедиясы», 2011. – Б. 291-318.
- Петрашова Т.Г. Актуальные вопросы проектирования LSP словарей // Вестник Ленинградского государственного университета. Серия филология. – 2009. – Вып. 4, Т. 2. – С. 129-136.
- Романов А.А., Романова Л.А. Суггестивные акты сакрально-ритуальной коммуникации // Уч. записки Таврического НУ. Серия «Филология. Социология. Социальные науки» 2013. – № 1. – Т. 726 (65). – С. 12-17.
- http://kaztrk.kz (дата обращения: 3.02.2015)
- http://www.elarna.kz/kz (дата обращения: 2.02.2015)
- http://www.khabar.kz/kz (дата обращения: 1.02.2015)
- http://baq.kz/kk (дата обращения: 4.02.2015)
- Морковкин В.В., Сафьян Ю.А., Степанова Е.М., Дорофеева И.В. Лексические минимумы современного русского языка. – М., 1985. – 606 c.
- Жубанов А.К., Бектаев К.Б., Джунисбеков А., Бельботаев А.Б. Қазақ тексінің статистикасы. – Алматы, 1990. – 208 с.
- Шаров С.А., Ляшевская О.Н. Введение к частотному словарю современного русского языка. – http://dict.ruslang.ru/ freq.pdf (дата обращения 05.02.2015)
- Word frequency data. Corpus of Contemporary American English http://www.wordfrequency.info/intro.asp (дата обращения 03.02.2015)
- Kuryshzhan A. Applied linguistics and quantitative approaches for foreign audience / Прикладная лингвистика и квантитативные подходы в иностранной аудитории. – Seoul, HUFS, 2012. – P. 99-106.