ინგლისური ენის სასწავლო კორპუსის შექმნა: ლექსიკური სიმდიდრე და სიტყვათხმარების თავისებურებები ინგლისური ენის ქართველ შემსწავლელებში

რუსიეშვილი, მანანაRusieshvili, Mananaკენჭიაშვილი, ნათიაKentchiashvili, Natiaმახათაძე, მარინემარინემახათაძეMakhatadze, MarineMarineMakhatadze2026-05-202026-05-202024https://openscience.ge/handle/1/8722ჩვენი ნაშრომის სათაურია „ინგლისური ენის სასწავლო კორპუსის შექმნა: ლექსიკური სიმდიდრე და სიტყვათხმარების თავისებურებები ინგლისური ენის ქართველ შემსწავლელებში“. ენობრივი სიმდიდრის, სიტყვათხმარების, ენობრივი ქცევის ნორმების შესწავლის მიზნით, შევქმენით ცხრა მილიონამდე სიტყვისგან შემდგარი ინგლისური ენის ქართველი შემსწავლელების სასწავლო კორპუსი (GLEAN), რომელიც მოიცავს ინგლისური ენის ქართველი შემსწავლელების მიერ შესრულებულ სხვადასხვა ჟანრის მქონე ინგლისურენოვან წერილობით მონაცემს. წინამდებარე სადისერტაციო ნაშრომი შეისწავლის ინგლისური ენის ქართველი შემსწავლელების ენის რეალიზების ასპექტებს, ლინგვისტურ მონაცემთა თანმიმდევრულ და მრავალმიზნობრივ (უმეტესად ლექსიკოგრაფიულ) შეგროვებადამუშავებას. აქედან გამომდინარე, ნაშრომის კვლევით მიზანსა და ამოცანას წარმოადგენს: • ფრაზეოლოგიზმების კვლევის სიხშირეზე დამყარებული და მნიშვნელობაზე ორიენტირებული მიდგომების საფუძველზე შესიტყვებების სტრუქტურული კლასიფიკაცია, სამ- და ოთხკომპონენტიანი ლექსიკური ფრაზების ფუნქციური ტაქსონომიის სისტემატიზაცია; • კონტრასტული ანალიზის გზით დავადგინოთ: ა) რა სტრუქტურის მქონე შესიტყვებით მოდელებს ვხვდებით ჩვენ მიერ შექმნილ სასწავლო კორპუსსა და ინგლისური ენის აზიელი შემსწავლელების საერთაშორისო სასწავლო კორპუსში? ბ) რომელი მრავალკომპონენტიანი ლექსიკური ფრაზა გვხვდება ჭარბად ან იშვიათად ინგლისური ენის ქართველ შემსწავლელთა დისკურსში ამერიკელ სტუდენტთა სასწავლო კორპუსთან შედარებისას? გ) გამოვყოთ რომელია ყველაზე ხშირად გამოყენებული, სტატისტიკურად დაანგარიშებადი ლექსიკური ელემენტები კოლოკაციების ასოციაციური საზომების გამოყენებით და გამოვავლინოთ შესიტყვებების ვიზუალური გრაფების ანალიზის შედეგები; • წარმოვადგინოთ ჩვენ მიერ შექმნილ სასწავლო კორპუსზე დაყრდნობით შესრულებული 30 მრავალკომპონენტიანი ლექსიკური ფრაზის სალექსიკონო სიტყვა-სტატია. აღნიშნული მასალა შესაძლებელია გახდეს სპეციალიზებული, აკადემიურ წერაზე ორიენტირებული (EAP) ლექსიკონის შემადგენელი ნაწილი. კვლევა წარმართულია კორპუსზე დამყარებული მეთოდოლოგიით. ნაშრომის ემპირიული ბაზა მოიცავს ინგლისური ენის 65 ქართველ შემსწავლელთა წერილობით მასალას, რომელიც რეპრეზენტატიული უნდა იყოს არა მხოლოდ რაოდენობრივად, არამედ თვისებრივადაც. იგი უნდა წარმოგვიდგენდეს უცხოური ენის განსხვავებულ ჟანრულ რეპერტუარს. კორპუსში შეტანილია 34,527 ტექსტი, ხოლო ტოკენების რაოდენობა 9,812,931. I თავში - „სასწავლო კორპუსი როგორც ინტერდისციპლინური კვლევის რესურსი“ - ჩვენ ვეხებით სასწავლო კორპუსის კვლევისა და მეთოდოლოგიის თეორიულ წანამძღვრებს, მის როგორც თეორიულ, ისე პრაქტიკულ მხარეებს. II თავში - „ინგლისური ენის ქართველ შემსწავლელთა კორპუსის შექმნის პრინციპები“ - განვიხილავთ კორპუსში შემავალი ტექსტების შერჩევის კრიტერიუმებს, ჟანრულ კლასიფიკაციასა და მონაცემთა მოგროვების დეტალებს. აგრეთვე, კონტრასტული ანალიზისათვის საერთაშორისო სასწავლო კორპუსების შერჩევის მიზეზებსა და კრიტერიუმებს. სასწავლო კორპუსში გამოვყავით ჟანრთა ოთხი კატეგორია (ესეისტიკა, აკადემიური, პუბლიცისტური, სასაუბრო) და მათი ქვეკატეგორიები. ესეისტიკის ჟანრში ერთიანდება არგუმენტირებული ესე, ნარატიული ესე, აღწერითი ესე, თავისუფალი კომპოზიციის ესე. აკადემიური ჟანრი მოიცავს კვლევით დარგობრივ სტატიებს ლინგვისტიკასა და ლიტერატურაში. პუბლიცისტიკის ჟანრში გაერთიანებულია საინფორმაციო ქრონიკა, რეპორტაჟი და საგაზეთო სტატიები როგორც პოლიტიკურ, ისე აპოლიტიკურ საკითხებზე, ხოლო ბლოგისა და კორესპონდენციის (არაოფიციალური მეილები) სასაუბრო ჟანრში გავაერთიანეთ. III თავში - „ინგლისური ენის ქართველ შემსწავლელთა კორპუსის (GLEAN) ანალიზი“ - ჩვენი კვლევის საგანია ორკომპონენტიანი შესიტყვებების სტრუქტურულსემანტიკური ანალიზი, განსაკუთრებული ყურადღება გავამახვილეთ გამაძლიერებელი კოლოკაციების (very, utterly, extremely და ა.შ. + ზედსართავი სახელის) კვლევაზე. აგრეთვე წარმოდგენილია სამ- და ოთხკომპონენტიანი ლექსიკური ფრაზების ფუნქციურ-დისკურსული ანალიზი. IV თავში - „ინგლისური ენის ქართველ შემსწავლელთა სასწავლო კორპუსი (GLEAN), როგორც წყარო ინგლისურ-ქართულ სპეციალიზებული (EAP) ლექსიკონის სიტყვა-სტატიის შესადგენად“ - ეხება სასწავლო კორპუსზე დაყრდნობით შესრულებული 30 მრავალკომპონენტიანი ლექსიკური ფრაზის სალექსიკონო სიტყვა-სტატიის მაკრო- და მიკროსტრუქტურულ აღწერას. თითოეული სიტყვასტატიის ელემენტი მცირე მოდიფიკაციებით ეფუძნება დ. სიპმანის მიერ შემოთავაზებულ სამეთაურო ფრაზების ლექსიკონში ასახვის პრინციპებს.The title of our work is "Compiling English Learner Corpus: Lexical Richness and Peculiarities of Word Usage in Georgian Learner English." To study lexical richness, word usage, and norms of linguistic behavior, we have created a corpus of Georgian learners of English (GLEAN) consisting of up to nine million words. This corpus includes English written data of different genres performed by Georgian learners of English. The present thesis will study the aspects of language realization of Georgian learners of English, as well as the consistent and multi-purpose (mostly lexicographic) collection and processing of linguistic data. Therefore, the research goals of the work are: • Structural classification of collocations based on the frequency-based approach and the significance-oriented approach, systematization of functional taxonomy of three- and four-word lexical bundles; • Through a contrastive interlanguage analysis: a) to demonstrate the peculiarities of the use of phraseological units and collocations (adverb + adjective, verb+noun, etc.) in the ICNALE and GLEAN and MICUSP corpora; b) based on statistical measures, which phraseological units are overused or underused in the writings of Georgian students; c) to present some effective lexicographic ways through which the learner corpus data is applied into the English-Georgian dictionary microstructure, for example some usage notes are modified and included to the dictionary entries. • To present a dictionary entries of 30 multi-word lexical bundles based on the learning corpus created by us. This material can become part of a specialized academic writing (EAP) dictionary. The empirical base includes the written material of 65 Georgian learners of English. The data represents a different genre repertoire of a foreign language. The number of texts and tokens in the learner corpus is distributed as follows: the corpus contains 34,527 texts, and the number of tokens is 9,812,931. In Chapter I - "Learner Corpus as a Resource for Interdisciplinary Research" - we touch upon the theoretical foundations of learning corpus research and methodology, both its theoretical and practical aspects. In Chapter II - "Principles of Creating a Corpus of Georgian Learners of English" - we discuss the selection criteria of texts included in the corpus, genre classification, and details of data collection—also, reasons and criteria for selection of international study corpora for contrast analysis. In the training corpus, we have identified four categories of genres (essay, academic, journalistic, conversational) and their subcategories. The genre of essay writing includes argumentative essays, narrative essays, descriptive essays, and free composition essays. The academic genre includes field research articles in linguistics and literature. In the publicistic genre, news chronicles, reports, and newspaper articles on political and non-political issues are combined, and in the conversational genre of blogs and correspondence (informal and semi-formal emails). In chapter III - "Analysis of the corpus of Georgian learners of the English language (GLEAN)" - the subject of our research is the structural-semantic analysis of two-component expressions; we paid particular attention to the research of the booster and maximizer collocations (very, utterly, extremely, etc. + adjective). Functional discourse analysis of three- and fourcomponent lexical phrases is also presented. Chapter IV - "Learning Corpus of Georgian Learners of English Language (GLEAN) as a Source for Compiling Word-Articles of English-Georgian Specialized (EAP) Dictionary" - refers to the macro- and micro-structural description of lexical word articles of 30 multi-component lexical phrases based on the learner corpus. Each word article element is based on D. with minor modifications—the principles of reflection in the dictionary of head-phrases proposed by Sipman.kaსასწავლო კორპუსიპრაგმატიკული მარკერებიმრავალსიტყვიანი ლექსიკური ფრაზებიშესიტყვებებისპეციალიზებული ლექსიკოგრაფიაlearner corpuspragmatic markersmulti-word lexical unitscollocationsspecialized lexicographyინგლისური ენის სასწავლო კორპუსის შექმნა: ლექსიკური სიმდიდრე და სიტყვათხმარების თავისებურებები ინგლისური ენის ქართველ შემსწავლელებშიdoctoral thesis