Corpus Files

Our data reflects the modern spoken Georgian. Its collection was quite a challenging task, as there was no corpus of spontaneous speech available for Georgian. We needed to collect data by searching for relevant examples and corresponding contexts by hand and by reviewing each and every case independently. Online forums, blogs, online media and comments, as well as social networks were used as the sources of data. Since our corpora are specialized ones, their size is not big. For their construction, we used a third generation corpus tool such as AntConc. Any corpus processing tool designed to work on plain text (.txt) files can be used with the collection of the files below.

Information in Georgian / ინფორმაცია ქართულად:

ენობრივი მასალა წარმოდგენილია ტექსტური კორპუსის სახით და ინახება ფაილების კოლექციაში, რომელთა დამუშავება შესაძლებელია კორპუსის დამამუშავებელი ნებისმიერი პროგრამული უზრუნველყოფის ფარგლებში (იხ., მაგალითად, AntConc), რომლისთვისაც მისაწვდომია .txt ფორმატის დოკუმენტები.