Challenges for the creation of a Komi-Permyak corpus: Verbs and adjectives
Abstract
The paper reports on the current steps in the creation of a new corpus of written Komi-Permyak under grant number NKFIH FK 143242. The texts of the corpus are annotated by our research group using the FieldWorks Language Explorer (FLEx) software by pre-labelling sentences with the built-in general-purpose morphological parser of the software and manually checking the resulting machine-generated suggestions. As an output of the project, we will make the FLEx file available for other researchers to help them annotate their own texts. In order to use the general parser, we need to prepare it for the Komi-Permyak language system, i.e. we need to formalize Komi-Permyak morphology according to the needs of the software. After describing the basic principles of the parser, the paper presents some concrete examples of the challenges of this process in relation to adjectives and verbs.
References
Antal M. Gergely (2023), Magyar-csángó, komi-permják. Nyelvjárás vagy önálló nyelv? Finnugor Világ 28/4: 43–47.
Bartens, Raija (2000), Permilaisten kielten rakenne ja kehitys. Mémoires de la Société Finno-Ougrienne 238. Suomalais-Ugrilainen Seura, Helsinki.https://doi.org/10.3176/lu.2003.2.10
Batalova, R. M. [Баталова, Р. М.] (1975), Kоми-пермяцкая диалектология. Издательство Наука, Москва.
Batalova, R. M. [Баталова, Р. М.] (2002), Кудымкарско-иньвенский диалект коми-пермяцкого языка. Mitteilungen der Societas Uralo-Altaica 23. Moskva – Groningen. https://doi.org/10.3176/lu.1997.2.12
Batalova, R. M. – Krivoscsokova-Gantman, A. S. [Баталова Р. М. – Кривощёкова-Гантман А. С.] (ред.) (1985), Коми-пермяцко-русский словарь. Русский язык, Москва. https://doi.org/10.3176/lu.1986.1.11
Borin, Lars – Forsberg, Markus – Roxendal, Johan (2012), Korp – the corpus infrastructure of Språkbanken. https://gtweb.uit.no/u_korp/?mode=koi#?lang=en
Dryer, Matthew S. – Haspelmath, Martin (eds) (2013), The World Atlas of Language Structures Online. Max Planck Institute for Evolutionary Anthropology, Leipzig. http://wals.info
Eberhard, David M. – Simons, Gary F. – Fennig, Charles D. (eds) (2024), Ethnologue: languages of the world. 27th edition. SIL International, Dallas – Texas. http://www.ethnologue.com
F. Gulyás Nikolett (2023a), Melléknév főnév nélkül (komi-permják). In: Havas et al. 2023. volgatyp.elte.hu/?lang=1&feature=37&code=koi
F. Gulyás Nikolett (2023b), Melléknév mint főnév (komi-permják). In: Havas et al. 2023. volgatyp.elte.hu/?lang=1&feature=38&code=koi
F. Gulyás Nikolett (2023c), Melléknév mint ige (komi-permják). In: Havas et al. 2023. volgatyp.elte.hu/?lang=1&feature=39&code=koi
F. Gulyás Nikolett (2023d), Igei affixumok sorrendje (komi-permják). In: Havas et al. 2023. volgatyp.elte.hu/?lang=1&feature=85&code=koi
Hausenberg, Anu-Reet (1998), Komi. In: Abondolo, Daniel (ed.), The Uralic languages. Routledge, London – New York. 305–326.
Havas, Ferenc – Asztalos, Erika – F. Gulyás, Nikolett – Horváth, Laura – Timár, Bogáta (2023), Typological Database of the Volga Area Finno-Ugric Languages (VolgaTyp). Budapest: ELTE Finnugor Tanszék. (volgatyp.elte.hu) https://doi.org/10.21862/volgatyp
Klumpp, Gerson (2022), Permic: General introduction. In: Bakró-Nagy, Marianne – Laakso, Johanna – Skribnik, Elena (eds), The Oxford guide to the Uralic languages. Oxford University Press, Oxford. 471–486. https://doi.org/10.1093/oso/9780198767664.001.0001
Komi Kyv Korpus – Perem Komi Jukön http://perem.komicorpora.ru/
Lewis, Paul M. – Simons, Gary F. – Fennig, Charles D. (eds) (2015), Ethnologue: languages of the world. 18th edition. SIL International, Dallas. http://www.ethnologue.com
Németh Szilvia – Szabó Ditta – F. Gulyás Nikolett (2023), PermCorp: egy komi-permják korpusz létrehozása. Folia Uralica Debreceniensia 30: 181–202. https://real-j.mtak.hu/26994/1/fud30.pdf https://doi.org/10.52401/fud/2021/10
Norvik, Miina – Jing, Yingqi – Dunn, Michael – Forkel, Robert – Honkola, Terhi – Klumpp, Gerson – Kowalik, Richard – Metslang, Helle – Pajusalu, Karl – Piha, Minerva – Saar, Eva – Saarinen, Sirkka – Vesakoski, Outi (2022), Uralic typology in the light of new comprehensive data sets. Journal of Uralic Linguistics 1/1: 4–42. https://uralic.clld.org/ https://doi.org/10.1075/jul.00002.nor
Perepis 2020 = Всероссийская перепись населения (2020–2021) https://www.strana2020.ru/
Ponomarjova, Larisza [Пономарева, Лариса] (2002), Фонетика и морфология Мысовско-лупьинского диалекта Коми-пермяцкого языка. Удмуртский Государственный Университет, Ижевск. Doktori (PhD) értekezés.
Ponomarjova, Larisza (2010), Komi-permják nyelvkönyv. Budapest. Kézirat.
Pusztay János (2022), Az oroszországi 2020. évi népszámlálás uráli (finnugor) szempontból. Folia Uralica Debreceniensia 29: 129–138. https://doi.org/10.52401/fud/2021/22
Rédei Károly (1978), Chrestomathia Syrjaenica. Tankönyvkiadó, Budapest. https://doi.org/10.3176/lu.1980.2.11
Skirgård, Hedvig et al. (2023), Grambank reveals global patterns in the structural diversity of the world’s languages. Science Advances 9. https://doi.org/10.1126/sciadv.adg6175
Szabó Ditta (2022), A permi és a török nyelvek evidencialitásának eredetéről. In: Balogné Bérces Katalin – Nemesi Attila László – Surányi Balázs (szerk.), Nyelvelmélet és kontaktológia 5. Pázmány Péter Katolikus Egyetem Bölcsészet- és Társadalomtudományi Kar, Budapest. 87–112. btk.ppke.hu/uploads/articles/2849446/file/7-2022-Szabo_Ditta.pdf
Szabó Ditta (2023a) Evidencialitás (komi-permják). In: Havas Ferenc – Asztalos Erika – F. Gulyás Nikolett – Horváth Laura – Timár Bogáta (2023), A Volga-vidéki finnugor nyelvek tipológiai adatbázisa (VolgaTyp). ELTE Finnugor Tanszék, Budapest. volgatyp.elte.hu/?lang=1&feature=99&code=koi https://doi.org/10.21862/volgatyp
Szabó Ditta (2023b), Evidencialitás kódolása (komi-permják). In: Havas Ferenc – Asztalos Erika – F. Gulyás Nikolett – Horváth Laura – Timár Bogáta (2023), A Volga-vidéki finnugor nyelvek tipológiai adatbázisa (VolgaTyp). ELTE Finnugor Tanszék, Budapest. volgatyp.elte.hu/?lang=1&feature=100&code=koi https://doi.org/10.21862/volgatyp
Zamyatin, Konstantin (2022), Language policy in Russia: The Uralic languages. In: Bakró-Nagy, Marianne – Laakso, Johanna – Skribnik, Elena (eds), The Oxford guide to the Uralic languages. Oxford University Press, Oxford. 79–90. https://doi.org/10.1093/oso/9780198767664.001.0001