Coverage for vorlagellm/languages.py: 100.00%
5 statements
« prev ^ index » next coverage.py v7.7.1, created at 2025-10-24 03:22 +0000
« prev ^ index » next coverage.py v7.7.1, created at 2025-10-24 03:22 +0000
1CODES = {
2 'abk' : 'Abkhazian',
3 'ace' : 'Achinese',
4 'ach' : 'Acoli',
5 'ada' : 'Adangme',
6 'ady' : 'Adygei',
7 'ady' : 'Adyghe',
8 'aar' : 'Afar',
9 'afh' : 'Afrihili',
10 'afr' : 'Afrikaans',
11 'afa' : 'Afro-Asiatic languages',
12 'ain' : 'Ainu',
13 'aka' : 'Akan',
14 'akk' : 'Akkadian',
15 'sqi' : 'Albanian',
16 'alb' : 'Albanian',
17 'gsw' : 'Alemannic',
18 'ale' : 'Aleut',
19 'alg' : 'Algonquian languages',
20 'gsw' : 'Alsatian',
21 'tut' : 'Altaic languages',
22 'amh' : 'Amharic',
23 'anp' : 'Angika',
24 'apa' : 'Apache languages',
25 'ara' : 'Arabic',
26 'arg' : 'Aragonese',
27 'arp' : 'Arapaho',
28 'arw' : 'Arawak',
29 'arm' : 'Armenian',
30 'arm' : 'Armenian',
31 'rup' : 'Aromanian',
32 'art' : 'Artificial languages',
33 'rup' : 'Arumanian',
34 'asm' : 'Assamese',
35 'ast' : 'Asturian',
36 'ast' : 'Asturleonese',
37 'ath' : 'Athapascan languages',
38 'aus' : 'Australian languages',
39 'map' : 'Austronesian languages',
40 'ava' : 'Avaric',
41 'ave' : 'Avestan',
42 'awa' : 'Awadhi',
43 'aym' : 'Aymara',
44 'aze' : 'Azerbaijani',
45 'ast' : 'Bable',
46 'ban' : 'Balinese',
47 'bat' : 'Baltic languages',
48 'bal' : 'Baluchi',
49 'bam' : 'Bambara',
50 'bai' : 'Bamileke languages',
51 'bad' : 'Banda languages',
52 'bnt' : 'Bantu languages',
53 'bas' : 'Basa',
54 'bak' : 'Bashkir',
55 'eus' : 'Basque',
56 'baq' : 'Basque',
57 'btk' : 'Batak languages',
58 'bej' : 'Bedawiyet',
59 'bej' : 'Beja',
60 'bel' : 'Belarusian',
61 'bem' : 'Bemba',
62 'ben' : 'Bengali',
63 'ber' : 'Berber languages',
64 'bho' : 'Bhojpuri',
65 'bih' : 'Bihari languages',
66 'bik' : 'Bikol',
67 'byn' : 'Bilin',
68 'bin' : 'Bini',
69 'bis' : 'Bislama',
70 'byn' : 'Blin',
71 'zbl' : 'Bliss',
72 'zbl' : 'Blissymbolics',
73 'zbl' : 'Blissymbols',
74 'nob' : 'Bokmål, Norwegian',
75 'bos' : 'Bosnian',
76 'bra' : 'Braj',
77 'bre' : 'Breton',
78 'bug' : 'Buginese',
79 'bul' : 'Bulgarian',
80 'bua' : 'Buriat',
81 'bur' : 'Burmese',
82 'mya' : 'Burmese',
83 'cad' : 'Caddo',
84 'spa' : 'Castilian',
85 'cat' : 'Catalan',
86 'cau' : 'Caucasian languages',
87 'ceb' : 'Cebuano',
88 'cel' : 'Celtic languages',
89 'cai' : 'Central American Indian languages',
90 'khm' : 'Central Khmer',
91 'chg' : 'Chagatai',
92 'cmc' : 'Chamic languages',
93 'cha' : 'Chamorro',
94 'che' : 'Chechen',
95 'chr' : 'Cherokee',
96 'nya' : 'Chewa',
97 'chy' : 'Cheyenne',
98 'chb' : 'Chibcha',
99 'nya' : 'Chichewa',
100 'chi' : 'Chinese',
101 'zho' : 'Chinese',
102 'chn' : 'Chinook jargon',
103 'chp' : 'Chipewyan',
104 'cho' : 'Choctaw',
105 'zha' : 'Chuang',
106 'chu' : 'Church Slavic',
107 'chu' : 'Church Slavonic',
108 'chk' : 'Chuukese',
109 'chv' : 'Chuvash',
110 'nwc' : 'Classical Nepal Bhasa',
111 'nwc' : 'Classical Newari',
112 'syc' : 'Classical Syriac',
113 'rar' : 'Cook Islands Maori',
114 'cop' : 'Coptic',
115 'cor' : 'Cornish',
116 'cos' : 'Corsican',
117 'cre' : 'Cree',
118 'mus' : 'Creek',
119 'crp' : 'Creoles and pidgins',
120 'cpe' : 'Creoles and pidgins, English based',
121 'cpf' : 'Creoles and pidgins, French-based',
122 'cpp' : 'Creoles and pidgins, Portuguese-based',
123 'crh' : 'Crimean Tatar',
124 'crh' : 'Crimean Turkish',
125 'hrv' : 'Croatian',
126 'cus' : 'Cushitic languages',
127 'cze' : 'Czech',
128 'cze' : 'Czech',
129 'dak' : 'Dakota',
130 'dan' : 'Danish',
131 'dar' : 'Dargwa',
132 'del' : 'Delaware',
133 'chp' : 'Dene Suline',
134 'div' : 'Dhivehi',
135 'zza' : 'Dimili',
136 'zza' : 'Dimli',
137 'din' : 'Dinka',
138 'div' : 'Divehi',
139 'doi' : 'Dogri',
140 'dgr' : 'Dogrib',
141 'dra' : 'Dravidian languages',
142 'dua' : 'Duala',
143 'dut' : 'Dutch',
144 'nld' : 'Dutch',
145 'dum' : 'Dutch, Middle (ca.1050-1350)',
146 'dyu' : 'Dyula',
147 'dzo' : 'Dzongkha',
148 'frs' : 'Eastern Frisian',
149 'bin' : 'Edo',
150 'efi' : 'Efik',
151 'egy' : 'Egyptian (Ancient)',
152 'eka' : 'Ekajuk',
153 'elx' : 'Elamite',
154 'eng' : 'English',
155 'enm' : 'English, Middle (1100-1500)',
156 'ang' : 'English, Old (ca.450-1100)',
157 'myv' : 'Erzya',
158 'epo' : 'Esperanto',
159 'est' : 'Estonian',
160 'ewe' : 'Ewe',
161 'ewo' : 'Ewondo',
162 'fan' : 'Fang',
163 'fat' : 'Fanti',
164 'fao' : 'Faroese',
165 'fij' : 'Fijian',
166 'fil' : 'Filipino',
167 'fin' : 'Finnish',
168 'fiu' : 'Finno-Ugrian languages',
169 'nld' : 'Flemish',
170 'dut' : 'Flemish',
171 'fon' : 'Fon',
172 'fra' : 'French',
173 'fre' : 'French',
174 'frm' : 'French, Middle (ca.1400-1600)',
175 'fro' : 'French, Old (842-ca.1400)',
176 'fur' : 'Friulian',
177 'ful' : 'Fulah',
178 'gaa' : 'Ga',
179 'gla' : 'Gaelic',
180 'car' : 'Galibi Carib',
181 'glg' : 'Galician',
182 'lug' : 'Ganda',
183 'gay' : 'Gayo',
184 'gba' : 'Gbaya',
185 'gez' : 'Geez',
186 'geo' : 'Georgian',
187 'kat' : 'Georgian',
188 'deu' : 'German',
189 'ger' : 'German',
190 'nds' : 'German, Low',
191 'gmh' : 'German, Middle High (ca.1050-1500)',
192 'goh' : 'German, Old High (ca.750-1050)',
193 'gem' : 'Germanic languages',
194 'kik' : 'Gikuyu',
195 'gil' : 'Gilbertese',
196 'gon' : 'Gondi',
197 'gor' : 'Gorontalo',
198 'got' : 'Gothic',
199 'grb' : 'Grebo',
200 'grc' : 'Ancient Greek', # 'Greek, Ancient (to 1453)',
201 'ell' : 'Modern Greek', # 'Greek, Modern (1453-)',
202 'gre' : 'Modern Greek', # 'Greek, Modern (1453-)',
203 'kal' : 'Greenlandic',
204 'grn' : 'Guarani',
205 'guj' : 'Gujarati',
206 'gwi' : 'Gwich\'in',
207 'hai' : 'Haida',
208 'hat' : 'Haitian',
209 'hat' : 'Haitian Creole',
210 'hau' : 'Hausa',
211 'haw' : 'Hawaiian',
212 'heb' : 'Hebrew',
213 'her' : 'Herero',
214 'hil' : 'Hiligaynon',
215 'him' : 'Himachali languages',
216 'hin' : 'Hindi',
217 'hmo' : 'Hiri Motu',
218 'hit' : 'Hittite',
219 'hmn' : 'Hmong',
220 'hun' : 'Hungarian',
221 'hup' : 'Hupa',
222 'iba' : 'Iban',
223 'ice' : 'Icelandic',
224 'isl' : 'Icelandic',
225 'ido' : 'Ido',
226 'ibo' : 'Igbo',
227 'ijo' : 'Ijo languages',
228 'ilo' : 'Iloko',
229 'arc' : 'Imperial Aramaic (700-300 BCE)',
230 'smn' : 'Inari Sami',
231 'inc' : 'Indic languages',
232 'ine' : 'Indo-European languages',
233 'ind' : 'Indonesian',
234 'inh' : 'Ingush',
235 'ina' : 'Interlingua (International Auxiliary Language Association)',
236 'ile' : 'Interlingue',
237 'iku' : 'Inuktitut',
238 'ipk' : 'Inupiaq',
239 'ira' : 'Iranian languages',
240 'gle' : 'Irish',
241 'mga' : 'Irish, Middle (900-1200)',
242 'sga' : 'Irish, Old (to 900)',
243 'iro' : 'Iroquoian languages',
244 'ita' : 'Italian',
245 'jpn' : 'Japanese',
246 'jav' : 'Javanese',
247 'kac' : 'Jingpho',
248 'jrb' : 'Judeo-Arabic',
249 'jpr' : 'Judeo-Persian',
250 'kbd' : 'Kabardian',
251 'kab' : 'Kabyle',
252 'kac' : 'Kachin',
253 'kal' : 'Kalaallisut',
254 'xal' : 'Kalmyk',
255 'kam' : 'Kamba',
256 'kan' : 'Kannada',
257 'kau' : 'Kanuri',
258 'pam' : 'Kapampangan',
259 'kaa' : 'Kara-Kalpak',
260 'krc' : 'Karachay-Balkar',
261 'krl' : 'Karelian',
262 'kar' : 'Karen languages',
263 'kas' : 'Kashmiri',
264 'csb' : 'Kashubian',
265 'kaw' : 'Kawi',
266 'kaz' : 'Kazakh',
267 'kha' : 'Khasi',
268 'khi' : 'Khoisan languages',
269 'kho' : 'Khotanese',
270 'kik' : 'Kikuyu',
271 'kmb' : 'Kimbundu',
272 'kin' : 'Kinyarwanda',
273 'zza' : 'Kirdki',
274 'kir' : 'Kirghiz',
275 'zza' : 'Kirmanjki',
276 'tlh' : 'Klingon',
277 'kom' : 'Komi',
278 'kon' : 'Kongo',
279 'kok' : 'Konkani',
280 'kor' : 'Korean',
281 'kos' : 'Kosraean',
282 'kpe' : 'Kpelle',
283 'kro' : 'Kru languages',
284 'kua' : 'Kuanyama',
285 'kum' : 'Kumyk',
286 'kur' : 'Kurdish',
287 'kru' : 'Kurukh',
288 'kut' : 'Kutenai',
289 'kua' : 'Kwanyama',
290 'kir' : 'Kyrgyz',
291 'lad' : 'Ladino',
292 'lah' : 'Lahnda',
293 'lam' : 'Lamba',
294 'day' : 'Land Dayak languages',
295 'lao' : 'Lao',
296 'lat' : 'Latin',
297 'lav' : 'Latvian',
298 'ast' : 'Leonese',
299 'ltz' : 'Letzeburgesch',
300 'lez' : 'Lezghian',
301 'lim' : 'Limburgan',
302 'lim' : 'Limburger',
303 'lim' : 'Limburgish',
304 'lin' : 'Lingala',
305 'lit' : 'Lithuanian',
306 'jbo' : 'Lojban',
307 'nds' : 'Low German',
308 'nds' : 'Low Saxon',
309 'dsb' : 'Lower Sorbian',
310 'loz' : 'Lozi',
311 'lub' : 'Luba-Katanga',
312 'lua' : 'Luba-Lulua',
313 'lui' : 'Luiseno',
314 'smj' : 'Lule Sami',
315 'lun' : 'Lunda',
316 'luo' : 'Luo (Kenya and Tanzania)',
317 'lus' : 'Lushai',
318 'ltz' : 'Luxembourgish',
319 'rup' : 'Macedo-Romanian',
320 'mkd' : 'Macedonian',
321 'mac' : 'Macedonian',
322 'mad' : 'Madurese',
323 'mag' : 'Magahi',
324 'mai' : 'Maithili',
325 'mak' : 'Makasar',
326 'mlg' : 'Malagasy',
327 'may' : 'Malay',
328 'msa' : 'Malay',
329 'mal' : 'Malayalam',
330 'div' : 'Maldivian',
331 'mlt' : 'Maltese',
332 'mnc' : 'Manchu',
333 'mdr' : 'Mandar',
334 'man' : 'Mandingo',
335 'mni' : 'Manipuri',
336 'mno' : 'Manobo languages',
337 'glv' : 'Manx',
338 'mao' : 'Maori',
339 'mri' : 'Maori',
340 'arn' : 'Mapuche',
341 'arn' : 'Mapudungun',
342 'mar' : 'Marathi',
343 'chm' : 'Mari',
344 'mah' : 'Marshallese',
345 'mwr' : 'Marwari',
346 'mas' : 'Masai',
347 'myn' : 'Mayan languages',
348 'men' : 'Mende',
349 'mic' : 'Mi\'kmaq',
350 'mic' : 'Micmac',
351 'min' : 'Minangkabau',
352 'mwl' : 'Mirandese',
353 'moh' : 'Mohawk',
354 'mdf' : 'Moksha',
355 'ron' : 'Moldavian',
356 'rum' : 'Moldavian',
357 'mkh' : 'Mon-Khmer languages',
358 'hmn' : 'Mong',
359 'lol' : 'Mongo',
360 'mon' : 'Mongolian',
361 'cnr' : 'Montenegrin',
362 'mos' : 'Mossi',
363 'mul' : 'Multiple languages',
364 'mun' : 'Munda languages',
365 'nqo' : 'N\'Ko',
366 'nah' : 'Nahuatl languages',
367 'nau' : 'Nauru',
368 'nav' : 'Navaho',
369 'nav' : 'Navajo',
370 'nde' : 'Ndebele, North',
371 'nbl' : 'Ndebele, South',
372 'ndo' : 'Ndonga',
373 'nap' : 'Neapolitan',
374 'new' : 'Nepal Bhasa',
375 'nep' : 'Nepali',
376 'new' : 'Newari',
377 'nia' : 'Nias',
378 'nic' : 'Niger-Kordofanian languages',
379 'ssa' : 'Nilo-Saharan languages',
380 'niu' : 'Niuean',
381 'zxx' : 'No linguistic content',
382 'nog' : 'Nogai',
383 'non' : 'Norse, Old',
384 'nai' : 'North American Indian languages',
385 'nde' : 'North Ndebele',
386 'frr' : 'Northern Frisian',
387 'sme' : 'Northern Sami',
388 'nso' : 'Northern Sotho',
389 'nor' : 'Norwegian',
390 'nob' : 'Norwegian Bokmål',
391 'nno' : 'Norwegian Nynorsk',
392 'zxx' : 'Not applicable',
393 'nub' : 'Nubian languages',
394 'iii' : 'Nuosu',
395 'nym' : 'Nyamwezi',
396 'nya' : 'Nyanja',
397 'nyn' : 'Nyankole',
398 'nno' : 'Nynorsk, Norwegian',
399 'nyo' : 'Nyoro',
400 'nzi' : 'Nzima',
401 'ile' : 'Occidental',
402 'oci' : 'Occitan (post 1500)',
403 'pro' : 'Occitan, Old (to 1500)',
404 'arc' : 'Official Aramaic (700-300 BCE)',
405 'xal' : 'Oirat',
406 'oji' : 'Ojibwa',
407 'chu' : 'Old Bulgarian',
408 'chu' : 'Old Church Slavonic',
409 'nwc' : 'Old Newari',
410 'chu' : 'Old Slavonic',
411 'ori' : 'Oriya',
412 'orm' : 'Oromo',
413 'osa' : 'Osage',
414 'oss' : 'Ossetian',
415 'oss' : 'Ossetic',
416 'oto' : 'Otomian languages',
417 'pal' : 'Pahlavi',
418 'pau' : 'Palauan',
419 'pli' : 'Pali',
420 'pam' : 'Pampanga',
421 'pag' : 'Pangasinan',
422 'pan' : 'Panjabi',
423 'pap' : 'Papiamento',
424 'paa' : 'Papuan languages',
425 'pus' : 'Pashto',
426 'nso' : 'Pedi',
427 'per' : 'Persian',
428 'fas' : 'Persian',
429 'peo' : 'Persian, Old (ca.600-400 B.C.)',
430 'phi' : 'Philippine languages',
431 'phn' : 'Phoenician',
432 'fil' : 'Pilipino',
433 'pon' : 'Pohnpeian',
434 'pol' : 'Polish',
435 'por' : 'Portuguese',
436 'pra' : 'Prakrit languages',
437 'pro' : 'Provençal, Old (to 1500)',
438 'pan' : 'Punjabi',
439 'pus' : 'Pushto',
440 'que' : 'Quechua',
441 'raj' : 'Rajasthani',
442 'rap' : 'Rapanui',
443 'rar' : 'Rarotongan',
444 'qaa-qtz' : 'Reserved for local use',
445 'roa' : 'Romance languages',
446 'ron' : 'Romanian',
447 'rum' : 'Romanian',
448 'roh' : 'Romansh',
449 'rom' : 'Romany',
450 'run' : 'Rundi',
451 'rus' : 'Russian',
452 'kho' : 'Sakan',
453 'sal' : 'Salishan languages',
454 'sam' : 'Samaritan Aramaic',
455 'smi' : 'Sami languages',
456 'smo' : 'Samoan',
457 'sad' : 'Sandawe',
458 'sag' : 'Sango',
459 'san' : 'Sanskrit',
460 'sat' : 'Santali',
461 'srd' : 'Sardinian',
462 'sas' : 'Sasak',
463 'nds' : 'Saxon, Low',
464 'sco' : 'Scots',
465 'gla' : 'Scottish Gaelic',
466 'sel' : 'Selkup',
467 'sem' : 'Semitic languages',
468 'nso' : 'Sepedi',
469 'srp' : 'Serbian',
470 'srr' : 'Serer',
471 'shn' : 'Shan',
472 'sna' : 'Shona',
473 'iii' : 'Sichuan Yi',
474 'scn' : 'Sicilian',
475 'sid' : 'Sidamo',
476 'sgn' : 'Sign Languages',
477 'bla' : 'Siksika',
478 'snd' : 'Sindhi',
479 'sin' : 'Sinhala',
480 'sin' : 'Sinhalese',
481 'sit' : 'Sino-Tibetan languages',
482 'sio' : 'Siouan languages',
483 'sms' : 'Skolt Sami',
484 'den' : 'Slave (Athapascan)',
485 'sla' : 'Slavic languages',
486 'slo' : 'Slovak',
487 'slk' : 'Slovak',
488 'slv' : 'Slovenian',
489 'sog' : 'Sogdian',
490 'som' : 'Somali',
491 'son' : 'Songhai languages',
492 'snk' : 'Soninke',
493 'wen' : 'Sorbian languages',
494 'nso' : 'Sotho, Northern',
495 'sot' : 'Sotho, Southern',
496 'sai' : 'South American Indian languages',
497 'nbl' : 'South Ndebele',
498 'alt' : 'Southern Altai',
499 'sma' : 'Southern Sami',
500 'spa' : 'Spanish',
501 'srn' : 'Sranan Tongo',
502 'zgh' : 'Standard Moroccan Tamazight',
503 'suk' : 'Sukuma',
504 'sux' : 'Sumerian',
505 'sun' : 'Sundanese',
506 'sus' : 'Susu',
507 'swa' : 'Swahili',
508 'ssw' : 'Swati',
509 'swe' : 'Swedish',
510 'gsw' : 'Swiss German',
511 'syr' : 'Syriac',
512 'tgl' : 'Tagalog',
513 'tah' : 'Tahitian',
514 'tai' : 'Tai languages',
515 'tgk' : 'Tajik',
516 'tmh' : 'Tamashek',
517 'tam' : 'Tamil',
518 'tat' : 'Tatar',
519 'tel' : 'Telugu',
520 'ter' : 'Tereno',
521 'tet' : 'Tetum',
522 'tha' : 'Thai',
523 'tib' : 'Tibetan',
524 'bod' : 'Tibetan',
525 'tig' : 'Tigre',
526 'tir' : 'Tigrinya',
527 'tem' : 'Timne',
528 'tiv' : 'Tiv',
529 'tlh' : 'tlhIngan-Hol',
530 'tli' : 'Tlingit',
531 'tpi' : 'Tok Pisin',
532 'tkl' : 'Tokelau',
533 'tog' : 'Tonga (Nyasa)',
534 'ton' : 'Tonga (Tonga Islands)',
535 'tsi' : 'Tsimshian',
536 'tso' : 'Tsonga',
537 'tsn' : 'Tswana',
538 'tum' : 'Tumbuka',
539 'tup' : 'Tupi languages',
540 'tur' : 'Turkish',
541 'ota' : 'Turkish, Ottoman (1500-1928)',
542 'tuk' : 'Turkmen',
543 'tvl' : 'Tuvalu',
544 'tyv' : 'Tuvinian',
545 'twi' : 'Twi',
546 'udm' : 'Udmurt',
547 'uga' : 'Ugaritic',
548 'uig' : 'Uighur',
549 'ukr' : 'Ukrainian',
550 'umb' : 'Umbundu',
551 'mis' : 'Uncoded languages',
552 'und' : 'Undetermined',
553 'hsb' : 'Upper Sorbian',
554 'urd' : 'Urdu',
555 'uig' : 'Uyghur',
556 'uzb' : 'Uzbek',
557 'vai' : 'Vai',
558 'cat' : 'Valencian',
559 'ven' : 'Venda',
560 'vie' : 'Vietnamese',
561 'vol' : 'Volapük',
562 'vot' : 'Votic',
563 'wak' : 'Wakashan languages',
564 'wln' : 'Walloon',
565 'war' : 'Waray',
566 'was' : 'Washo',
567 'cym' : 'Welsh',
568 'wel' : 'Welsh',
569 'fry' : 'Western Frisian',
570 'him' : 'Western Pahari languages',
571 'wal' : 'Wolaitta',
572 'wal' : 'Wolaytta',
573 'wol' : 'Wolof',
574 'xho' : 'Xhosa',
575 'sah' : 'Yakut',
576 'yao' : 'Yao',
577 'yap' : 'Yapese',
578 'yid' : 'Yiddish',
579 'yor' : 'Yoruba',
580 'ypk' : 'Yupik languages',
581 'znd' : 'Zande languages',
582 'zap' : 'Zapotec',
583 'zza' : 'Zaza',
584 'zza' : 'Zazaki',
585 'zen' : 'Zenaga',
586 'zha' : 'Zhuang',
587 'zul' : 'Zulu',
588 'zun' : 'Zuni',
589}
591def convert_language_code(code:str) -> str:
592 if code in CODES:
593 return CODES[code]
595 return code