Българският език в риск от дигитална смърт
21 от близо 80-те езика, които се говорят в Европа, са застрашени от дигитална смърт, съобщи БАН. При българския също има риск от отмиране, но той не е поставен в групата с най-застрашените 21 езика.
Тези изводи са от проучване на Европейската мрежа за върхови постижения (META-NET), част от която е и Институтът за български език „Проф. Любомир Андрейчин“ при БАН.
В META-NET членуват 60 изследователски центъра от 34 страни. Проучването е проведено от над 200 експерти.
За въпросните 21 от 30-те изследвани езика езиковите технологии са „недоразвити“ или „слабо развити“, твърдят експертите.
Под езикови технологии най-общо се разбира софтуер, който може да обработва говорима и писмена човешка реч (програми за правописна и граматична корекция и за синтез на реч, интерактивни лични асистенти на смартфоните, диалогови системи за обработка на въпроси по телефона, системите за автоматичен превод, уеб търсачки, синтезатори на реч в навигационните системи за автомобили).
Изследването включва обзор и оценка на състоянието на наличните езикови технологии за всеки език в четири категории: автоматичен превод, обработка и синтез на реч, анализ на текст и общо състояние на езиковите ресурси.
В поне една от тези категории 21 от 30-те езика (70%) получават най-ниската оценка (т. е. за тях липсват езикови технологии или съществуващите технологии са недоразвити).
Българският също има една слаба оценка – за автоматичният превод, но въпреки това не е поставен в списъка с 21-те езика, изрично посочват от БАН.
Най-застрашените езици са 4: исландски, латвийски, литовски и малтийски. Те получават най-ниска оценка и в четирите категории.
Нито един от проучените езици няма оценка „отлично състояние“.
От тях най-добра е оценката за ресурсите на английски. След него се нареждат холандски, френски, немски, италиански и испански език, които са оценени като „средно развити”.
Технологиите и ресурсите за езици като баски, български, каталански, гръцки, унгарски и полски са категоризирани като „фрагментарно развити”, което означава, че са сред езиците с висок риск от отмиране в дигиталната епоха.
За момента българският език (получил средна оценка в категориите обработка на реч, анализ на текст и общо състояние на езиковите ресурси) не е застрашен, но ситуацията би могла да се промени значително с навлизането на ново поколение технологии, използващи наистина ефективно естествените езици.
Координаторът на инициативата проф. Ханс Уцкорайт определи резултатите като „силно обезпокоителни“.
„По-голямата част от европейските езици не разполагат с достатъчно количество адекватни ресурси, които да гарантират оцеляването им в епохата на развити технологии, а при някои езици дори нуждата от такива ресурси не е била осъзната. Поради тази причина и бъдещето на много от европейските езици е неясно”, коментира той.
Проф. Уцкорайт е директор на Германския център за проучване на изкуствения интелект (DFKI).
„Наблюдаваме драстично разминаване в равнището на състоянието и достъпа до езиковите технологии за различните европейски езици и за различните технологични области. Пропастта между т. нар. „големи” и „малки” езици продължава да се разширява. Трябва да положим усилия, за да осигурим адекватна технологична подкрепа за всички по-малки езици, за които липсват нужните ресурси и технологии. В противен случай те за застрашени от дигитална смърт”, каза Георг Рем (DFKI), един от редакторите.