OffNews.bg

Българският език в риск от дигитална смърт

21 от близо 80-те езика, които се говорят в Европа, са застрашени от дигитална смърт, съобщи БАН. При българския също има риск от отмиране, но той не е поставен в групата с най-застрашените 21 езика.

Тези изводи са от проучване на Европейската мрежа за върхови постижения (META-NET), част от която е и Институтът за български език „Проф. Любомир Андрейчин“ при БАН.

В META-NET членуват 60 изследователски центъра от 34 страни. Проучването е проведено от над 200 експерти.

За въпросните 21 от 30-те изследвани езика езиковите технологии са „недоразвити“ или „слабо развити“, твърдят експертите.

Под езикови технологии най-общо се разбира софтуер, който може да обработва говорима и писмена човешка реч (програми за правописна и граматична корекция и за синтез на реч, интерактивни лични асистенти на смартфоните, диалогови системи за обработка на въпроси по телефона, системите за автоматичен превод, уеб търсачки, синтезатори на реч в навигационните системи за автомобили).

Изследването включва обзор и оценка на състоянието на наличните езикови технологии за всеки език в четири категории: автоматичен превод, обработка и синтез на реч, анализ на текст и общо състояние на езиковите ресурси.

В поне една от тези категории 21 от 30-те езика (70%) получават най-ниската оценка (т. е. за тях липсват езикови технологии или съществуващите технологии са недоразвити).

Българският също има една слаба оценка – за автоматичният превод, но въпреки това не е поставен в списъка с 21-те езика, изрично посочват от БАН.

Най-застрашените езици са 4: исландски, латвийски, литовски и малтийски. Те получават най-ниска оценка и в четирите категории.

Нито един от проучените езици няма оценка „отлично състояние“.

От тях най-добра е оценката за ресурсите на английски. След него се нареждат холандски, френски, немски, италиански и испански език, които са оценени като „средно развити”.

Технологиите и ресурсите за езици като баски, български, каталански, гръцки, унгарски и полски са категоризирани като „фрагментарно развити”, което означава, че са сред езиците с висок риск от отмиране в дигиталната епоха.

За момента българският език (получил средна оценка в категориите обработка на реч, анализ на текст и общо състояние на езиковите ресурси) не е застрашен, но ситуацията би могла да се промени значително с навлизането на ново поколение технологии, използващи наистина ефективно естествените езици.

Координаторът на инициативата проф. Ханс Уцкорайт определи резултатите като „силно обезпокоителни“.

„По-голямата част от европейските езици не разполагат с достатъчно количество адекватни ресурси, които да гарантират оцеляването им в епохата на развити технологии, а при някои езици дори нуждата от такива ресурси не е била осъзната. Поради тази причина и бъдещето на много от европейските езици е неясно”, коментира той.

Проф. Уцкорайт е директор на Германския център за проучване на изкуствения интелект (DFKI).

„Наблюдаваме драстично разминаване в равнището на състоянието и достъпа до езиковите технологии за различните европейски езици и за различните технологични области. Пропастта между т. нар. „големи” и „малки” езици продължава да се разширява. Трябва да положим усилия, за да осигурим адекватна технологична подкрепа за всички по-малки езици, за които липсват нужните ресурси и технологии. В противен случай те за застрашени от дигитална смърт”, каза Георг Рем (DFKI), един от редакторите.