Europa jest domem dla ponad 200 języków i bogatej spuścizny kulturowej, która obejmuje tysiące lat zachowanych w milionach dóbr kultury opowiadających historię jej mieszkańców. Ale te języki są czymś więcej niż nośnikami dziedzictwa i historii – wspierają zarówno kulturę, jak i handel, umożliwiając ludziom łączenie się, tworzenie i prowadzenie biznesu.
Wraz z cyfryzacją świata, duża część europejskiej różnorodności językowej i kulturowej może zostać pozostawiona w tyle. Większość treści internetowych – które są głównym źródłem danych szkoleniowych dla obecnych dużych modeli językowych (LLM) – jest w języku angielskim. Wiele z nich odzwierciedla amerykańską perspektywę. Komisja Europejska ostrzegła, że ambicja kontynentu, aby zdigitalizować swój ogromny korpus kulturowy, pozostaje „znacznie poza zasięgiem”. Jak uznali przywódcy europejscy, bez pilnych działań, ta nierównowaga to nie tylko problem kulturowy – to kwestia komercyjna. Sztuczna inteligencja, która nie rozumie języków, historii i wartości Europy, nie może w pełni służyć ludziom, firmom ani przyszłości.
Dlatego dzisiaj w Paryżu pogłębiamy nasze zaangażowanie w cyfrową przyszłość Europy dzięki dwóm nowym inicjatywom skoncentrowanym na uczynieniu tego, co wyjątkowo europejskie – języków i kultury, bardziej otwartym i dostępnym. Opiera się to na naszych europejskich zobowiązaniach cyfrowych, ogłoszonych na początku tego roku, w celu rozszerzenia sztucznej inteligencji i infrastruktury chmurowej, wzmocnienia odporności cyfrowej i ochrony prywatności danych, zwiększenia cyberbezpieczeństwa oraz wsparcia cyfrowej suwerenności Europy i szerszej gospodarki.
Po pierwsze, aby wspierać rozwój bardziej wielojęzycznych LLM w Europie i dla Europy, skupiamy pracowników z dwóch naszych centrów innowacji w Strasburgu we Francji, która od dawna jest skrzyżowaniem kultur, a teraz dodatkowo jest domem dla kluczowych instytucji europejskich. Centra te pomogą rozszerzyć dostępność wielojęzycznych danych dla rozwoju sztucznej inteligencji – wykorzystując Microsoft Azure, naszą wiedzę techniczną i partnerstwa w całej Europie. W ramach tych działań kierujemy również zaproszenie do składania wniosków, aby pomóc w rozszerzeniu podaży treści cyfrowych dla 10 języków europejskich.
Po drugie, aby zapewnić, że bogactwo kulturowe Europy jest reprezentowane i dostępne w sferze cyfrowej, rozszerzamy inicjatywę Microsoft Culture AI, która pomaga chronić języki, punkty orientacyjne i artefakty poprzez cyfrowe repliki i współpracę w obrębie danych. Od 2019 roku Microsoft posiada cyfrowo zachowane dziedzictwo, w tym Starożytną Olimpię w Grecji, Mount Saint-Michel we Francji, Bazylikę św. Piotra na Watykanie i 80. rocznicę lądowania aliantów na plaży w Normandii. Tej jesieni Microsoft rozpocznie pracę z francuskim Ministerstwem Kultury i francuską firmą Iconem nad stworzeniem cyfrowej repliki Notre Dame – nowo odrestaurowanego, 862-letniego gotyckiego arcydzieła Paryża.
Ten rodzaj wsparcia dla Europy i jej różnorodności nie jest nowy dla Microsoft. Te najnowsze kroki wspierające języki i kulturę są oparte na naszym ponad 40-letnim doświadczeniu w obsłudze krajów i kultur w całej Europie i na całym świecie. Na początku dowiedzieliśmy się, że wzmocnienie pozycji każdej osoby na planecie wymaga, aby oferowane przez nas technologie były dostępne w językach, którymi mówi świat. Dlatego dzisiaj Windows obsługuje ponad 90 języków, w tym wszystkie oficjalne języki europejskie i inne języki regionalne, takie jak baskijski, kataloński, galicyjski, luksemburski, walencki i inne. Microsoft 365 ma również szeroki zasięg aplikacji Office w ponad 30 językach europejskich, w tym we wszystkich językach urzędowych Unii Europejskiej.
Pilna potrzeba zniwelowania luki językowej
Unia Europejska ma 24 języki urzędowe, z dziesiątkami innych uznanych na poziomie krajowym lub regionalnym. Jednak wiele z tych języków – takich jak duński, fiński, szwedzki i grecki – reprezentuje mniej niż 0,6% treści internetowych. Inne, takie jak maltański, irlandzki, estoński, łotewski i słoweński, są ledwo widoczne w Internecie. Podczas gdy tylko 5% światowej populacji posługuje się językiem angielskim jako pierwszym językiem, tekst angielski stanowi połowę treści internetowych, dominując w danych wykorzystywanych do szkolenia modeli sztucznej inteligencji.
Ta cyfrowa niedostateczna reprezentacja ma realne konsekwencje, ponieważ szkolenie LLM w dużym stopniu polega na treściach internetowych. Gdy dany język nie jest wystarczająco obecny online, istnieje ryzyko wykluczenia z przyszłych usług AI. Podczas gdy większe modele ogólnego przeznaczenia mogą obsługiwać wiele języków, nadal mogą przegapić niuanse językowe, kontekst kulturowy i głębię regionalną potrzebną do prawdziwie zintegrowanych aplikacji.
Modele LLM przeszkolone na ograniczonych danych są mniej dokładne, mają wyższe halucynacje i błędy, mają trudności ze słownictwem i odzwierciedlają więcej uprzedzeń.
Na przykład, Llama 3.1, popularny model open source, wykazuje różnicę w wydajności powyżej 15 punktów procentowych między odpowiadaniem w języku angielskim i greckim oraz różnicę powyżej 25 punktów przy porównywaniu angielskiego z łotewskim. Oznacza to, że gdyby ten model był uczennicą szkoły średniej, byłby najlepszy w swojej klasie w języku angielskim, ale w środku klasy w języku greckim i na końcu w języku łotewskim. I ta dysproporcja między językami jest widoczna we wszystkich głównych testach wydajności LLM.
W wielu przypadkach języki z bogatym dziedzictwem kulturowym, takie jak bretoński, oksytański i romański, które UNESCO klasyfikuje jako zagrożone, są w dużej mierze nieobsługiwane w dzisiejszych głównych systemach sztucznej inteligencji.
Ekonomiczna siła języka
Ten jednostronny rozwój modeli językowych ma realne konsekwencje ekonomiczne. Kiedy systemy sztucznej inteligencji nie mogą zrozumieć lub odpowiedzieć w języku regionu, ograniczają dostęp do usług i możliwości, podważając zarówno działanie lokalnych firm, jak i szerszy wzrost gospodarczy.
Szeroka dyfuzja (rozprzestrzenianie się) sztucznej inteligencji – adopcja i wykorzystanie jej w różnych gospodarkach – będzie jednym z najważniejszych czynników napędzających innowacje i wzrost produktywności w następnej dekadzie. Podobnie jak elektryczność i inne technologie ogólnego przeznaczenia w przeszłości, sztuczna inteligencja reprezentuje kolejny etap industrializacji.
W przypadku społeczności, których języki są niedostatecznie reprezentowane online, korzyści płynące ze sztucznej inteligencji mogą pozostać poza zasięgiem. Wyobraź sobie właściciela małej firmy na Malcie, który mówi tylko po maltańsku. Obecnie zaawansowane narzędzia sztucznej inteligencji do zadań takich jak analiza rynku lub generowanie treści prawdopodobnie nie działają w języku maltańskim, ograniczając sposób, w jaki ten przedsiębiorca może wykorzystać sztuczną inteligencję. Albo rozważ polskojęzycznego studenta w mieście pod Warszawą, który nie może znaleźć zasobów edukacyjnych AI w swoim języku, co potencjalnie wpływa na możliwości uczenia się. I nawet jeśli platforma AI nominalnie obsługuje język, doświadczenie może być poniżej normy.
Europejskie rządy i instytucje uznały znaczenie zajęcia się tą sytuacją. Aby zwiększyć konkurencyjność gospodarczą w erze sztucznej inteligencji, Europa będzie musiała przełamać bariery językowe i pomóc w rozprzestrzenieniu się korzyści z AI na całym kontynencie. Według Komisji Europejskiej tylko 13,5% firm z UE korzysta ze sztucznej inteligencji. Plan działania UE w zakresie kontynentu zakłada, że przełamanie barier językowych w kontekście wykorzystania AI na jednolitym rynku może zwiększyć handel wewnątrzunijny nawet o 360 miliardów euro.
Nowe kroki w celu rozwiązania luk językowych
Aby pomóc wypełnić tę lukę językową, Microsoft będzie współpracować z europejskimi partnerami w celu zwiększenia dostępności danych wielojęzycznych. We współpracy z Laboratorium ICube na Uniwersytecie w Strasburgu – instytucją zajmującą się inżynierią, informatyką i obrazowaniem – będziemy wspierać szkolenia AI, umieszczając personel z Microsoft Open Innovation Center (MOIC) i naszego AI for Good Lab w Strasburgu we Francji. Zespół ten będzie wspierany przez globalną sieć wewnętrzną składającą się z ponad 70 inżynierów Microsoft, naukowców zajmujących się danymi i specjalistów ds. polityki. Ta współpraca między MOIC, Microsoft AI for Good Lab i Uniwersytetem w Strasburgu sfinansuje również wykształcenie dwóch doktorantów i zapewni do 1 miliona dolarów w kredytach Azure.
Ten zespół zacznie od wykorzystania własnego magazynu wielojęzycznych danych Microsoft, dzięki czemu będą one dostępne i przejrzyste dla europejskiej opinii publicznej, w tym programistów open source. Obejmuje to na przykład wielojęzyczne dane tekstowe z GitHub i zestawy danych głosowych. MOIC i GitHub będą współpracować z Hugging Face, popularną platformą współpracy do rozwoju modeli AI stworzoną i obsługiwaną przez francuski startup, aby hostować i udostępniać dane szeroko. Opiera się to na naszej istniejącej już współpracy z Hugging Face, aby szeroka gama otwartych modeli w kolekcji modeli Hugging Face była dostępna do wdrożenia jednym kliknięciem w katalogu modeli Azure. Obejmuje to wydanie najnowszego wkładu w wielojęzyczną sztuczną inteligencję – model SmoILM3, wysoce wydajny wielojęzyczny model parametrów modelu 3B z obsługą 6 języków: angielskiego, francuskiego, hiszpańskiego, niemieckiego, włoskiego i portugalskiego.
MOIC będzie również współpracować z Common Crawl, jednym z największych darmowych i otwartych repozytoriów danych indeksowanych w sieci. MOIC sfinansuje pracę w Common Crawl, wykorzystując native speakerów do oznaczania i rozmieszczania danych w języku europejskim w publicznie dostępnym zbiorze danych Common Crawl.
Ponadto MOIC i AI for Good Lab ogłoszą zaproszenie do składania wniosków, aby pomóc w rozszerzeniu podaży treści cyfrowych dla 10 języków europejskich poprzez udostępnienie ich zbiorów tekstów w sposób odpowiedzialny i etyczny na własnych warunkach dla wielojęzycznego rozwoju sztucznej inteligencji i doświadczeń. Wnioski o dotacje będą dostępne na stronie internetowej AI for Good Lab, zaczynając od 1 września 2025 r. Wybierając odbiorców, MOIC i AI for Good Lab skupią się na możliwościach odblokowania danych w językach o stosunkowo niskiej reprezentacji w treściach online, takich jak estoński, alzacki, słowacki, grecki i maltański. Granty zapewnią odbiorcom środki do wykorzystania w Azure oraz wsparcie inżynieryjne i techniczne.
Podczas gdy potrzebujemy więcej wielojęzycznych danych, lepsze narzędzia technologiczne i know-how również mogą pomóc. Na przykład wiele języków używa skryptów (systemów pisania), które obecnie stanowią wyzwanie dla modeli pierwotnie zaprojektowanych dla alfabetu łacińskiego. Znaki cyrylicy, alfabet grecki i język arabski mają inne właściwości. Gotowe „tokenizery” często rozbijają te skrypty w nieoptymalny sposób. Może to zaszkodzić zdolności modelu do uczenia się kontekstu lub dokładnej pisowni w tych językach. Nowe postępy w technikach, które umożliwiają modelowi równomierną obsługę dowolnego skryptu, mogą pomóc. Lepsze mechanizmy tworzenia danych syntetycznych oraz lepszego przetwarzania tych danych mogą również pomóc, zwłaszcza gdy skutecznie zarządzają prywatnością i wrażliwymi danymi.
MOIC i AI for Good Lab będą pracować nad ułatwieniem rozwoju i dzielenia się wiedzą, narzędziami i możliwościami w celu rozwiązania tych problemów i wzmocnienia pozycji europejskich programistów. AI for Good Lab opublikuje plan, aby szczegółowo opisać, jak tworzyć wysokiej jakości zestawy danych językowych i szkolić lokalne LLM, aby uzyskać więcej mocy z istniejących danych. Te dwie grupy będą również wspierać odpowiednie badania, organizować spotkania, współinwestować w projekty danych wspólnych i zapewniać, że wiedza, narzędzia i możliwości są dostępne tam, gdzie są najbardziej potrzebne. Zespoły te będą również nadal wspierać wysiłki, takie jakie podejmują Centrum Superkomputerowe w Barcelonie, Centrum Technologii Językowej Basków i Uniwersytet Santiago de Compostela, aby wypuścić modele sztucznej inteligencji przeszkolone w języku hiszpańskim, katalońskim, baskijskim i galicyjskim na Azure AI Foundry. Inicjatywa ta umożliwia programistom tworzenie systemów sztucznej inteligencji, które działają w oficjalnych językach Hiszpanii, wspierając innowacje i integrację.
Wreszcie, aby przyspieszyć odpowiedzialne badania nad sztuczną inteligencją i pomóc w wypełnieniu luki językowej, Microsoft rozpoczyna dwie nowe współprace akademickie w Europie na Uniwersytecie w Strasburgu i IE University School of Science & Technology w Hiszpanii. Microsoft AI for Good Lab i MOIC będą współpracować z Uniwersytetem w Strasburgu, aby zapewnić granty Azure na wsparcie wspólnych badań nad sztuczną inteligencją. W IE University School of Science & Technology Microsoft AI for Good Lab zapewni granty Azure na wsparcie wspólnych badań ukierunkowanych na języki o niskich zasobach, w tym wsparcie dla powiązanych projektów w celu przyspieszenia nowych rozwiązań skoncentrowanych na języku i sztucznej inteligencji.
Nowe kroki, aby pomóc cyfrowo zabezpieczyć dziedzictwo kulturowe Europy
Od 2019 roku inicjatywa Microsoft Culture AI koncentruje się na wykorzystaniu sztucznej inteligencji na całym świecie, aby pomóc zachować języki, miejsca, historie i artefakty, które definiują ludzką historię. Inicjatywa wspiera projekty digitalizujące i chroniące dziedzictwo kulturowe. Jest oparta na sztucznej inteligencji dla Good Lab i działa poprzez współpracę z organizacjami non-profit, uniwersytetami, rządami i instytucjami kulturalnymi – od języków zagrożonych po kultowe zabytki, w tym we Francji, Rzymie i Grecji. Niezależnie od tego, czy chodzi o tworzenie cyfrowych replik miejsc historycznych, czy uczynienie kolekcji muzealnych bardziej dostępnymi, celem jest zapewnienie, że tożsamość kulturowa i różnorodność są nie tylko zachowane, ale także bardziej inkluzywne (włączające) i możliwe do odkrycia w erze cyfrowej.
Dziś ogłaszamy nasz kolejny projekt, budowę cyfrowej repliki we współpracy z francuskim Ministerstwem Kultury i francuską firmą Iconem. Projekt stworzy cyfrowego bliźniaka katedry Notre Dame w Paryżu, architektonicznego i kulturowego punktu orientacyjnego ukształtowanego przez wieki. Budowa Notre Dame rozpoczęła się w 1163 roku i trwała przez prawie 200 lat, co zaowocowało 128-metrowym gotyckim arcydziełem z bliźniaczymi wieżami wznoszącymi się 69 metrów nad Sekwaną. Po niszczycielskim pożarze w 2019 roku, Notre Dame zostało ponownie otwarte w 2024 roku dla odwiedzających. Projekt wykorzysta technologię i metody, które opracowaliśmy z Iconem, aby stworzyć cyfrowego bliźniaka Bazyliki św. Piotra w zeszłym roku, która została oparta na ponad 400 000 zdjęć i zaawansowanych algorytmach sztucznej inteligencji, we współpracy z Watykanem.
Podobnie jak zeszłoroczny projekt udokumentował dla Watykanu każdy szczegół Bazyliki, ten nowy projekt stworzy cyfrową replikę, która zachowa na stałe w formie cyfrowej każdy szczegół Notre Dame, zapewniając, że jej struktura, historia i symbolika są chronione i dostępne dla przyszłych pokoleń. Łącząc zaawansowane obrazowanie ze sztuczną inteligencją, stworzymy i przekażemy państwu francuskiemu cyfrowego bliźniaka, który może być używany przez konserwatorów i wyświetlany w przyszłym Musée Notre Dame de Paris.
Oprócz projektu Notre Dame, ogłaszamy dzisiaj również partnerstwo z Bibliothèque Nationale de France oraz Iconem w celu digitalizacji prawie 1500 kinowych modeli z pokazów w Operze Narodowej w Paryżu w latach 1800-1914. Zdigitalizowane zestawy modeli zostaną udostępnione poprzez interaktywne, edukacyjne doświadczenia i wystawy oraz jako zestaw danych udostępniony na platformie Gallica Bibliothèque Nationale de France projektów badawczych.
Wreszcie rozpoczynamy nowe prace z Musée des Arts Décoratifs, aby udostępnić publicznie szczegółowe cyfrowe opisy około 1,5 miliona artefaktów od średniowiecza do dzisiaj. Ten krok umożliwi badaczom historii, historii sztuki i konserwacji dostęp do tych nowych informacji oraz do badań i wykorzystania ich we własnych badaniach opartych na sztucznej inteligencji.
Patrząc w przyszłość: przyjmowanie podejścia opartego na zasadach
Dziś podejmujemy nowe kroki z pokorą i szacunkiem, zdając sobie sprawę, że zachowanie różnorodności językowej i kulturowej Europy jest zadaniem Europejczyków, którym przewodzą Europejczycy. Unia Europejska rozpoczęła już wysiłki w celu łączenia danych językowych UE i digitalizacji wszystkich rodzajów dziedzictwa kulturowego. Naszą rolą jest przyczynianie się do nich i wspieranie tych i podobnych wysiłków. Nic z tego, co dziś ogłaszamy, nie stworzy żadnych zastrzeżonych danych ani technologii dla samego Microsoft.
Ostatecznie najlepszym sposobem na umożliwienie większej liczbie osób w całej Europie zaspokojenia tych potrzeb jest wyposażenie ich w umiejętności z zakresu sztucznej inteligencji, które pozwolą im odnieść sukces w tych dziedzinach. Jak niedawno stwierdziła Komisja Europejska, deficyt umiejętności cyfrowych w sektorze kultury hamuje wysiłki na rzecz cyfryzacji dzieł dziedzictwa kulturowego w całej Europie. Aby pomóc wypełnić tę lukę w umiejętnościach, MOIC i AI for Good Lab podzielą się tym, co wiemy i pomogą wykonać tę krytyczną pracę.
Technologia powinna odzwierciedlać bogactwo ludzkości – a nie go pozbawiać. Podejmując teraz celowe kroki, możemy pomóc zapewnić, że sztuczna inteligencja nie usuwa różnorodności językowej i kulturowej, ale ją wzmacnia.
Jest to jedno z wyzwań definiujących równość ery sztucznej inteligencji. A jeśli będziemy pracować razem – z celem i skrupulatnością – możemy zamknąć lukę i zbudować cyfrową przyszłość, która szanuje każdy język, każdą kulturę i każdą społeczność w całej Europie.