Ministerstwo Cyfryzacji przedstawiło rządowy polski model językowy PLLuM (Polish Large Language Model) oraz zaprezentowało plan jego dalszego rozwoju. Projekt realizowany jest na zlecenie Ministerstwa Cyfryzacji we współpracy z Politechniką Wrocławska, Instytutem Podstaw Informatyki PAN, Instytutem Slawistyki PAN, NASK-PIB, OPI-BIP oraz Uniwersytetem Łódzkim. Polski model AI został już udostępniony publicznie. PLLuM ma być wsparciem głównie w administracji publicznej.
Opracowanie: Michał Kowalski
PLLuM to zbiór modeli sztucznej inteligencji, umożliwiających przetwarzanie oraz tworzenie tekstów w języku polskim. Modele te, stworzone przez polskich specjalistów i specjalistki z branży IT oraz lingwistyki, będą wspierać rozwijanie kluczowych umiejętności cyfrowych oraz innowacyjność w administracji publicznej i biznesie.
Polski model językowy charakteryzuje się elastycznością i skalowalnością, wykorzystując od 8 do 70 miliardów parametrów. Umożliwia dokładne tworzenie treści w języku polskim. Mniejsze wersje świetnie nadają się do szybkich zadań, natomiast większe modele zapewniają wyższą precyzję oraz spójność kontekstową w zrozumieniu języka polskiego. Wśród modeli PLLuM znajdują się m.in. modele o architekturze MoE (ang. Mixture of Experts) z równomiernym doborem ekspertów oraz wyspecjalizowane modele RAG (ang. Retrieval Augmented Generation).
Model opiera się na etycznym pozyskiwaniu danych – wersje przeznaczone do użytku komercyjnego korzystają z zasobów tekstowych od właścicieli, którzy udzielili licencji konsorcjum, oraz z zasobów, które zgodnie z prawem autorskim i regulacjami UE mogą być wykorzystane do stworzenia całkowicie otwartego modelu. Modele naukowe (czyli te udostępniane na licencjach, które nie dopuszczają zastosowań komercyjnych) również wykorzystują ogólnodostępne zbiory danych, takie jak Common Crawl.
PLLuM dopracowywany jest na podstawie autorskich zestawów danych, czyli dziesiątek tysięcy tak zwanych instrukcji – pobudzeń (promptów) i przewidywanych odpowiedzi modelu – oraz preferencji – pobudzeń oraz różnych odpowiedzi modeli ocenionych pod względem jakości – stworzonych przez zespół składający się z ponad 50 ekspertów i ekspertek.
PLLuM w połączeniu z modelem Bielik AI może wspierać rozwój sztucznej inteligencji tworzonej w Polsce, wzajemnie wspomagając się w bardziej efektywnym procesie trenowania oraz w zdobywaniu i udostępnianiu danych, niezbędnych do tego, aby #AIMadeInPoland nieustannie się rozwijało – dla administracji publicznej, sektora biznesowego oraz społeczeństwa.
PLLuM wyróżnia się spośród innych modeli językowych. Jest zaprojektowany z myślą o specyfice języka polskiego oraz terminologii związanej z administracją publiczną. Podczas jego tworzenia wykorzystuje się zaawansowane metody zbierania danych oraz oceny ich jakości. PLLuM w głównej mierze opiera się na danych organicznych - ręcznie opracowywanych, zamiast wykorzystywania innych modeli językowych. Dzięki treningowi na polskich zasobach, efektywnie radzi sobie z wyzwaniami związanymi z fleksją i złożoną składnią, generując precyzyjne treści.
PLLuM dostarczy nowoczesne rozwiązania dla administracji publicznej, wspierając tym samym dalszą cyfryzację Polski. Kluczowym elementem będzie tu wirtualny asystent w aplikacji mObywatel, który pomoże obywatelom w uzyskiwaniu informacji publicznych. Warto wspomnieć także o inteligentnym asystencie urzędowym, który zautomatyzuje przetwarzanie dokumentów, analizę treści, wyszukiwanie informacji oraz udzielanie odpowiedzi na pytania obywateli. Twórcy zamierzają postawić na edukację, która ułatwi rozwój aplikacji edukacyjnych, tłumaczeń oraz wspomoże nauczycieli w prowadzeniu interesujących lekcji z wykorzystaniem najnowszych technologii.
Ministerstwo Cyfryzacji udzieli konsorcjum dotacji w kwocie 19 mln zł na kontynuację rozwoju projektu. Przewodniczącym konsorcjum, HIVE – Ośrodek Badań nad Bezpieczeństwem SI w NASK, będzie odpowiadać za koordynację działań związanych z implementacją PLLuM w usługach administracji publicznej.
W 2025 roku do konsorcjum PLLuM dołączy Centralny Ośrodek Informatyki, który będzie odpowiedzialny za wdrożenie modelu jako narzędzia dla urzędników oraz w aplikacji mObywatel. W aplikacji zostanie wprowadzony wirtualny asystent, który ułatwi obywatelom korzystanie z usług publicznych. Akademickie Centrum Komputerowe CYFRONET AGH dostarczy natomiast mocy obliczeniowej potrzebnej do trenowania modeli i ich udostępniania. CYFRONET AGH dysponuje nowoczesną infrastrukturą obliczeniową, w tym najszybszym superkomputerem w Polsce.
Rozwój projektu oraz włączenie do niego nowych partnerów – Centralnego Ośrodka Informatyki i CYFRONET-u, otwierają drogę do jeszcze większego wykorzystania sztucznej inteligencji w codziennym życiu. Polska staje się jednym z czołowych krajów w rozwijaniu modeli językowych, co skutkuje zwiększoną innowacyjnością i konkurencyjnością całej gospodarki.
Rozwój PLLuM stwarza możliwość zwiększenia konkurencyjności Polski w branży IT oraz całej gospodarce. Inwestycje w sztuczną inteligencję wspierają tworzenie nowych firm i produktów bazujących na AI, co przyczynia się do wzrostu gospodarczego. Zastosowanie PLLuM w różnych dziedzinach – od edukacji i administracji po sektor prywatny – sprzyja opracowywaniu nowoczesnych rozwiązań, które wzmacniają pozycję Polski wśród liderów rozwoju AI.
PLLuM jest dostępny tutaj. Modele można pobrać na Hugging Face.
Serwis Ministerstwa Cyfryzacji
Przechowywanie danych w chmurze polega na zapisywaniu i zarządzaniu danymi na zdalnych serwerach, które są dostępne przez internet. Zamiast przechowywać pliki na lokalnych dyskach twardych lub serwerach, użytkownicy mogą korzystać z infrastruktury dostarczanej przez dostawców usług chmurowych. Jest to wygodne i efektywne rozwiązanie, które zapewnia dostęp do danych z dowolnego miejsca, elastyczność, skalowalność oraz wysoki poziom bezpieczeństwa i niezawodności.
© Portal Poradyodo.pl