Zrobić archiwa danych to ostatnie jest zadaniem pilnym. Takie jest przesłanie inicjatywy Komisji Europejskiej eArchiving, która właśnie ogłosiła wersję 2.0 swojej architektury i przedłużyła finansowanie na kolejne dwa lata.
Pod kierunkiem komisji inicjatywa zdefiniuje procesy – wykorzystując otwarte formaty i metadane – co oznacza, iż organizacje nie będą musiały trzymać starego sprzętu IT na wypadek, gdyby był potrzebny do odczytania starych danych.
„Przywrócenie bardzo starych danych wiąże się z wieloma problemami” – stwierdził Gregor Završnik, badacz z Uniwersytetu w Lublanie w Słowenii, konsultant ds. archiwizacji danych geoprzestrzennych i członek inicjatywy eArchiving. „Na pewno trzeba umieć odczytać nośniki danych i odczytać format pliku – ale jest coś gorszego. Kiedy w końcu wyodrębnisz dane z tabeli Excela, nie masz kontekstu.
„Więc nie wiesz, jakie numery odpowiadają przywróconym przez Ciebie numerom. Jak je zebrano? Z jakim poziomem precyzji? Czy są autentyczne?” dodał podczas rozmowy z francuską siostrzaną stroną LeMagIT podczas niedawnego Wycieczka prasowa IT wydarzenie.
Inicjatywa eArchiving opiera się na projekcie E-Ark, czyli społeczności programistów, która od 2014 roku pracuje nad stworzeniem uniwersalnych i trwałych narzędzi do sprawdzania, ponownego formatowania i archiwizacji danych. Kluczowym wyzwaniem jest zapewnienie interoperacyjności archiwów poprzez wspólne kodowanie, ale także zgodność z potrzebami regulacyjnymi.
Od projektu badawczego do inicjatywy europejskiej
„Na początku tworzenia E-Ark wyobrażaliśmy sobie, iż stworzymy uniwersalny format archiwizacji” – powiedział Završnik. „Ale w miarę postępów zdaliśmy sobie sprawę, iż te archiwa są prowadzone głównie przez tych, którzy pierwotnie stworzyli dane, i iż wszyscy uważają, iż te dane będą cenne komercyjnie choćby w przyszłości. Potrzebujemy więc stworzenia standardu, który umożliwi przedsiębiorstwu przywrócenie własnych archiwów po kilku latach.”
Kluczowym wyzwaniem było jednak to, iż projekt E-Ark miał trudności z połączeniem dużych graczy w dziedzinie przechowywania i tworzenia kopii zapasowych. Składa się z kilkunastu zespołów, ale w przeważającej mierze pochodzą one ze świata badań.
Wyzwanie na poziomie Komisji Europejskiej polega na tym, iż aby przekształcić E-Ark w eArchiving, zawartość techniczna projektu musi stać się akceptowanym standardem na rynku. Kluczowym wczesnym etapem jest ujednolicenie uniwersalnego formatu archiwum wyobrażonego przez E-Ark i będzie on odpowiadał nowej wersji normy ISO 14721, modelu referencyjnego dla otwartego systemu informacji archiwalnej.
„Jeśli Komisja zażąda, aby sektor publiczny w UE przyjął nasz format archiwum, nie może zobowiązać przedsiębiorstw do zrobienia tego samego” – stwierdził Završnik. „Ale może im powiedzieć, iż jeżeli skorzystają z otwartego formatu, nie będą zamknięci na zawsze w technologii wymagającej użycia narzędzi komercyjnych. Co więcej, umożliwi swobodną wymianę danych pomiędzy sobą.”
Format CSIP pozwala na wyspecjalizowane metadane
Format pliku proponowany w ramach inicjatywy to wspólna specyfikacja pakietów informacyjnych (CSIP). własny dedykowany portal dla chcących konwertować dane do formatu wieczystego archiwum lub dla software house’ów chcących wdrożyć je w produktach.
„Format ten nie wymaga żadnych licencji komercyjnych, jest udokumentowany i skonstruowany tak, aby można go było ponownie odczytać, swobodnie używać w dowolnym oprogramowaniu, umożliwiając unikalny identyfikator numeryczny dla wszystkich archiwum i definicję zależności z innymi danymi” – powiedział Završnik.
LeMagIT rozumiał, iż są to zależności danych związane z pakietami Linuksa lub oprogramowaniem uruchamiającym biblioteki stron trzecich potrzebne do działania, na przykład gdy archiwum rejestru gruntów musi współpracować z mapami z innego archiwum.
CSIP jest wdrażany poprzez platformę zarządzającą znaną jako OAIS (Open Archival Information Package). Obejmuje to narzędzia do konwersji danych źródłowych dzięki protokołu SIP (Submission Information Package), zachowania ich po przeformatowaniu dzięki AIP (archival Information package) i redystrybucji wyłącznie z danymi wymaganymi dla konkretnego zawodu lub aplikacji dzięki DIP (Dissemination Information Package). .
Każdy podformat ma swoje własne metadane. Na przykład DIP zawiera metadane, które umożliwiają wykorzystanie zawartości archiwalnej w kontekście medycznym (pliki), komercyjnym (SQL), architektonicznym (modelowanie 3D) lub kartograficznym (obrazy wektorowe).
Nowa wersja, v 2.0, wprowadza ulepszenia w zakresie szczegółowości formatu. W szczególności dotyczy to kategoryzacji metadanych na sześć grup: strategia, biznes, aplikacja, technologia, wdrożenie i migracja. dla wszystkich z nich istnieją ustawienia: struktura pasywna, zachowanie, struktura aktywna i motywacja.