O Mało Co Lustracja

@ uczennice – kalkulacje

Skanowanie jest newralgicznym punktem projektu „Lustro”. ze względu na czas, potrzebną sporą liczbę security cleared personnel i duży wklad pracy manualnej bo forma dokumentow uniemozliwia zastosowanie całkowicie zautomatyzowanych high speed feed scanners.

Znany mi jest przyklad amerykanskiej firmy brokerskiej, która postawiła system na 1.4G dokumentów w cztery lata, ale moźna duzo szybciej, bo ta firma nie tylko tym się swowczas zajmowala, a czas to kwestia priorytetu i przeznaczonych na taki projekt pieniędzy.

Ponieważ skanowanie jest upierdliwe i trudne do zabezpieczenia kontrwywiadowczego, myślę że oryginały z archiwum można będzie przeskanować tylko raz, jest na to tylko jedna szansa, bo nikt nigdy nie będzie chciał powtarzać jeszcze raz najtrudniejszej części projektu.

Jestem więc za tym, źeby oryginały zostały zeskanowane w wysokiej rozdzielczości, może nawet w kolorze, po powiedzmy 5MB na dokument (po kompresji). Caly imagery dataset ma wtedy 1.3G x5M = ca 6600TB (6.6 PB). Ale storage jest tani.

Do udostępniania w inernecie naturalnie wystarczą jpegi downsampled do około 40k, tak jak liczyłyście. Ale zysk jest taki, źe od tej pory archiwiści IPN bedą pracować tylko z dokumentami elektronicznymi, nie z oryginalami, które się wsadzi w jakiś bunkier i opieczętuje.

Do udostępniania publiczności moze na początek służyć trywialna baza danych low-res jpeg indeksowanych do: numeru katalogowego IPN, daty kreacji dokumentu i nazwiska/nazwy sprawy/ kryptonimu na teczce. Lud będzie sprawdzal. a jak ktoś będzie miał coś do dodania, to się na ten cel postawi publiczne wiki http://egzegeza.wiki.gov.pl, które wkrótce stanie się najczęściej odwiedzanym miejscem polskiej sieci i będzie slużyć za jedno z narzędzi pracy dla archiwistow IPN.

W tym czasie będzie się pracować bez pośpiechu nad OCR robionym bezpośrednio z plików jpg hi-res, handwriting recognition etc. i stopniowym wzbogacaniem indeksu. Po jakimś czasie wyjdzie z tego http://virtual_ipn,gov.pl, bezcenny zasób historyczny.

Przyłącz się do dyskusji i dodaj Swój własny komentarz

Wprowadź swoje dane lub kliknij jedną z tych ikon, aby się zalogować:

Logo WordPress.com

Komentujesz korzystając z konta WordPress.com. Log Out / Zmień )

Zdjęcie z Twittera

Komentujesz korzystając z konta Twitter. Log Out / Zmień )

Facebook photo

Komentujesz korzystając z konta Facebook. Log Out / Zmień )

Google+ photo

Komentujesz korzystając z konta Google+. Log Out / Zmień )

Connecting to %s