Codziennie przepisujesz książkę!

Idea digitalizacji książek jest z pewnością szczytną ideą, dzięki niej nie dość, że stare i przez niektórych zapomniane już dzieła mogą w cyfrowym świecie znaleźć swoje drugie życie i dotrzeć do milionów odbiorców. CAPTCHA (wpisanie hasła kontrolnego np. przy rejestracji konta) natomiast jest bez wątpienia jednym z najbardziej denerwujących zjawisk występujących w Internecie, ustępując jedynie natarczywym reklamom. Co wyjdzie z połączenia tych dwóch pozornie niemających ze sobą wiele wspólnego zjawisk? Odpowiedź jest prosta – reCAPTCHA!

Nie jest to nowa idea i rozwiązanie to jest wykorzystywane od lat, jednak wiele osób może zdziwić się na wieść, że nieświadomie, każdego dnia, przepisują stare książki!

CAPTCHA, czyli udowodnij, że jesteś człowiekiem w Internecie!

CAPTCHA, czyli udowodnij, że jesteś człowiekiem w Internecie!

Aby książka mogła być dostępna w formie elektronicznej jest skanowana. Jednak w formie obrazów jest słabo czytelna i zajmuje bardzo dużo miejsca, a jakakolwiek edycja jest niemożliwa. Dlatego też przeskanowane obrazy zostają „przepuszczone” przez program do rozpoznawania liter, aby wyodrębnić ze skanów tekst. Niestety, maszyny mają problem z odczytaniem niektórych fragmentów tekstów, szczególnie jeśli chodzi o stare, często zniszczone egzemplarze książek.

W takim wypadku na scenę wkracza czynnik ludzki. Dawniej poprawianiem programów zajmowały się osoby, jednak aby uprościć ten proces (a przede wszystkim zaoszczędzić) na Uniwersytecie Carnegie-Mellona w Pittsburghu, opracowano i rozwinięto system reCAPTCHA. Skoro ludzie i tak muszą na każdym kroku udowadniać w Internecie, że nie są robotami, to zamiast przepisywać bezsensowne zbitki liter, niech przepisują… książki!

Pomysł genialny w swej prostocie, a jakże pomocny. Tylko w roku 2009, dzięki temu rozwiązaniu, przyczyniono się do przepisania aż 17 000 książek. Jak to działa? W przypadku, gdy program nie potrafi lub nie jest pewny rozpoznanego kawałka tekstu jest on wyświetlany użytkownikom jak CAPTCHA. Internauci widzą zawsze 2 słowa, ponieważ jedno z nich jest słowem kontrolnym, a drugie to fragment książki. Ułożone są w losowej kolejności. Jeśli 3 osoby z rzędu wpiszą na klawiaturze ten sam wyraz, jest on wysyłany do serwera jako poprawne rozpoznanie słowa, z którym program miał problem i samo staje się słowem kontrolnym.

Szacuje się, że każdego dnia w Internecie wpisywanych jest 200 milionów kodów zabezpieczających CAPTCHA. W związku z tym, ich potencjał do wykorzystania jest ogromny, a dzięki temu setki tysięcy książek zostało lub zostanie uratowane od zapomnienia.

Źródła:
– http://ocrwdokumentach.pl/jak-digitalizujemy-ksiazki-o-tym-nie-wiedzac/
– http://www.google.com/recaptcha/learnmore
– http://pl.wikipedia.org/wiki/ReCAPTCHA
– http://pl.wikipedia.org/wiki/CAPTCHA

Udostępnij: