A magyar cég, amely a flopin kiadott Bibliától Közép-Európa meghódításáig jutott

A magyar cég, amely a flopin kiadott Bibliától Közép-Európa meghódításáig jutott
Biszak Előd, az Arcanum Adatbázis Kft. ügyvezetője – Fotó: Melegh Noémi Napsugár / Telex

A Bibliát és A Pallas nagy lexikonát még begépelték, de lassan 20 éve átálltak a dokumentumok szkennelésére, és azóta közel 100 millió oldalnyi újságot digitalizáltak így. Ezzel, ha el nem fogyott is a szkennelnivaló Magyarországon, de nagyon beszűkültek a lehetőségek, így néhány éve átléptek a határon, és ma már a hazai lapok mellett román, szlovák és cseh újságokat is lehet olvasni az Arcanum rendszerében.

Az adatbázis szerelemprojektnek indult, nem látták előre, hogy ebből üzlet lehet, de tavaly már több mint félmilliárd forint folyt be előfizetésekből. A külföldi terjeszkedés pedig új dimenziókat nyit meg. Ráadásul az általuk fejlesztett szkennelési megoldásokra már a tengerentúlon is felfigyeltek: amerikai óriáscég is használja az újításaikat.

A Richter könyvtárából a Shakespeare-összesig

Nagyon nem evidens egy újságlapot úgy beszkennelni, hogy annak a tartalma kereshető legyen. Bár nagyon régóta vannak olyan szoftveres optikai karakterfelismerési (OCR) megoldások, amelyek direkt ezt a célt szolgálják, de ezek egy sima gépelt oldalnál sem mindig működnek tökéletesen. Egy hasábokra tördelt, képekkel, képaláírásokkal, hirdetésekkel és táblázatokkal tűzdelt újságlapon pedig szinte egyáltalán nem. Ezt a problémát kellett megoldania az Arcanum Adatbázis Kft.-nek ahhoz, hogy a ma már széles körben ismert és használt online adatbázisát kiépítse.

A feladat – Fotó: Melegh Noémi Napsugár / Telex
A feladat – Fotó: Melegh Noémi Napsugár / Telex

Mindezt úgy, hogy az újságok digitalizálása nem az első irányváltás volt a cég életében. A vállalat már közel 20 éve működött, amikor elkezdtek tömegével szkennelni, és a projekt nem is úgy indult, hogy feltétlenül ez lesz a jövőben a társaság fő profilja.

A cég életét egyetlen dolog kísérte végig: a digitalizálás.

A vállalatot a rendszerváltás után alapította Biszak Sándor, aki a nyolcvanas évek elején végezte el az ELTE vegyészeti szakát. Mivel a szakdolgozatát kvantumkémiából írta, a kvantumkémikusok pedig – ahogy fogalmazott – „ebben az időszakban a gyógyszergyárak könyvtáraiban bújtak meg”, egyetem után a Richterhez, illetve annak jogelődjéhez került.

A gyógyszergyárak ekkor már mágnesszalagon szabadalmi adatbázisokat építettek, és rendszeres kapcsolatban voltak a különböző szabadalmi hivatalokkal és egyéb szervezetekkel. Ebben vett részt Biszak Sándor, aki így már a nyolcvanas évek közepén is kereshető adatbázist épített, csak akkor még gyógyszerészeti szabadalmaknak.

Pár évvel később aztán már egy szövetkezetben kiszélesítették ezt a tevékenységet a teljes piacra, és egy idő után rendszeresen, flopikon juttatták el az újabb és újabb szabadalmak adatait a különböző gyógyszergyáraknak. Ténykedésükre a hazai hivatal is felfigyelt, ők is megvásárolták a lemezeiket, majd a rendszerváltás után Biszak Sándor már a hivatallal közösen alapított egy céget a szabadalmi adatbázis továbbépítésére.

Érdemi piaca ennek még nem igazán volt, de a vállalat viszonylag hamar elnyert egy nemzetközi tendert.

„Fiatalok voltunk, lelkesek, olcsón dolgoztunk, és lestük minden kívánságukat, ezért imádtak minket, így nyerhettünk mi a nyugati konkurensekkel szemben”

– magyarázta Biszak Sándor, hogyan húzhatott be egy kicsiny kelet-európai vállalat akkoriban egy ilyen megbízást.

Az adatbázist ekkor már CD-n terjesztették, és viszonylag hamar felvetődött, hogy más írásos anyagokat is digitalizálhatnának így. Néhány évvel később már volt megállapodásuk a Széchényi Könyvtárral, hamarosan pedig elkezdtek maguk is kiadni könyveket CD-n. Az első ilyen a Károli-biblia volt, amit még flopin is árultak.

„Flopin elkelt belőle az első évben nagyjából száz, CD-n pedig öt”

– idézte fel a kezdeti időket az alapító.

Ez különösen annak fényében volt nem sok, hogy ekkor ezeket a dokumentumokat még be kellett gépelni. Vagyis az előállítás nagyon idő- és erőforrás-igényes volt. Az üzletág azonban így is kiépült: az évek során begépelték A Pallas nagy lexikonát, mások mellett Mikszáth vagy éppen Shakespeare összes művét, versesköteteket, és még hosszan lehetne sorolni a CD-n megjelent kiadványokat. A CD-ket pedig vették.

CD-k gépelt, majd később szkennelt tartalommal – Fotó: Melegh Noémi Napsugár / Telex
CD-k gépelt, majd később szkennelt tartalommal – Fotó: Melegh Noémi Napsugár / Telex

Valójában már ekkor lett volna lehetőség arra, hogy az emberi munka jelentős részét gépekkel váltsák ki, hiszen a karakterfelismeréses szkennelésre a 90-es évek elejétől volt technológia. Az alapító azonban nem bízott ebben.

„Minket arra dresszírozott a könyvtáros szakma, hogy ezer karakterből két hiba lehet. A szkennelésnél pedig ennél nagyságrendekkel több volt. Kicsit még le is néztük őket emiatt”

– mesélte az első szkenneléses tapasztalatokról Biszak Sándor.

A kétezres évek első évtizedének közepén aztán úgy alakult, hogy egy kieső megrendelés helyett elkezdték végül egy újság lapszámait szkennelni. Korábban próbálkoztak már újságok begépelésével is, de hamar belátták, hogy megugorhatatlan feladat. A szkennelés viszont jól sikerült. Hiába volt a korábbi nagy elvárásokhoz képest sok a hiba, így is kifejezetten jó volt a fogadtatása. Így álltak át a gépelésről végleg szkennelésre.

Mire beszkennelték, megszűnt a Népszabadság

A szkennelt dokumentumokat azonban még jó ideig ezután sem online tették elérhetővé, hanem különböző adathordozókon – sokáig CD-n, majd amikor bejött, DVD-n és Blu-rayen – juttatták el a megrendelőkhöz. A vevők ebben az időszakban még jellemzően különböző intézmények voltak. Könyvtárakkal, levéltárakkal, egyetemekkel álltak kapcsolatban, és nekik végeztek projektalapon digitalizálási munkákat.

A 2010-es évek elején azonban már határozottan felmerült, hogy ideje lenne elengedni ezt a CD-s dolgot, és inkább valamilyen webes megoldásban kellene gondolkodni, adott esetben nem is intézményi, hanem magán-előfizetőkkel. A céghez ebben az időszakban csatlakozott az alapító matematikus végzettségű fia, Biszak Előd, aki próbálta volna ebbe az irányba terelni a folyamatokat. A dologból volt is némi generációs konfliktus, mert édesapja továbbra is inkább az adathordozóknál maradt volna, és biztosabbnak látta az intézményi partnereket is.

Az újságok szkennelése – Fotó: Melegh Noémi Napsugár / Telex
Az újságok szkennelése – Fotó: Melegh Noémi Napsugár / Telex

Végül először egy köztes megoldás valósult meg. Szkennelt tudományos folyóiratokból építettek egy webes adatbázist, amely eleinte csak egyetemek számára volt hozzáférhető. Ám viszonylag hamar kiderült, hogy az ilyen működésnek vannak kockázatai. Ha egy egyetem például költségcsökkentési okokból lemondja az előfizetését, az nagyon jelentős bevételkiesést okoz, hiszen a cégnek véges számú partnere van csak.

A tudományos folyóiratok után aztán elkezdtek hagyományos újságokat is szkennelni. „A Népszava volt az első, egyszerűen azért, mert ők gond nélkül engedték ezt” – idézte fel az új üzletág első lépéseit Biszak Előd. Az engedély azért is volt fontos, mert itt azért felmerülnek szerzői jogi kérdések, amelyek kezelése eleinte nekik sem volt egyértelmű.

A Népszava után aztán gyors egymásutánban digitalizálták a másik három, akkor még létező országos politikai napilap, a Magyar Nemzet, a Népszabadság és a Magyar Hírlap számait is. A Népszabadság már nem élte meg, hogy erről hivatalosan is beszámolhassanak a lapban:

„hétfőn jelent volna meg a cikk arról, hogy befejeztük a teljes archívum digitalizálását, de szombaton megszűnt a lap” – mesélte Biszak Előd.

A vállalat ilyen irányú tevékenységére először 2014-ben figyelt fel a közvélemény, amikor az első világháború kitörésének 100. évfordulója kapcsán az Index az Arcanum archív anyagait használva közölt cikksorozatot a világégésről. Ekkor vált egyértelművé számukra, hogy az újságok korabeli lapszámai szélesebb kör számára is érdekesek lehetnek.

Az ez idő tájt elérhető néhány millió – többnyire szakmai tartalmú folyóiratokból beszkennelt – oldal azonban még nem volt elég ahhoz, hogy valós szolgáltatást lehessen rá építeni. Így indult be a tömeges digitalizálás, amelynek eredményeként mostanra szinte minden fontosabb magyar újság lapszámait beszkennelték.

Kellett egy kötészet

A 2010-es évek közepén úgy vágtak bele az ipari mértékű szkennelésbe, hogy bár a világháborús sorozat iránti érdeklődést látták, így sem voltak biztosak benne, hogy erre lehet üzletet építeni. Ennek megfelelően még jó ideig nem a magánfelhasználóknak épített adatbázis gyarapítása volt a cég elsődleges tevékenysége, hanem az, hogy továbbra is végeztek digitalizálási munkákat intézményeknek.

Sokszor épp újságokat szkenneltek, amelyekkel a saját adatbázisukat is fejlesztették. A hagyományos szkennelési projektek mellé pedig olyanok is bejöttek, mint a Hungaricana, a közös múltunkról fellelhető kultúrkincsek és történeti dokumentumok virtuális gyűjteménye, amit szintén az Arcanum fejlesztett.

Így az újságadatbázis építése eleinte inkább csak szerelemprojekt volt, a meglévő szerződéses üzletek mellett vágtak bele. Érdekes módon ebben az időszakban volt egy másik, hasonlóan inkább érzelmi okokból vitt fejlesztés is: egy történelmi térképgyűjtemény összeállítása. Biszak Előd saját elmondása szerint utóbbiban látta a nagyobb üzleti potenciált, de az idő erre rácáfolt.

Néhány év alatt kiderült, hogy az újságadatbázis iránt van nagyobb felhasználói igény. Az indulás után három évvel már ebből származott a cég árbevételének nagyjából nyolcada. A gyors növekedés pedig egyértelműen jelezte, hogy érdemes erre a területre nagyobb erőforrást allokálni.

A következő időszakban tényleg szakmányban digitalizálták az újságokat. Az országos napilapok után jöttek a megyei újságok, a heti- és havilapok, majd a kisebb, kevésbé ismert újságok is. Maga a folyamat azonban nem volt egyszerű, a logisztika, a termeléstervezés és a technikai háttér kialakítása is nehézséget jelentett.

Magukat az újságokat egy ideig nem volt nehéz beszerezni. Egyrészt meglepően sokszor selejteztek le ilyeneket kiadók, irattárak vagy könyvtárak. Ilyenkor egyszerűen odamentek az Arcanum kisteherautójával, és begyűjtötték a kidobásra szánt kiadványokat. Ez a későbbi munka szempontjából is kedvező helyzetet teremtett, hiszen selejtezés után az újságokat nem kellett visszaszolgáltatni, így az sem jelentett problémát, ha azokat lapokra bontották. Márpedig erre mindenképp szükség volt, máshogy ugyanis nem igazán lehet megoldani a digitalizálást.

A selejtezés mellett a másik megoldás az volt, hogy kölcsönkérték az újságokat az egyes könyvtáraktól. Itt azonban már komoly gondot okozott a lapokra vágás, hiszen nem meglepő módon a könyvtárak nem darabokban szerették volna viszontlátni a szépen bekötött archív újságjaikat.

A lapokra szedett újságokat visszakötik – Fotó: Melegh Noémi Napsugár / Telex
A lapokra szedett újságokat visszakötik – Fotó: Melegh Noémi Napsugár / Telex

A megoldás az lett, hogy az Arcanum kialakított egy kötészetet. Így most a szkennelési folyamat úgy néz ki, hogy a beérkező – gyakran könyvbe kötött – újságokat egy kolléga nagyon óvatosan kivágja a kötésből. A szkennelés így már laponként történik. A vállalatnál tucatnyi nagy kapacitású szkennert működtetnek az ezzel foglalkozó kollégák. Van köztük olyan, amely kifejezetten nagy lapok digitalizálására képes, mások kisebb lapokat tudnak gyorsan beszkennelni.

Ha a szkenneléssel végeztek, akkor a szétvágott újságok a kötészetbe kerülnek. Ennek az egységnek a jelentőségét jól jelzi, hogy ma már itt dolgoznak a legtöbben. A műhelyben az újságokat újrakötik, és így juttatják vissza a könyvtárakba.

Indiaiak tanították a mesterséges intelligenciát

Ezzel azonban a munkának csak a fizikai része ér véget, a beszkennelt oldalakon még sokat kell dolgozni ahhoz, hogy azok tényleg kereshetők legyenek, és megfeleljenek az adatbázissal szemben támasztott követelményeknek. Itt jön elő az a bevezetőben említett probléma, hogy hiába a karakterfelismerés, a sokféle szöveg miatt a technológiát sokáig senki nem tudta újságokra hatékonyan használni.

Az Arcanumnál eleinte az lett a megoldás, hogy a különböző szakaszokat manuálisan különítették el. Azaz minden oldalon külön bekeretezték a szöveget, a képeket, a hirdetéseket, a grafikonokat és a táblázatokat, és ezeket színkódokkal is ellátták, hogy a karakterfelismerés megfelelően működjön. A munkának ezt a szakaszát a kezdetektől Indiában csinálták.

Az indiai munkavállalók megkapták a szkennelt dokumentumokat, és annyi volt a feladatuk, hogy ezeken bekarikázzák a különböző részeket.

A 2020-as évek elejére aztán a mesterséges intelligencia már eljutott arra szintre, hogy meg lehetett tanítani neki ezt a szegmentálási feladatot. A már bevált indiai munkaerőt kérték fel erre a feladatra is: több mint 150 ezer oldal szegmentálását táplálták be. A projektet abszolút siker koronázta, és az MI ma már szinte 100 százalékos hatékonysággal bontja részekre az újságoldalakat.

Valószínűleg ez a fejlesztés a vállalat legnagyobb innovációs sikere, ilyen megoldás ugyanis nincs másik a piacon. Nem csoda, hogy a technológiai újításra mások is felfigyeltek: ma már az Arcanum megoldását használja a világ egyik legnagyobb hasonló profilú vállalata, az amerikai newspaperarchive.com is. Így a fejlesztéssel tulajdonképpen még egy üzleti lábat sikerült kiépíteni.

Az új telephely raktára, ahova a szkennelésre váró újságok beérkeznek – Fotó: Melegh Noémi Napsugár / Telex
Az új telephely raktára, ahova a szkennelésre váró újságok beérkeznek – Fotó: Melegh Noémi Napsugár / Telex

A különböző fejlesztésekkel és új tevékenységekkel így fokozatosan számolták fel a szűk keresztmetszeteket. Amikor elkezdték a tömeges szkennelést a 2010-es évek közepén, akkor havonta jó, ha 200 ezer oldalnyi anyagot fel tudtak dolgozni, ez most már havi egy-másfél millió. A gyors bővülés miatt időközben költözniük is kellett. Egészen 2023-ig egy budai családi házban működött a vállalkozás, szűk három évvel ezelőtt azonban már annyira megnőttek, hogy egy külön telephelyet kellett bérelniük, ahol hatékonyabban tudták kialakítani a munkafolyamatokat.

Az előfizetői bevétel harmada már külföldről jön

A kapacitás növelésére szükség is volt, mert mostanra egyértelműen látszik, hogy a szolgáltatás beindításához kevés az a 3 millió oldalnyi anyag, amivel Magyarországon elindultak.

„Most úgy látjuk, hogy egy akkora országban, mint Magyarország, 15 millió oldalt fel kell dolgozni ahhoz, hogy az emberek elkezdjenek rá felfigyelni”

– mondta Biszak Előd.

Az Arcanum pedig hamar átlépte ezt a határt, és a magyar felhasználók tényleg elkezdtek rá felfigyelni. Ma már 350 ezer regisztrált felhasználójuk van, akik közül 50 ezer fizet is a szolgáltatásért, az állandó előfizetők száma pedig meghaladja a 15 ezret. Ezzel az üzletág már évek óta százmilliós nagyságrendű árbevételt hoz.

Vállalkozási szempontból a legfontosabb változás a korábbi működéshez képest pedig az lett, hogy ez a tevékenység skálázható, így benne van a növekedés lehetősége. Míg a projektalapú munkáknál adott kapacitás mellett nem lehetett egy pontnál tovább növekedni, itt nem voltak ilyen korlátok.

Ráadásul egy akkora országban, mint Magyarország, nincs is végtelen mennyiségű beszkennelhető újság. Biszak Sándor már a 2020-as évek elején azt mondta, hogy az összes lap 80 százalékánál tarthatnak. Bár azóta kiderült, hogy alig ismert lapok is nagy számban tudnak előkerülni, de ezek felkutatása és begyűjtése már sokkal nagyobb feladat. Ha pedig nincs elég újság, akkor szkennelni sem lehet, és kihasználatlanul áll a kapacitás.

„Adta magát a gondolat, hogy ha megvan a know-how, akkor miért ne csinálnánk meg ugyanezt más országokban is”

– idézte fel a döntési helyzetet Biszak Előd.

A nemzetközi terjeszkedés beindítását segítette, hogy az elhatározás megszületésekor a cég már kapcsolatban állt romániai könyvtárakkal is, hiszen tőlük is szereztek be magyar nyelvű újságokat. A marosvásárhelyi könyvtárat kérdezték meg először, hogy a magyar mellett szkennelhetnének-e román lapokat is. A kezdeményezés fogadtatása itt és a többi romániai könyvtárban is kifejezetten pozitív volt. Így az új piacon gyorsabban sikerült haladni, mint korábban a hazain. Ebben jelentős szerepe volt annak, hogy már nem kellett kitalálni a folyamatokat, hiszen a magyar operáció kiépítésénél ez megtörtént.

A román sikereken felbuzdulva hamarosan újabb régiós országok könyvtáraival is felvették a kapcsolatot.

„Teljesen tudatos döntés volt, hogy a kelet-közép-európai országokban induljunk el, itt ugyanis a szerzői jogi kérdések a kommunista múlt miatt egyszerűbbek”

– mondta Biszak Előd.

A térségbeli országokban ugyanis vagy teljesen új lapok indultak 1990 után (ez volt a jellemző például Romániában), vagy ha megmaradtak is a korábbi újságok, a kiadók között nincs jogelőd-jogutódi kapcsolat, hiszen a lapokat a rendszerváltás előtt az azóta megszűnt kommunista párt vagy annak valamely szervezete adta ki.

Most egyébként már az is előfordul, hogy fizetnek a kiadóknak. Eleinte erre nem volt kerete a cégnek, ám a piacon az az általános, hogy a hasonló szolgáltatók egy dollár- vagy eurócentet juttatnak a kiadóknak minden egyes megtekintett oldalért. Az új szerződéseiben pedig az Arcanum is elkezdte ezt bevezetni.

A román nyelvű piacra 2021-ben léptek be, és ott mostanra elérték a 15 millió oldalt. Ez már elég ahhoz, hogy érdemes legyen hirdetni a szolgáltatást, így meg is indult egy marketingkampány. Részben ennek köszönhetően tavaly a román piacról származó bevétel már megközelítette a 100 millió forintot.

A többi piacon ezt a szintet még nem érték el. Csehországban, Szlovákiában és Lengyelországban is 4-6 millió beszkennelt oldalnál tartanak. Ezen kívül vannak angol és német nyelvű tartalmaik is. Utóbbiak főleg szabadon elérhető ausztriai adatbázisból.

Mindenesetre a terjeszkedés eredményeként a magán-előfizetőktől származó bevételnek tavaly már több mint a harmada külföldről jött, és Biszak Előd abban bízik, hogy 2026-ban ez az arány 50 százalék környékére növekedhet. Mivel reményeik szerint ezt nem a magyar bevételek csökkenésével érik el, ha sikerül megvalósítani a kitűzött célt, akkor az önmagában 150 millió forint körüli árbevétel-növekedést eredményezne az idén.

Krakkó, Prága, Párizs, Budapest

A nemzetközi terjeszkedés talán legnagyobb nehézsége az, hogy a megfelelő mennyiségű szkennelni való dokumentumot be tudják szerezni, és így mindig legyen min dolgozni. Ehhez folyamatosan tárgyalnak a hazai, a környező és egyéb országok könyvtáraival.

  • Prágában már egy éve dolgoznak, és szeretnék szélesíteni az együttműködést;
  • a Szlovák Nemzeti Könyvtárral májusban írtak alá egy szerződést, heteken belül kezdődik a munka;
  • jelenleg is folynak egyeztetések Krakkóban a Jagelló Egyetemmel;
  • kilátásban van nemzetközi együttműködésben egy párizsi projekt; és
  • egyeztetnek a közös munkától sokáig elzárkózó Országos Széchényi Könyvtárral is.

Ha ezek mind bejönnek, akkor évekre el lehetne látni munkával az Arcanum szkennereit. Biszak Elődnek arra is van terve, ha egyszerre esne be több projekt.

„Jelenleg egy műszakban működünk, de ha szükség van rá, ezen lehet változtatni, és át tudunk állni a reggel hat és este tíz közötti két műszakos munkavégzésre”

– magyarázta.

A további terjeszkedésnek ugyanakkor logisztikai gátjai is lehetnek. Jelenleg úgy működnek, hogy hetente egyszer járnak ki a külföldi partnerekhez összegyűjteni a digitalizálásra szánt anyagokat. Ilyenkor két teherautót megpakolnak a dokumentumokkal. Hatalmas távolságokon azonban ez a módszer nem tud már működni. Próbálkoztak már kvázi kitelepüléssel is, de ennek is vannak korlátai: egyrészt a gépek szállítása sem egyszerű, és nem is mindegyik esetében éri meg, másrészt ennél azért a munkaerő is helyhez kötöttebb.

Milliárd felett

Mindenesetre a magyar nyelvű kínálat erőteljes gyarapításával és a külföldi terjeszkedéssel az Arcanum újságadatbázisa mostanra a vállalat legfontosabb bevételi lábává vált, és olyannyira ellátja a céget munkával, hogy intézményi megrendeléseket néhány éve már nem is tudnak vállalni.

Tavaly a társaság árbevétele átlépte az egymilliárd forintot, ami lényegében duplázódást jelent két év alatt. A vállalat nyereségtermelő képessége is nőtt: 2025-ben az adózott eredmény a 300 millió forintot közelítette.

A cég ugyanakkor továbbra sem egy lábon áll. Az 1,13 milliárdos forgalomnak szinte pontosan a fele jött a magán-, illetve az intézményi előfizetőktől. A bevétel másik felét olyan tevékenységek és szolgáltatások adták, mint az újságok megbízásra történő feldolgozása, a digitalizált állományok értékesítése más archívumok számára vagy éppen a Hungaricana üzemeltetése.

A következő években pedig a nemzetközi terjeszkedés további dinamikus növekedést hozhat. A külföldi előfizetőktől származó bevétel hamar átlépheti a hazai szintet, különösen, hogy a megcélzott piacok között jóval nagyobbak is vannak, mint Magyarország. Biszak Előd a román mellett különösen nagy reményeket fűz a lengyel terjeszkedéshez, amely a következő években szintén felgyorsulhat.

Állítsd be a Telexet megbízható forrásnak!
Kövess minket Facebookon is!