Jön a zettabyte-ok kora

Exponenciálisan növekednek az adatbázisok
Torontáli Zoltán
2012-11-08 06:22
Olyan mértékben növekszik a digitális hálózatokban keletkező adatmennyiség, hogy a benne rejlő lehetőségek kiaknázásával alig képes lépést tartani az üzleti élet.
Bill egy átlagos, középkorú, családos üzletember, egy mobiltelefon-előfizető valahol a fejlett világban. Kissé elégedetlen a szolgáltatással, és már éppen azon töri a fejét, hogy váltson, ám amikor egy este felhívja őt az ügyfélszolgálat, nagyon meglepődik. Az ügyintéző ugyanis mindent vagy legalábbis nagyon sokat tud róla. Láthatóan készült, illetve felkészítette őt a hívásra a cég informatikai háttérrendszere.

Az ügyfélszolgálatos ugyanis a monitorján pontosan látja, hogy milyen személyre szabott marketingtervet kell Billnél végrehajtania. Először is bocsánatot kér, mert – a profilhoz rendelt adatokból – látja, hogy az elmúlt időben több sikertelen hívása is volt. És bár ezt nem közli vele, de a rendszer azt is jelzi, hogy Bill nemrég a konkurens cég call centerét is többször felhívta, vagyis vélhetően át akar oda lépni. Ezért az ügyfélszolgálatos rögtön előadja, hogy a problémák hátterében a környék egyik bázisállomásának meghibásodása állhat, ezt orvosolták, és a kellemetlenségért cserébe felajánl egy bizonyos összegű lebeszélhető fájdalomdíjat. Az igazi meglepetés azonban akkor jön, amikor az ügyintéző még azt is közli vele, hogy tudja, hamarosan Japánba utazik, és felhívja a figyelmét, hogy a most használt mobilja ott nem fog működni.

Ezért felajánl neki egy másik mobilt, amelyet másnapra a lakásához legközelebb eső üzletbe leszállítanak, és mivel azzal is tisztában van, hogy általában nehezére esik az új informatikai kütyük beállítása, ebben is a segítségére lesznek. Sőt, azt is megjegyzi, hogy mivel holnap pont az a nap van, amikor Bill a gyerekeit délután edzésre viszi, azt javasolja, hogy a készülékért még délelőtt ugorjon be a boltba. Ez az ügyintéző akkor kap prémiumot év végén, ha Bill még mindig a cég előfizetője lesz, és Japánból olyan Twitter-üzeneteket küldött, amelyek bizonyítják, hogy ott is működő telefonját jól tudta használni. Hiszen a cég ezt is könnyedén le tudja majd ellenőrizni.

A fenti példa az IBM egyik nem túl távoli jövőbe vetített elképzelése arról, hogy egy szolgáltató mire tudja majd használni az általa gyűjtött adatokat. A történetben az a legmeglepőbb, hogy már most is majdnem minden eszköz rendelkezésre áll ahhoz, hogy a fenti példa valóság legyen. A mobiltelefonos (akár helymeghatározással is egybekötött) használati szokásokból és a közösségi médiában tett nyilvános bejegyzésekből ugyanis egészen aprólékos személyes profilok építhetők fel. Az egyetlen problémát ma már csak az adatok mennyisége okozza, vagyis az, hogy világszerte irdatlan mennyiségű lett a digitális adathalmaz (néhány jellemző mérőszámról lásd külön). Ma még elég nehéz tömeges méretekben állandóan naprakész profilokat felépíteni és frissíteni, de a jövő mindenképpen ez lesz (Figyel az új Big Brother – Figyelő, 2012/43. szám).

Egy magyar eset
■Nem kell messzire menni, ha óriási adatmennyiség kezelésére hazai példát keresünk. Az Educatio Nonprofit Kft. a napokban fejezte be a 2011-es népszámlálás adatainak feldolgozását, azaz 11,4 millió kérdőív digitalizálását. Naponta 200 közfoglalkoztatott két műszakban dolgozott a projekten, napi 150 ezer ívet kezelve. Az Educatio fejlesztői külön eljárást dolgoztak ki arra, hogy a papíron lévő kézírás hibáit hatékonyabban lehessen javítani. A beolvasó program által kérdésesnek minősített adatokat egyszerre nagyobb mennyiségben, egy mátrixba rendezve jelenítették meg, mert az emberi szem az egymással való összehasonlításban jobban kiszűri az eltérő adatokat, mint ha önmagában látná azokat. A fejlesztéssel 6-8 percről 20 másodpercre csökkentették azt az időt, amely alatt egy készletet fel lehet dolgozni. Az máshol is használható megoldás az alapszoftvert szállító IBM érdeklődését is felkeltette, és a magyar társaság egyedüli közép-európai résztvevőként be is mutathatta azt a globális cég minapi, Las-vegasi konferenciáján.
Az adatok felhalmozódása alaposan előreszaladt a felhasználáshoz képest. Az IBM vezetői a minap többek között arra hívták fel a figyelmet éves konferenciájukon, hogy a céges adatbázisok ma már sokkal több információt tartalmaznak, mint amennyit érdemben fel is használnak belőlük. A vezető hardvergyártók gőzerővel dolgoznak azokon a termékeken, amelyek lehetővé teszik az egyre intelligensebb adatbányászatot, de miközben az internet éves forgalma hamarosan a zettabyte-ok korába lép, nincs könnyű dolguk. Az viszont máris megfigyelhető, hogy az óriási adatbázisok elemzése kulcsszerepbe került a vállalati döntéshozatalnál.


Az IBM 726-os egysége 1952-ből. Orsónként 1,4 MB adatot tárolt

Milyen nagy a big data?

Becslések szerint a ma rendelkezésre álló adatmennyiség 90 százaléka az elmúlt két évben keletkezett. A növekedés elképesztően gyors ütemű, a folyamatnak messze a legelején tartunk. Olyan mennyiségű adat jön létre, amelyet már csak nagyon komoly informatikai háttérrel lehet elemezni.
● Az amerikai T-Mobile-nál naponta 1,7 milliárd bejegyzés, digitális adat keletkezik automatikusan, a teljes tengerentúli mobilszektor pedig 24 óra alatt körülbelül 6 milliárd adatot rögzít.
● Az AT&T amerikai távközlési cég hálózatán naponta körülbelül 30 petabyte adat halad át.
● A Google rendszerei naponta mintegy 24 petabyte adatforgalmat bonyolítanak le.
● Előrejelzések szerint az internet éves adatforgalma exponenciálisan növekszik a következő években, 2016-ra eléri a 6,6 zettabyte-ot. Ez az interneten 2011 végén tárolt összes adat kétszerese.

A marketingesek például egyre több időt kénytelenek eltölteni az analitikus szoftverek által gyártott kimutatásokkal, ahelyett, hogy a kreatív ügynökségekkel tárgyalnának. Csak az adatok teszik lehetővé ugyanis, hogy egy cég proaktív üzemmódba kapcsoljon. A jövőben nem lesz elég akkor foglalkozni az ügyfelekkel és az üzleti partnerekkel, amikor azoknak problémájuk van, hanem előre kell látni, hogy problémáik lehetnek, és meg kell előzni azok kialakulását.