Slovenský DeepSearch spracúva dáta pre vyhľadávače. Počítače dobre rozumejú príkazom, ale menej slovenčine

12.11.2018

Rozprávame sa s Nadeždou Andrejčíkovou, ktorá pôsobí na Fakulte informatiky a informačných systémov STU v Bratislave a v spoločnosti Cosmotron. Je vedúcou tímu, ktorý vyvíja aplikáciu na pomoc pri vyhľadávaní na internete. Projekt nesie názov DeepSearch.

V čom je táto aplikácia iná ako ostatné vyhľadávače? Prečo je vôbec potrebná?

Či je potrebná? No na to by mali odpovedať iní. No a v čom je naša aplikácia iná? Primárne nejde o vyhľadávač, ale spracovanie unifikovaných štrukturovaných dát, ktoré môžu byť zdrojom pre iné vyhľadávacie nástroje, online katalógy knižníc. Preto aj našim cieľom v tejto prvej etape bolo čo najviac automatizovať proces analytického rozpisu periodík.

Prečo?

Periodiká a denníky vždy obsahovali množstvo zaujímavých a dôležitých informácií. Knižnice uchovávajú denníky a iné periodiká, ktoré vychádzali aj pred viac ako 100 rokmi a snažia sa o ich záchranu pre budúce generácie. Preto, pred pár rokmi, pristúpili k masívnej digitalizácii týchto zdrojov, ale keďže sú spracované len na úrovni súborného záznamu, tak po strojovom rozpoznaní znakov umožňujú vyhľadávanie len nad celým textom ako takým, lenže to nám vráti desiatky strán. My chceme poskytnúť riešenie, ktoré umožní v týchto zdrojoch rýchlo a adresne vyhľadať požadované informácie. Naša aplikácia sa snaží strojovo rozpoznať, kde ktorý článok začína, kde končí, či je písaný v stĺpcoch zhora dole a zľava doprava, alebo sú články pod sebou, či v tvare L a následne tento spracovať, aby sme v ňom vedeli identifikovať kľúčové slová, teda vyjadriť jednoducho, o čom tento článok je. Tým je možné periodiká prezentovať používateľom oveľa atraktívnejším spôsobom na základe témy či príbehov, vyvíjajúcich sa v čase a podobne. Samozrejme, takto získané informácie zapisujeme v súlade s pravidlami a štandardami pre tvorbu bibliografických záznamov, vo formáte, ktorý je priamo čitateľný všetkými knižnično-informačnými systémami, ktoré ich môžu tiež ľubovoľne prezentovať.

My chceme poskytnúť riešenie, ktoré umožní v týchto zdrojoch rýchlo a adresne vyhľadať požadované informácie.

Špecifikum DeepSearch je, že pracuje s neštrukturovanými dátami, napríklad s digitalizovanými dokumentmi. Ako sa v nich dá „prehrabať“? Ako program číta tieto dokumenty?

My pracujeme s XML súbormi, ktoré vznikajú ako výsledok procesu rozpoznávania znakov, k čomu v knižniciach využívajú predovšetkým software Abby recognition, a preto aj vstupné xml je vo formáte, ktorý je dostupný aj zdokumentovaný týmto programom. Naše riešenie sa riadi viacerými konfiguračnými súbormi a z týchto dát rozpoznáva najprv text a následne sa rozhoduje, či ide o názov nového článku, alebo sa jedná o ten istý článok. Aby sme mohli text článku spracovať, musíme ešte rozhodnúť, v akom poradí sú jednotlivé bloky textov jedného článku usporiadané a potom už len zistiť hlavné kľúčové slová, ktoré vystihujú obsah, o čom alebo o kom daný článok je.

Ako ďaleko ste vo vývoji DeepSearch-u?

Momentálne je k dispozícii testovacia prevádzka a pripravuje sa rozsiahlejšie testovanie.

Deepsearch, Nadežda Andrejčíková, eductech

Bude DeepSearch dostupný aj pre verejnosť?

Myslíte, že by si mohli ľudia vkladať a spracovávať vlastné digitalizované dokumenty? Nad tým sme zatiaľ neuvažovali. Ale samozrejme, výsledky spracovaných periodík, teda vyhľadávanie nad nami vytvorenými analytickými záznamami periodík, ako aj samotné články budú verejnosti prístupné v príslušných knižniciach. Pri vyhľadávaní z priestorov mimo knižnice môže byť však problém s prístupom k niektorým článkom kvôli autorskému zákonu.

Prečo je jazyk, informácie, či texty zaťažkávajúcou skúškou pre nás i pre počítače? Je to kvôli objemu dát, či ich (ne)štrukturovanosti?

Nejde ani tak o objem dát, ako o to, že pre počítače je stále veľký problém dátam aj porozumieť a spracovať ich. Počítače veľmi dobre rozumejú príkazom operačného systému, či rôznych programovacích jazykov, ale slovenčina, náš materinský jazyk, je pre nich stále problém. Oproti angličtine či nemčine je slovenský jazyk veľmi tvárny, nemá pevnú skladbu vety. Len rozpoznať, či slovom Martin je v texte myslené označenie mesta, osoby, fiktívnej osoby, alebo ešte niečo úplne iné, je pre počítač veľmi obtiažne.

Rozpoznať, či slovom Martin je v texte myslené označenie mesta, osoby, fiktívnej osoby, alebo ešte niečo úplne iné, je pre počítač veľmi obtiažne.

Čo ste vyštudovali?

Ekonomickú fakultu VŠP v Nitre, odbor automatizované systémy riadenia. Avšak pomerne krátko po škole som sa začala venovať vývoju knižnično-informačného systému, čo zakrátko prerástlo celkovo do automatizácie procesov v oblasti spracovania a sprístupňovania kultúrneho dedičstva.

Ako ste objavili svoje povolanie? Čo Vám k tomu pomohlo?

To bola náhoda. Ešte na strednej škole som sa vďaka pani učiteľke účtovníctva dostala na letnú školu mladých programátorov do Bratislavy, ktorá bola organizovaná pre študentov stredných škôl, kde sa učili programovanie. My sme však mali na škole maximálne stroje na dierne štítky, a preto mi pani učiteľka zohnala asi mesiac predtým skriptá programovacieho jazyka BASIC a vybavila dve návštevy k počítaču na inej škole. No a potom to už išlo pomerne rýchlo, lebo programovací jazyk sa mi učil veľmi ľahko. Možno aj preto mi tam odporučili štúdium na matematicko-fyzikálnej fakulte, lenže ja som za nič nechcela ísť do Bratislavy, no a tak sme našli alternatívu, Nitru. No a ďalšia náhoda ma doviedla do knižníc, kde som chcela predávať zariadenia čiarových kódov, ale oni to chceli len so systémom a tak prišlo k tomu, že som si začala vyvíjať vlastný, pretože všetky snahy o preklad a zastupovanie nejakého zahraničného skončili ešte skôr, ako začali. Tak nezostalo iné, len sa pustiť do vývoja vlastného, pričom som si myslela, že je to tak na víkend, ale ten už má viac ako štvrťstoročie (úsmev).

Novinky

Slovenský DeepSearch spracúva dáta pre vyhľadávače. Počítače dobre rozumejú príkazom, ale menej slovenčine

Súvisiace články:

Odoberaj náš newsletter