Semantic web: internetul inteligent
Vom putea să comunicăm cu motoarele de căutare într-un limbaj similar cu limbajul uman. Asta pentru că semnificaţiile datelor pot fi descoperite, de acum, nu numai de oameni, dar şi de computer. În prezent, cele mai multe semnificaţii ale cuvintelor şi expresiilor de pe web sunt deduse de noi atunci când citim paginile de pe net. Web-ul semantic face calculatoarele (prin software) să găsească, citească şi să utilizeze date din World Wide Web, ca şi oamenii.
DE VORBĂ CU INTERNETUL
Internetul, aşa cum îl ştim, ca o reţea globală de comunicare, are două tendinţe spre care evoluează. În primul rând, încearcă să devină un mediu colaborativ. În altă ordine de idei, web-ul se vrea a fi tot mai simplu şi mai uşor de procesat de către computere şi alte echipamente. Tocmai de aceea, noţiunea de internet semantic nu este destinată doar utilizatorilor finali, ci şi maşinilor, calculatoarelor. Dacă acestea vor înţelege sensurile datelor pe care noi le introducem în internet, atunci vor putea să ne ofere exact ceea ce le cerem. Adică să priceapă o maşinărie ce îi cere un om? Veţi spune că m-am uitat prea mult la televizor şi la filme SF. Nu este chiar aşa, iar în rândurile următoare vă voi explica şi de ce.
Ce este semantic web?
Vă propun un caz concret – o căutare pe internet. În acest moment, dacă introducem într-un motor de căutare fraza „vreau o vacanţă în insulele exotice, cu transport inclus şi hamac pe plaja hotelului de cinci stele la care voi sta cu familia”, rezultatul va fi redarea tuturor site-urilor unde fi gurează aceste cuvinte împreună. Printr-un motor semantic web, o astfel de căutare vă va găsi exact acel pachet turistic cu hamac şi plajă, care corespunde cerinţelor dumneavoastră. Internetul semantic defineşte sensul informaţiilor de pe internet şi le interpretează.
Deosebiri şi asemănări cu modelul de până acum
Ca orice tehnologie, internetul evoluează. La început a fost Web 1.0, reţeaua primordială, ale cărei baze s-au pus în interiorul CERN (Centrul European de Cercetări Nucleare), în anul 1989. Iniţial WWW-ul era format din pagini statice, care erau actualizate din an în Paşte de către deţinătorii lor. A urmat Web 2.0 care a adus o noutate prin faptul că exploata posibilităţile organizatorice ale internetului. Cam din 2005 încoace are loc revoluţia Web 2.0 prin care conţinutul şi informaţia nu mai este oferită vizitatorilor numai de către mass-media, guverne şi firme particulare, ci şi de persoane obişnuite, legate între ele prin reţele informale bazate pe Internet şi care contribuie şi participă activ la punerea la dispoziţie şi răspândirea informaţiilor pe întregul glob prin intermediul webului. Şi sunt câteva exemple tipice: wiki-uri, weblogs (blogurile), precum şi portalurile şi bursele de schimb de imagini, muzică, filme/video şi software din Internet, cum ar fi Flickr, YouTube şi site-urile pentru File sharing. Ei bine, putem spune că internetul semantic face deja parte din Web 3.0. Pentru acest concept, există mai multe definiţii. Prima se referă la transformarea web-ului într-o bază de date prin folosirea tehnologiilor RDF (Resource Description Framework), OWL (Web Ontology Language), API (Application Program Interface). Cea de-a doua abordare presupune dezvoltarea inteligenţei artificiale şi crearea unui web cvasi-uman. Avem şi o a treia interpretare care ne interesează cel mai mult în demersul nostru. Potrivit acesteia, Web 3.0 va fi atunci când se va crea o reţea semantică prin care computerele conectate la Internet să poată combina informaţiile pe baza unor conexiuni logice.
De ce am avea nevoie de internet semantic?
Pentru că avem de a face cu o cantitate imensă de informaţie în care ne e din ce în ce mai greu să găsim ceva. Există câteva miliarde de documente în World Wide Web, care sunt utilizate de aproape jumătate de miliard de utilizatori de pe glob. La acestea se mai adaugă milioane de pagini existente în reţelele de tip intranet. Cu cât volumul de informaţii creşte, cu atât va fi mai greu să găseşti ceva în timp util, să organizezi sau să ai acces la datele de pe net. Spaţiul informatic a fost imaginat pentru ca fiecare să aibă acces imediat şi intuitiv şi nu numai să navigheze, ci să şi creeze. Maşinile să devină capabile să analizeze datele de pe web – conţinutul, legăturile şi transferurile dintre oameni şi calculatoare. Internetul semantic înseamnă că mecanismul firesc de comerţ online, tranzacţii, postări şi alte aspecte ale traiului zilnic, vor fi preluate de maşini care „comunică” altor maşini, lăsând oamenilor participarea cu inspiraţia şi intuiţia proprie. Web-ul semantic permite ca datele, localizate oriunde pe web, să fie accesibile şi înţelese atât de oameni, cât şi de calculatoare. Şi cum se face asta? Prin adăugarea unor extensii, numite metadate, la documentele deja existente. Aceasta permit datelor să fi e prelucrate automat de către maşini, cam după aceleaşi principii după care sunt prelucrate manual de către oameni.
Cum funcţionează?
Aşadar, Web-ul semantic este dependent de existenţa unor limbaje specifice şi de înmulţirea paginilor web adnotate cu metadate. Ce sunt acestea? Nişte informaţii despre informaţiile pe care le conţine un document. Practic, atunci când vom încărca un anumit fişier pe internet, acestuia i se va ataşa o metadată care va „şti” să transmită unui eventual motor de căutare existent, detalii despre conţinutul şi sensul întregului articol. Adică va face diferenţa între un „post de director la o firmă” şi „Postul Paştelui”, să zicem. Lucru care în prezent nu se întâmplă. Totuşi, obţinerea metadatelor prin definirea manuală a unor reguli de extracţie a informaţiei înseamnă o muncă titanică, timp şi experienţă. Aşa că cercetătorii au creat programe care fac auto-adnotare prin similaritate. Este cazul proiectului numit PANKOW (Pattern-based Annotation through Knowledge on the Web). Acesta pune laolaltă paginile care includ anumite şabloane lingvistice specificate, asemănătoare cu tag-urile, dar mai complexe.
În plus, foarte multe instrumente şi accesorii noi au apărut pentru motoarele de căutare. Acestea folosesc noţiunea de „context” – adică ghidează utilizatorul în funcţie de contextul din jurul textului şi elimină posibilele ambiguităţi. Să luăm un exemplu practic: o aplicaţie ideală pentru bloguri, o găsiţi pe opencalais.com. Este un serviciu gratuit care analizează semantic textul sau articolul urcat pe pagina respectivă, cu ajutorul unor plugin-uri, apoi îl indexează şi îl face public. Astfel, când cineva caută, de pildă, informaţii despre locuri de cazare, obiective turistice şi entertainment, prin această aplicaţie, la o căutare după termenii „vacanţa la Predeal în pensiune de trei stele, cu margarete la geam” o să fie listate toate vilele cu locuri disponibile şi flori la geam. Evident, doar cele din blogurile care au aderat la aplicaţia respectivă. Deocamdată, opencalais a fost alimentat doar cu texte în limba engleză, aşa că n-o să fie prea încântat de unul în limba română. În orice caz, în acelaşi mod, puzzle-uri de informaţie vor fi puse cap la cap, pentru ca în final utilizatorul să găsească fix ceea ce doreşte. De curând şi Google a pus la dispoziţia utilizatorului o opţiune ce oferă rezultate relevante din reţelele sociale „scanate” de motorul de căutare.
Cine şi ce are de câştigat
Dacă ar fi să plasăm internetul semantic în tărâmul nondigital, ar trebui văzut precum o lege. Marile companii din domeniul internetului ar fi în acest caz nişte partide. Adoptarea web-ului semantic la nivel global va fi un proces electoral prin care utilizatorii decid ce partide vor intra în „parlament” (aici vorbim despre W3C) şi ce autoritate vor avea acolo. Fiecare partid are propria sa agendă în legătură cu legea „semantic web”. Aşadar, este şi vorba de bani. Giganţi precum Microsoft, Google, Yahoo, Oracle sau Apple au investit miliarde de dolari în patente tehnologice şi vor să şi le fructifice la maximum. Pentru asta trebuie să introducă mai multe amendamente proprii la legea respectivă. Apoi vom avea de câştigat noi, utilizatorii, pentru că, aşa cum vă spuneam, cel puţin căutările pe internet vor fi mult mai bine dirijate. Faţă de internetul actual, noile motoare de căutare, semantice, presupun nişte baze de cunoştinţe foarte complexe. Să presupunem că pe Semantic Web vom lansa o căutare de genul „Vreau o friptură bună de urs în sos de vin roşu, acasă”. Atunci softul va face automat legătura între „friptură”, „urs” şi faptul că aşa ceva se găseşte într-un restaurant cu specific vânătoresc. Va găsi restaurantele care oferă o astfel de specialitate „bună” după comentariile postate de cei care au mâncat aşa ceva din acel loc. Apoi, softul va găsi locul în care este utilizatorul prin identificarea adresei IP a computerului, iar asta îl va ajuta să afişeze doar localurile din cartierul respectiv.
Concluzie
Unul dintre cele mai bune aspecte ale internetului este că prin intermediul lui găsim orice informaţie şi reprezintă un uriaş portal de comunicare. Internetul semantic multiplică aceste calităţi de mii de ori. Pentru unii, noutatea definitorie a internetului semantic va consta în uşurinţa cu care PDA-ul, laptopul, PC-ul, serverul şi computerul de bord al maşinii comunică între ele. Pentru alţii, va fi revoluţionară ideea de automatizare a unor procese şi decizii care acum nu pot fi luate decât de un om. Cum sunt deciziile în cadrul unei companii, de exemplu. Pentru ceilalţi va însemna capacitatea de a genera căutări cu rezultate mult mai utile şi mai aplicate pe cererea făcută. Indiferent care este scopul, important este că toţi putem găsi un motiv important pentru care să susţinem dezvoltarea internetului semantic.
Aplicaţii construite pe principiile internetului semantic şi care pot fi găsite pe internet. Ele nu sunt deocamdată foarte populare, dar utilizatorii au reuşit să indexeze o cantitate importantă de conţinut de pe web, şi prin asta să atribuie adnotările de rigoare documentelor.
W3C
World Wide Web Consortium este principala organizaţie internaţională care stabileşte normele şi standardele după care funcţionează browserele web şi în care ar trebui scrise codurile sursă ale site-urilor web. Folosirea de cod valid este obligatorie pentru a evita problemele cu diferite browsere. O simplă verificare vizuală a unui site nu presupune validitatea codurilor sursă folosite. Aşa că orice pagină de internet trebuie să respecte standardele impuse de W3C pentru că altfel, o mare parte din vizitatori s-ar putea să nu aibă access la informaţiile din aceasta.
SIR TIM BERNERS-LEE
INVENTATORUL INTERNETULUI SEMANTIC
„Tehnologia reţelei semantice împarte problema pe două niveluri. Primul este reprezentat de un format comun de date. Poţi lua o bază de date, o agendă telefonică, o declaraţie bancară sau o prognoză meteo – în esenţă orice conţine date hard – şi să faci maşina să o rescrie în limbajul semantic de bază, în loc de cine ştie ce format proprietar. Aceasta rezolvă problema „sintactică” a problemei. Nu o rezolvă şi pe cea „semantică”, totuşi. Pentru aceasta, reţeaua semantică atribuie denumiri conceptelor de bază implicate în date: data şi ora, un eveniment, o verificare, o tranzacţie, temperatură şi presiune, locaţie. Toate acestea sunt definite doar pentru a reprezenta ceva în sistemul care produce datele, de exemplu: „data tranzacţiei aşa cum am trecut-o în declaraţia bancară”, şi aşa mai departe.
CĂUTARE ÎMBUNĂTĂŢITĂ
În curând va fi posibil să se acceseze webul mai mult după conţinut şi mai puţin după cuvinte cheie. De exemplu, în loc de o etichetă HTML la un nume, să spunem de „autor”, o etichetă tip metadată, scrisă în XML (Extensible Markup Language), poate descrie specialitatea acelui autor particular şi publicaţiile lui.
În continuare, se va realiza, treptat, un index structurat al site-urilor web.












