2009. május 2.

A Google fejével

SEO szempontok
Megpróbálom kitalálni mi járhat a Google fejében, no nem azért mert túl akarok járni az eszén, hanem mert érdekes dolog ez a találati lista amin mindenki az első tízben akar lenni. (Nem kell a rizsa, lássuk a SEO szempontokat.)
Kezdetben vala a nagy ötlet: egy oldal fontosságát a weben valamely szóra ne önmagában vizsgáljuk, hanem a rá való hivatkozások alapján, amúgy a tudományos publikációk citációs indexeinek mintájára. Számoljuk össze az oldalra mutató linkeket, súlyozzuk őket aszerint mennyire fontos oldalról (fontos oldal = sokan hivatkoznak rá) jönnek és ennek alapján állítsuk fel a rangsort és a találati listát. Az ötlet bevált egy-két év alatt kiirtotta a más algoritmust használó keresőket és velük együtt szerencsére a kulcsszavakat több ezerszer felsoroló kilométeres weblapokat is. A keresőt használók a korábbinál sokkal jobb találatokat kaptak. (A Google sikeréhez kellett még a jól kitalált hirdetési rendszer is, ami a pénzügyi hátteret biztosította.)
Az algoritmus már kezdetben sem állhatott csak ennyiből és folyamatosan fejlődik is. A fejlődés és változás természetes, hiszen egyre több oldal indexelésével és egyre több keresés eredményének feldolgozásával egyre többet tudhatott meg a Google a felhasználók igényeiről és ezek alapján finomíthatta az algoritmusát. Alkalmazkodnia kellett az új webes technikákhoz is, hiszen hiába az egyszerű html oldalak feldolgozása a legegyszerűbb, ha az oldalak többsége dinamikusan generált, javascripteket és flasht is használ mert az olvasóknak ettől lesznek az oldalak szebbek és jobbak. Ez nem olyan nagy probléma hiszen a Google mindig is a tartalomra koncentrált az meg azért az esetek döntő többségében továbbra is szöveg, de folyamatosan próbálkozik például a képi tartalmak feldolgozásával is, lásd az egyik legutóbbi fejlesztését a hasonló képek ("Similar images") funkciót a képkeresőben.
A fejlődés legfontosabb motorja azonban mégiscsak a folyamatos harc a találati listát manipulálni akarókkal szemben. Vannak nagyon nagy értékű kulcsszavak, olyanok amikre nagyon sokan keresnek és ráadásul vásárlási szándékkal. Az ilyen szavakra az eladók sokkal jobban szeretnek a találati lista első helyein lenni mint a huszonhatodikon, mert ez a különbség bizony pénzben is mérhető, olykor nagyon sok pénzben (gondolom én). A korábban az oldalaikat kulcsszavakkal ezerszer teleírók nem adták fel csak új módszereket kerestek. Közben a web is fejlődött és egyre fontosabb értékesítési és hirdetési csatornává vált, ami tovább növelte a rosszarcúak aktivitását. A vírus - víruskereső, spam - e-mail, adatlopó - tűzfal harchoz hasonlóan létrejött a webszemetelők kontra Google harc, aminek különlegessége, hogy itt a jó oldalon a Google van egyedül, viszont legalább hazai pályán játszik. Azért akadnak szövetségesei az oldalaikat tisztességes módszerekkel fejlesztők személyében, de ők nem nagyon tudnak többet tenni mint a Google által meghirdetett szabályok szerint játszanak és reménykednek, hogy ez elég a jó helyezéshez. Kialakult a "Search Engine Optimization", magyarul kereső optimalizálás, röviden SEO, és a módszerek szerint rögtön lett white hat seo és black hat seo, amik között néha sajnos eléggé elmosódik a határ.
white hat SEO a Google fejével black hat
A röpke történeti felvezető után következzenek akkor azok a szempontok amiket szerintem figyelembe vesz vagy figyelembe kéne vegyen vagy figyelembe fog venni a Google a találati lista kialakításakor.
  • tiszta linkek A linkeket szavazatnak tekintve nyilván az a jó, ha mindenki csak egyszer szavazhat, vagyis szűrni kell az olyan linkeket amiket valaki tömegesen hozhat létre. Ilyenek az egy weblap minden oldalának láblécében megjelenő linkek, a fórumokon az aláírásokban megjelenő linkek, a baráti blogok keresztbe-kasul egymásra hivatkozásai. Figyelembe kell venni ezeket is, de csak egyszer vagy legalábbis nagyon erősen degresszíven.
  • az oldal típusa Nagy cég, kis cég, hírportál, személyes blog, szakmai fórum, katalógus, satöbbi, mind más és más, máshogy épül, bővül és máshogy linkelődik. Ami az egyik esetében természetes az a másik esetében nem az. Ha egy hírportál egy cikke pár napon belül sokezer linket kap, valószínűleg érdekes és fontos hírt közölt, ha egy kis cég oldala kap sokezer linket pár nap alatt akkor valószínűleg nekiláttak megseózni az oldalt és öntik rá a linkeket. A Google a statisztikái alapján elég pontosan kategorizálhatja az oldalakat és az adott kategóriára jellemzőtől eltérő viselkedést büntetheti, de legalábbis bizalmatlan vele szemben. Egy új oldal besorolása időbe telik ez is az egyik oka az új oldalak furcsa viselkedésének, ugrálásának.
  • tartalom Bizonyos témák esetén a dolog jellegéből adódóan nagyon kevés a szöveg az oldalon. Egy karikaturista oldalát biztos nem a rajta lévő szöveg teszi jóvá. Egy fotóművész, egy formatervező bemutatkozó oldalát is nehéz a szöveg alapján feldolgozni. Ilyenkor még fokozottabban számítanak a linkek, a másutt történő említések (nem feltétlenül link) és az utóbbi idők csodafegyvere, az oldalt kísérő szakmai blog. Az oldalak többségénél bőven van annyi szöveg az oldalon ami elég a Googlenak a téma és a kulcsszavak meghatározásához, de mivel a magyar ragozós nyelv segít a Googlenak, ha a legfontosabb kulcsszavak ragozatlanul is szerepelnek a szövegben.
  • webes szabványok A Googlenak a tartalom a fontos. DE! (Mert egy de azért mindig van.) A szabványos oldalak kiértékelése könnyebb, gyorsabb. Egy szabványos oldalban talán egy picit jobban lehet bízni.
  • linkszöveg Egy oldal tartalmának és témájának értékeléséhez az lenne a jó, ha mindenki aki hivatkozik egy oldalra seo szakember lenne és a link szövegébe az általa legfontosabbnak ítélt kulcsszót írná. Ez nyilván nincs így, sőt a nagyon szépen felépített linkek általában éppen nem független forrásból, hanem az oldalt építő, seózó szakembertől származnak. A Google viszont pont a független értékelők véleményére kíváncsi, akik viszont gyakran az url-t (az oldal "webneve") linkelik meg. Ezért harapódzott el nagyon a kulcsszavas domainek használata, ami viszont a márkanév építésnek nem tesz jót, mert pont az azonos tevékenységű cégek közül nem emel ki. A Google biztos figyeli a linkek szövegkörnyezetét is és, ha a link közvetlen közelében lévő szöveg azonosíthatóan a témába vág, akkor azt amolyan "pótlólagos" linkszövegként értékeli.
  • link releváns oldalról A seo alaptétele: szerezz linket releváns oldalról, releváns szöveggel. És ez igaz is! Csakhogy sok fajta oldal van. Egy cégeknek szolgáltatást nyújtó cég leginkább a partnereitől tud linket szerezni és az oldal látogatóit is a referenciák érdeklik. Ez pedig többnyire nem releváns oldalról jön, a könyvelő kap linket a reluxa készítőtől, az anyacsavar forgalmazótól, de a legritkább esetben a másik könyvelőtől. Egy személyes hobbi oldalnál egész más a helyzet gond nélkül kap linket ugyanazt a hobbit űző barátja oldaláról. Itt is beleszaladunk az oldak típusába, más típusú oldalakkal szemben más a Google elvárása és máshogy is értékeli őket.
  • katalógusok A fenti problémán segítenek a katalógusok, szorgos katalógus szerkesztők összeszedik egy témában a jó oldalakat és esetleg némi leírással fűszerezve közzéteszik őket. Az ilyen oldalak segítenek a felhasználóknak tájékozódni egy témában és segítenek a Googlenak egy téma oldalainak feltérképezésében. Ez idáig csudaszép, mindenki boldog és mosolygós. Valójában a katalógusok az a terület ahol igencsak elmosódik a határ a fehér és fekete kalapos seo között. Miután ugyanis kiderült a hasznuk mind a felhasználók mind a Goggle számára elkezdtek gombamód szaporodni és ezzel egyenes arányban a minőségük zuhanni. Ma már mint felhasználó egy katalógusba tévedve szinte semmi információt nem kapok: nem tudom mennyire teljes körű az adott témában, nem tudom mennyire aktuális, nem tudom mennyire manipulált (bizonyos oldalakat szándékosan nem mutató), szóval alig leszek okosabb és biztosan tovább kell keresnem, már csak ellenőrzés végett is. A Google szempontjából pedig a katalógus linkek is a tömegesen létrehozott linkek csoportjába tartoznak, hiszen többnyire maga az oldal gazdája hozza őket létre tucatszám. Az egymásra mutogató, kibogozhatatlan katalógus kupacban együtt vannak a tényleg értékes, komoly munkával szerkesztett lapok, a fekete kalaposok által generált millió lap (linkfarmok), a kezdő seosok félbehagyott próbálkozásai és ki tuja még mi minden. A Google nem veheti őket egyformán figyelembe muszáj súlyoznia különben ott fogunk tartani ahonnan indultunk csak nem egy oldalra kell ezerszer felírni a kulcsszót hanem ezer katalógusba a lapunk linkjét.
  • közösségi linkajánlók Itt is hasonló a helyzet mint a katalógusoknál, de itt eleve nincs semmilyen kontroll, mindenki beírja az általa ajánlott oldalakat és kész, így viszont szerkesztői manipulációtól sem kell tartani, a nagy link megosztóknál legalábbis. A címkézés elég jól elvégzi a tartalmi csoportosítást csak a címkehalmozókat kell kiszűrni, meg a figyelmetlen címkézők miatt ugyanarra a témára létrehozott sok azonos tartalmú címkét. A főoldalakon megjelenő linkek (amikre sokan szavaznak) sokat érhetnének de itt már nagyon erős a manipulálás veszélye, ezért ezt csak korlátozottan veheti figyelembe a Google. Pedig kár érte mert ez szinte vegytiszta megjelenése az eredeti Google-féle weblap értékelési koncepciónak.
  • blogok és szatellit oldalak A fő oldal megtámogatására másik domainen létrehozott szöveges oldalak, amiknek célja a saját oldalak releváns linkekkel való támogatása releváns szövegből. A támogató oldal lehet értékes tartalmú, jól szerkesztett hasznos oldal ami jó a felhasználóknak is és a Googlenak is. Sajnos jelentős részük szakmai szövegekből, rss csatornákból összeollózott szemét, ahol a lopott tartalom sem ritka. Még egy másik aljas trükk is kapcsolódik hozzájuk, nevezetesen a konkurencia kiszorítása a találati listáról a szatellit oldalakkal. Hiszen milyen jó az, ha az oldalunk nemcsak elöl van a találati listát, de a konkurencia sincs ott, mert a találati lista többi helyén is a mi oldalaink ücsörögnek. Szerencsére ez nem nagyon szokott sikerülni, de egy-két hely azért olykor megcsíphető ezzel a módszerrel.
  • nyelv és ország Ez nemcsak a nyelvtan miatt fontos (pl. a Google magyarul is felismeri a többesszámot), hanem mert sokkal kevesebb weblap és sokkal kevesebb hivatkozás esetén más statisztikai módszer kell az értékeléshez. Amerikában, ha két Apple témájú oldalra tíz- illetve húszezer link mutat akkor jogosabb a feltételezés, hogy az egyik kétszer olyan népszerű minta a másik, mint ha nálunk ugyanebben a témában 300 és 150 link mutat a két oldalra. A nyelvhez tartozik még a gyakran használt szavak felismerése, mert ezekre nem kell vagy máshogy kell indexelni. Az "és", "hogy", "van" és még sok hasonló szóra ígyis, úgyis eléggé értelmetlen lesz a találati lista, mert minden oldalon sokszor szerepelnek ezek a szavak, a linkekben pedig ehhez képest ritkán. Persze ezekre a szavakra keresni se nagyon van értelme.
  • kicsik preferálása Egy-egy nagy portálra mutató találatokat összevonja a Google különben csak a rá mutató találatok lennének a találati lista első oldalain. "Windows Vista" keresésre csak Microsoft, "iPhone" keresésre csak Apple oldalakat kapnánk találatnak. Egy kulcsszóra sok fontos oldallal rendelkező weblap további találatait ugyan jelzi a Google (még egy találat beljebb tabulálva, link az oldalon való kereséshez, linkek a találat alatt a belső oldalakhoz közvetlenül), de nem tölti meg velük a találati lista első oldalát. A kis weblapokat a minél többféle vélemény megmutatása miatt is támogatni kell. Ezért kerülhet egy kisebb blog érdekes cikke egy nagy hírportál tudósítása elé is akár. Ezzel meg a blogolók és blogszolgáltatók kezdtek visszaélni, szóval egy percig sincs itt nyugalom.
  • Wikipédia A Wikipédia nagyon értékes tartalommal bír, innen linket kapni komoly dolog, főleg egy kisebb weblapnak. Ezt a Google is figyelembe kéne vegye, de ezzel tönkreteheti a Wikipédiát, már így is születnek semmitmondó, szemét vagy csak simán reklám bejegyzések, ha az innen jövő linkek a találati lista sorrendjében a Wikipédia súlyának megfelelően számítanának, annak könnyen lehetne a következménye a Wikipédia használhatatlanná szemetelése. Paradox helyzet, minél nagyobb súllyal kéne figyeljen egy oldal linkjeire a Google, annál inkább elszemetelik az oldalt csökkentve a linkek értékét.
  • a weblap kora Azt mondják egy új weblap meg kell szerezze a Google bizalmát. Egy új oldalról még semmit sem tud a Google, lehet nagyon értékes szakmai oldal és lehet webszemét is. Ahogy múlik az idő egyre több minden derül ki az oldalról és egyre inkább tudja melyik típusba tartozik milyen a normális viselkedése és milyen a manipulációra utaló. A bizalom megszerzése nem más mint az oldal megismerése, besorolása.
  • pagerank A webmesterek gumicsontja, mindenki tudja, hogy nem sokat számít a találati lista szempontjából és mégis mindenki figyeli. A Google egy adott keresés esetén az indexelt oldalakhoz nyilván rendel egy számértéket és aszerint jeleníti meg őket, de ez az érték minden kulcsszóra más és más kell legyen. A kulcsszótól függetlenül kijelzett "látható" pagerank valószínűleg csak egy játék de ahogy mondják el van a gyerek, ha játszik.
  • meta tagok A keywords és description meták sokat segíthetnének az oldal megismerésében, de mivel annak idején a manipulálók első eszközei voltak (főleg a keywords) nem veszi figyelembe őket a Google. A descriptiont azért használja, azt jeleníti meg a találati listán, ha nem talál jelemzőbb szöveget az oldalon. A keywords pedig a ragozás miatt magyar nyelven kivált fontos lenne, de hát ez a hajó egyelőre elment, marad az oldal "kulcsszó barát" szövegezése.
  • lejárató linkelés Aztán olyan is van amikor nem a saját oldalát akarja felhozni a rosszarcú, hanem a konkurenciát lejáratni. Erre több lehetősége is van. Jó sok helyről meglinkeli az oldalt valami kellelmetlen linkszöveggel, vagy rosszhírű oldalkon helyez el a konkurenciára mutató linkeket. A híres-hírhedt "miserable failure" google bombázás óta (a szőrnyű csőd kifejezésre Bush elnők önéletrajza volt az első találat) állítólag valamelyest tudja kezelni a Google az ilyen eseteket, de azóta is volt jópár és tökéletes védelemről messze nem beszélhetünk. Valószínüleg a bejelentett esetek kézi javításáról lehet csak szó.
  • link gyarapodás A google bombázás persze a saját oldal előre repítésére is használható, ezért fontos a weblap típusa mert ebből a Google körülbelül tudja mi a reális ütemű link gyarapodás. Egy kezdő seós könnyen "lebombázza" a saját oldalát a túl gyors linképítéssel. Ráadásul úgy gondolom a katalógusból jövő linkeket bizonyos szám fölött nem fogja figyelembe venni a Google, de ehhez nagy biztonsággal fel kell ismernie a katalógusokat.
  • szemantikus keresés A Google szemantikus keresésnek nevezi a találati lista alján megjelenő néhány plusz keresési ajánlatot, ami egyelőre inkább a keresett szavakat tartalmazó gyakoribb keresések listájának tűnik, semmint a keresett szavak közti összefüggés megértésén alapuló javaslatnak. A kísérletezés ebben az irányban fontos és talán előbb-utóbb lesz is szemantikus keresés és szemantikus web, de ez még nem az, viszont, ha a felhasználók ezeken a linkeken lépnek tovább akkor méginkább kikerülnek a látókörből a második és többedik oldali találatok.
  • véletlen faktor A Googlenak védenie kell az algoritmusát a teljes felderítés elöl. A felhasználóknak is érdeke az algoritmus titkossága, mert, ha kitudódna teljes egészében akkor szinte reménytelen lenne a védekezés a fekete kalaposok ellen. Így is rengetegen találgatják, kóstolgatják az algoritmust és nemcsak arra kell gondolni aki néhány weblapja helyezése alapján spekulál, hanem a rosszarcúak akár több ezer weblapos szisztematikus kísérletezéseire is. Jó módszernek tűnik véletlen elemek beiktatása a lapok értékelésébe, úgy se tudja senki melyik lapnak hanyadiknak KELL lennie a találati listán, de ha látszólag azonos lapok között jelentős eltérés van az növeli az algoritmus kiszámíthatatlanságát. Ez csak elsőre látszik problémának, ha összességében ettől a találati lista egésze (főleg az eleje) jobb lesz akkor ez egy elfogadható áldozat.
  • több találat az első oldalon A pokoli harc a találati lista első helyeiért azért is dúl mert, témától függően ugyan, de a második, harmadik, sokadik találati oldalra sokkal kevesebb felhasználó megy el és onnan sokkal kevesebb találat érkezik egy weblapra. A 10 találat évekkel ezelőtt, a Google indulásakor is ennyi volt, viszont a weblapok száma azóta a sokszorosára nőtt és a keresések többségében sokkal több mint tíz érdemi weblap van. Ráadásul az első tízben levés nem az adott áru értékét, az adott szolgáltatás minőségét, az adott vélemény fontosságát, hanem a weblap gazdájának seo munkáját tükrözi. Bizonyos jól fizető témákra a tényleges szolgáltatást nyújtó cégek kevesebben vannak az első oldalon, mint az AdSense és egyéb hirdetéseket lehiénázó oldalak. Enyhítené valamelyest ezt a problémát az első oldal találati számának növelése például a találatok két hasábban való megjelenítésével. Aztán nemsokára meditálhatnánk azon, mennyire kevés is az a 20 találat az első oldalon.
  • változó sorrend a találati listán Akkor is többen jutnának el az első oldalra, ha a találati lista változó lenne. Mondjuk az első harminc találatból hol ez, hol az a tíz kerülne az első oldalra. Csökkenne ezzel a Google azon felelőssége is, hogy ő mondja meg ki a világ legjobb könyvelője, úri szabója vagy éppen baltás gyilkosa. A bevezetés technikailag könnyűnek tűnik, a felhasználókkal elfogadtatni már nehezebb, de a már létező saját találati listával, amin előrébb vagy hátrébb tehetek oldalakat talán az se túl nagy gond. Bejelentkezve kéne ugyan keresni, de amit mindig gyorsan meg akarok találni az előre tehetem magamnak és az nem rotálódna. Aki meg most is hosszasan értetlenkedik azon mért van az ő oldala 4 hellyel hátrébb a konkurensénél mikor pedig neki kulcsszavas a domainje és százhússzal több külső linkje van az legalább megnyugszik amikor kap egy olyan találati listát amin ő van előrébb. Ami a nagyobb gond lenne az óhatatlanul megjelenő statisztikus lekérdező programok, amik napjában többször lekérnék a találati listát és elemeznék hány százalékban van az első oldalon valamely weblap. Nem kis felesleges terhelést okozva ezzel. Ezt megelőzendő esetleg a webmester eszközökben maga a Google is közölhetné ezt a statisztikát
  • tematikus keresők A képkereső mintájára vagy pedig a szemantikus keresés mintájára javasolt témakörökkel szűkíteni lehetne a témakörök szerint a találati listát. Nagy témakörökre gondolok, sport, politika, bulvár, étkezés, kábé mint a napilapok rovatai. A weblapok címkézve lennének a kategóriák szerint és a sport keresőn csak a sportra címkézett lapok találatai jönnének fel. Példa saját magammal: a pulykakakas keresésre általában elsőnek jön fel a lapom, de ennek aligha örül az aki a pulykakakas here pörkölt receptjét keresi vagy a baromfi tenyésztés kérdései foglalkoztatják. Étkezés illetve állattenyésztés tematikus keresés esetén fel se kéne jöjjön, mert arra nyilván nem lenne bekategorizálva. Az általános kereső meg kéne maradjon, de egy-egy szakterület könyebben lenne kereshető a "véletlenül" megjelenő, témájában oda nem illő oldalak nélkül.
Hát röviden ennyi. Nincs más hátra mint elérni (fehér kalapban!), hogy SEO és Google keresésekre ez az oldal is megjelenjen a találati listán és akkor páran tán el is olvassák.