piatok, 30. mája 2014

Google Crowling a indexacia stranok

Co znamena Google Crowling a indexacia



Google neustale hlada, prehladava, uklada a triedi vsetky indexovatelne stranky na webe, aby ich bolo mozne vyhladat cez vyhladavac. Proces pomocou ktoreho nachadza a prehladava stranky na internete sa vola Crowling. Google k tomu pouziva niekolko programov, ktore sa volaju Boti, alebo Roboti, ktori Crowluju cely web. Spomedz nich je najhlavnejsi Googlebot, ale existuju aj ine velmi dolezite, ktore napriklad prehladavaju blogy, vola sa Google Blog Bot. Proces ukladania stranok pre dalsie pouzitie vo vyhladavani a triedenie stranok do spravneho poradia sa vola indexovanie.

 Preco na tom zalezi?

Ak je stranka zle crawled (prehladana), alebo niektore stranky nie su zaindexovane, takato stranka bude nenajditelna pomocou vyhladavaca Google. V texte sa budem opierat o vyhladavac Google, ale rovnake alebo podobne pravidla platia aj pre ostatne vyhladavace ako su Bing, Yahoo.

Problemy a ich riesenie

V prvom rade je tazke zmerat indexaciu velkych stranok. Aby sme mali prehlad, ktore stranky boli indexovane je dobre pouzivat sluzbu Webmaster Tools. Ak je stranka naozaj velka, tak neexistuje cesta pomocou korej by sme zistili presnu indexaciu vsetkych stranok. Pomocou Google Analytics, vieme zistit ktore stranky dosahuju navstevnost, tiez doporucujem  pouzivat funkciu cache: vo vyhladavaci, pre kontrolu najdolezitejsich stranok a aj podruznych stranok, aby sme dostali prehlad ako je stranka indexovana.

Frekvencia prehladania stranky nie je kontrolovatelny faktor, ale su veci ktore na to mozu pozitivne vplyvat (zopar ich tu uvediem v poradi podla dolezitosti)

  • Vyznamnost domeny. Matt Cutts nedavno v rozhovore povedal, ze frekvencia a hlbka prehladania stranok je zavisla od PR stranky. (PR=PageRank)
  • Spatne odkazy (backlinks). PR je vypocitane na zaklade backlinks, ktore su zasadne pre indexaciu. Pokial stranka rychlo rastie, ale neziskava dostatocne mnozstvo spatnych odkazov, toto moze viest k tomu ze Google ohodnoti obsah ako nizsko kvalitny (garancia znizenia frekvencie crowlingu aj indexacie)
  • Deep Linking. Spatne odkazy na individualnych strankach (tzv. hlboke prepojenie) je efektivna cesta ako dosiahnut indexaciu stranok a uchovat ich v indexe Google. Interne odkazy na rovnake stranky moze tiez pomoct. Snazte sa, aby aspon vase najdolezitejsie stranky mali oba spomenute druhy. Je potrebne aby linky boli "nasledovatelne" (nesmu obsahovat atribut rel="nofollow")
  • Navigacia a hierarchia na stranke. V maximalnej moznej miere by mala byt pouzita jednoducha navigacia na stranke. (ako priklad by som uviedol stranku fanbase.com, vsetky kategorie sa nachadzaju v hornej casti obrazovky) To znamena za a) vytvorit cim menej podadresarov a subdomen a za b) vsetky dolezite stranky by mali byt dostupne na par klikov z hlavnej stranky (viac ako 3-4 kliky su uz problem).
  • XML sitemaps. Je nutnost. Tu je stranka ktora vam sitemap vyhotovi online: xml-sitemaps.com. Po tom ako si vytvorite sitemaps, je potrebne ho nahrat pomocou Webmaster Tools. Okrem sitemaps mozete pouzit aj funkciu Fetch as Googlebot vo Webmaster Tools, efekt je rovnaky ako odoslanie aktualneho sitemaps suboru.
  • Odstranenie duplicitneho obsahu. Vseobecne plati, ze duplicitny obsah na stranke nie je postihovany penalizaciou zo strany vyhladavaca aj napriek aktualizacii Panda, ale duplicitny obsah je povazovany za spam. Mali by ste udrzovat zdravy obsah na stranke a minimalizovat duplicitny obsah na stranke. Obzvlast na velkych strankach moze duplicita na roznych strankach sposobyt zlu indexaciu. Typickym prikladom zdovjenia obsahu je pri strankach ktore pouzivaju subdomenu, stranky bez a so subdomenou mozu mat rovnaky obsah. Da sa s tym vysporiadat pomocou URL canonization (pozri dalsi bod)
  • URL canonization. Znamena vytvorit jednotnu a pouzivatelsky jednoduchu URL pre kazdu stranku cim dame vediet vyhladavacu, ze URL je canonical. Priklad: link <link rel="canonical" href="http://example.com/canonical-url-example.html"> ktory sa vlozi medzi <head> a </head> tag. Mozeme si pomoct aj so sluzbou Webmaster Tools funkcia Display URLs as. Je to jednoduchsie ako pisat kod. 
  • Stabilita URL a jedinecnost stranky. Niektore aplikacie sposobuju zobrazenie rozneho obsahu pod tou istou URL adresou. Okrem toho title tag moze byt tiez generovany automaticky. Automaticke generovanie moze sposobit problem pri spravnom indexovani obsahu. Pre najlepsie vysledky musi byt obsaj a aj nadpis unikatny (kazda stranka by mala mat iny nazot title tag) a mal by byt zobrazeny na unikatnej URL adrese. Ak pouzivate rovnaky nadpis pre vsetky stranky Google moze tieto stranky povazovat za duplicitne a nebude ich indexovat. Upravte si nadpisy aby boli unikatne.
  • Originalny obsah. Je dolezite aby obsah na najdolezitejsich strankach bol originalny.
  • Aktualizacie, kanaly. Casta aktualizacia obsahu ma za nasledok castejsie prehliadanie stranky. Zalozenie RSS kanala maju priaznive ucinky na crowling.
  • Socialne stranky. Linky so sicialnych stranok aj napriek tomu ze su "nofollow" pomahaju robotom indexovat novy obsah na strankach. Vratane tlacidiel na zdielanie a podpora stranky na socialnych sietach moze viest k rychlejsej indexacii. 

Technicka poznamka

Najdolezitejsia aktualizacia systemu indexacie Google sa vola Google Caffeine, prve spustenie bolo v Auguste 2009 a dokoncenie indexacie bolo 8 juna 2010. System prehladavania stranok sa stal dynamickym, prehladava web po castiach a prakticky v realnom case. Od spustenia Caffeine sa do zretele dostali aj socialne siete Facebook, Twitter a v sucasnosti aj dalsie.

Video ako Matt Cutts rozprava o zakladoch crowlingu a indexacie a spomenul aj zopar zaujimavych detailov

Žiadne komentáre:

Zverejnenie komentára