WebToDate/Generování sitemap.xml/O produktu

Z WebToDate
Verze z 7. 7. 2011, 11:57, kterou vytvořil Jardac (diskuse | příspěvky) (→‎Co rozšíření umožňuje)
(rozdíl) ← Starší verze | zobrazit aktuální verzi (rozdíl) | Novější verze → (rozdíl)
Skočit na navigaciSkočit na vyhledávání

Co je sitemap.xml

Soubor sitemap.xml slouží k publikaci jednoduchého seznamu URL daného webu k indexaci vyhledávacími stroji jako je např. Google. Tento seznam adres slouží v podstatě jako nápověda pro indexování, neznamená např., že jiné adresy než uvedené v tomto seznamu nebudou indexovány.

Je pro něj definován XML formát popsaný např. na http://en.wikipedia.org/wiki/Sitemaps resp. http://www.sitemaps.org, musí být v kódování utf-8. Maximální velikost souboru může být 10 MB a může obsahovat max. 50 000 adres, pokud je vyžadován větší rozsah, lze to řešit přes sitemap index (http://en.wikipedia.org/wiki/Sitemap_index), který pak obsahuje seznam jednotlivých sitemap.

Umístění tohoto souboru lze buď sdělit vyhledávači pomocí příslušných nástrojů daného vyhledávače (např. Google Webmaster Tools) nebo uvést jeho umístění v souboru robots.txt (pomocí řádku Sitemap: <sitemap_location>).

Formát souboru je následující:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
   <loc>http://VaseDomena/</loc>
   <lastmod>2008-05-14T14:20:29+01:00</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

Užívané XML elementy jsou:

  • <urlset>: Zapouzdřuje soubor a odkazuje na aktuální standard protokolu.
  • <url>: Nadřazená značka pro každou zadanou adresu URL.
  • <loc>: Adresa URL stránky musí být v absolutním tvaru
  • <lastmod>: Datum poslední změny souboru ve formátu W3C pro datum a čas (viz http://www.w3.org/TR/NOTE-datetime).
  • <changefreq>: Předpokládaná frekvence změn stránky. Tato hodnota je základní informací pro vyhledávače a nemusí přesně odpovídat tomu, jak často budou stránku procházet. Možné hodnoty jsou
  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never
  • <priority>: Priorita dané adresy URL ve vztahu k ostatním URL adresám na vašem webu. Rozmezí platných hodnot je 0.0 až 1.0.

Povinné elementy jsou <urlset>, <url> a <loc>, ostatní jsou nepovinné.

Formát souboru sitemap index je:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml</loc>
      <lastmod>2004-10-01T18:23:17+00:00</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml</loc>
      <lastmod>2005-01-01</lastmod>
   </sitemap>
</sitemapindex>

Všechny elementy kromě <lastmod> jsou povinné.

Základní vlastnosti produktu

Generování sitemap pro webovou prezentaci spravovanou pomocí WebToDate je řešeno sadou plánovaných úloh, kde každá úloha generuje seznam URL určitého typu - jedna úloha pro WebToDate stránky, druhá pro WebToDate zprávy atd. Proto je vždy třeba "manuálně" založit soubor sitemap index, který definuje seznam souborů sitemap obsahujících seznamy URL adres.

Doporučený postup implementace je tedy následující:

  1. Založí se nová WebToDate stránka, do které se vloží XML kód sitemap index. Každá položka v tomto kódu obsahuje URL souboru sitemap pro daný typ obsahu; přinejmenším se vždy jedná o stránky a zprávy.
  2. Nakonfiguruje se spouštění plánovaných úloh pro vybrané typy obsahu. URL cílového souboru je nutno zadat stejné jako ve stránce sitemap index.
  3. Pokud pro požadovaný typ obsahu není k dispozici specializovaná plánovaná úloha, nasadí se buď plánovaná úloha Sitemap - SQL dotaz, která může pomocí SQL sestavit nějaký seznam dynamicky podle dat z databáze, nebo se založí další WebToDate stránka, kde se XML kód seznamu URL vloží ručně.

Při definování úloh je třeba vzít v potaz:

  • Úlohy definují typicky, co se má zahrnout do exportu, nikoli co se z něj má vyjmout. Pokud např. u zpráv je situace složitější a je třeba vyjmout více explicitně definovaných kategorií, je třeba postupovat obráceně a do plánovače zadat spouštění několika stejných úloh pro zprávy (v jedné sekvenci nebo v různých sekvencích) s různými parametry (volbami exportovaných kategorií). Výstupem pak bude několik XML souborů, všechny je třeba uvést v sitemap index.
  • Limit pro jeden soubor je 50 000 adres. Samotné úlohy toto nijak neřeší, pokud se dá očekávat např. u zpráv překročení limitu, je třeba definovat spouštění několika stejných úloh s různými výběry metadat, které dohromady dávají všechny exportované zprávy. Výstupem bude opět několik XML souborů, všechny je třeba uvést v sitemap index.
  • Ve WebToDate nejsou k dispozici některá metadata, která se mohou v sitemap uvádět jako nepovinné údaje (např. priorita adresy). V takovém případě lze pouze v rámci plánované úlohy nastavit např. tuto prioritu pro všechny zprávy stejnou nebo ji vůbec neuvádět.

Co rozšíření umožňuje

Rozšíření je sadou plánovaných úloh, které generuje části sitemap, každá úloha řeší určitý typ obsahu WebToDate. K dispozici jsou úlohy pro:

  • Zprávy - v úloze lze definovat omezení exportovaného seznamu URL na určité kategorie, publikaci, jazyk a stav.
  • Stránky - v úloze lze definovat omezení na kategorie, jazyk a značkovací jazyk
  • SQL dotaz - seznam URL lze definovat SQL dotazem, který vrací max. 4 sloupce odpovídající názvům elementů (loc, lastmod, priority, changefreq) v sitemap formátu
  • Akce Kalendáře akcí

Úlohy podporují generování sitemap pro více různých virtuálních serverů v případě, že WebToDate je nakonfigurován pro správu více prezentací na různých virtuálních serverech.

Samotné úlohy pak fungují zcela automaticky, tj. sestavují při správné konfiguraci plná URL odkazovaných stránek, generují XML soubory v kódování utf-8 a při každém spuštění generují kompletní seznam URL odpovídající kritériím definovaným v parametrech plánované úlohy.