WebToDate/Fulltext Google/O produktu

Z WebToDate
Verze z 8. 6. 2011, 09:24, kterou vytvořil Jardac (diskuse | příspěvky) (→‎Porovnání modulů Fulltext a Fulltext Google)
(rozdíl) ← Starší verze | zobrazit aktuální verzi (rozdíl) | Novější verze → (rozdíl)
Skočit na navigaciSkočit na vyhledávání


Základní vlastnosti modulu

Modul je určen pro fulltextové prohledávání webové prezentace. Jedná se v podstatě o integrační funkci – modul se nasazuje v případě, že webová prezentace je indexována externí službou, modul pak pouze zpracovává vyhledávací formuláře a prezentuje výsledky hledání. Touto externí vyhledávací službou je pro tento modul některá ze služeb firmy Google; podporovány jsou:

  • Vyhledávací zařízení Google Mini a Google Search Appliance – jednoúčelové HW zařízení, které se připojí v síťové infrastruktuře poblíž www serveru, indexuje jeho obsah a poskytuje výsledky hledání; viz http://www.google.com/enterprise/search/index.html
  • Google Site Search – vzdálená služba firmy Google, která opět indexuje www prezentaci a poskytuje výsledky hledání; viz http://www.google.com/sitesearch/

Základní princip fungování vyhledávacího řešení postaveného na tomto modulu je následující.

  • Služba Google zvnějšku indexuje webovou prezentaci kontinuálním procházením obsahu tak, jak jej vidí anonymní návštěvník. V konfiguraci služby lze stanovit počáteční URL, na kterém startuje procházení webu, vyloučit z indexace některé typy souborů či stránek apod.
  • Vyhledávací funkce modulu zpracuje vyhledávací podmínky zadané do vyhledávacího formuláře a výsledný fulltextový dotaz odesílá na danou adresu vyhledávacího zařízení přes protokol http. Zpět dostává výsledky hledání formou XML kódu, který zpracuje a vloží do vyhledávací stránky jako seznam nalezených položek.

Co modul umožňuje

Administrační rozhraní modulu je určené pouze administrátorům, kteří zde definují propojení s indexovacím a vyhledávacím serverem, vytvoří vyhledávací stránky a definují formátování výsledků hledání. Prezentační část obsahuje pouze vyhledávací skript, který zobrazuje vyhledávací stránku a prezentuje výsledky hledání.

Z hlediska vyhledávání se prohledává celá webová prezentace tak, jak ji vidí anonymní návštěvník, tj. stránky, zprávy, stránky prezentované různými moduly, soubory ke stažení apod.

Vyhledávací podmínky se sestavují v syntaxi, kterou používá vyhledávání Google. Tento modul navíc přidává možnost pracovat s vybranými metadaty WebToDate, tj. omezit hledání např. jen na zprávy, omezit se na určitou kategorii či publikaci zpráv, pracovat s časovými údaji zpráv apod. Explicitně jsou ohledně práce s metadaty podporovány následující možnosti:

  • Prohledávání celého webu nebo jen ve zprávách
  • Třídění seznamu nalezených položek podle relevance nebo data
  • Omezení na jazyk
  • Omezení na časový interval od - do
  • Omezení pro prohledávání zpráv na zvolenou publikaci
  • Omezení pro prohledávání zpráv na zvolenou kategorii, přičemž je zohledněno, že zpráva může patřit do více kategorií

Porovnání modulů Fulltext a Fulltext Google

Následující tabulka je porovnáním standardně dodávaného modulu Fulltext a řešení Fulltext Google.

Funkce

Fulltext

Fulltext Google

Způsob indexace

Indexuje se obsah databáze pomocí zabudovaných nástrojů použité databáze (MySQL nebo MS SQL)

Indexuje se procházením www stránek zvnějšku indexovacím robotem

Co se indexuje

Databáze zpráv a vybraných modulů (Kalendář akcí, Poradny a rozhovory, Diskuze), a to pouze obsah (nikoli tedy části stránek dané jejich šablonami jako navigace apod.)

Indexuje se kompletní obsah všech stránek tak, jak je vidí anonymní návštěvník webu

Vyhledávání v souborech ke stažení (PDF, DOC apod.)

Ne

Ano (cca 250 souborových formátů)

Podpora slovních tvarů češtiny při vyhledávání

Ne

Ano, i když specifickým způsobem jak jej používá firma Google. Platí ovšem jen pro Google Search Appliance a Site Search, nikoli Google Mini, zde se hledají jen přesně zadaná slova.

Formulace vyhledávacích podmínek

Syntaxe modulu Fulltext

Syntaxe Google

Prohledávání neveřejného obsahu (dle pravidel modulu Neveřejná část)

Ano

Ne

Možnosti zobrazení údajů o položkách v seznamu nalezených položek

Lze zobrazit stejné údaje jako např. v seznamech zpráv

Lze zobrazit pouze to, co poskytuje vyhledávací stroj v XML kódu (nikoli tedy např. název kategorie zprávy apod.)

Prohledávání dle metadat WebToDate

Lze omezit na kategorii buď včetně podkategorií nebo bez nich, publikaci, jazyk, časový rozsah; základní hledání hledá jen ve zprávách, globální i v databázích dalších modulů

Podobně jako Fulltext. Lze prohledávat jen danou kategorii zpráv, ale nikoli včetně podkategorií. Lze prohledávat jen zprávy nebo celý web. Nelze se omezit na databázi nějakého modulu.