WebToDate/Fulltext Google/O produktu
Základní vlastnosti modulu
Modul je určen pro fulltextové prohledávání webové prezentace. Jedná se v podstatě o integrační funkci – modul se nasazuje v případě, že webová prezentace je indexována externí službou, modul pak pouze zpracovává vyhledávací formuláře a prezentuje výsledky hledání. Touto externí vyhledávací službou je pro tento modul některá ze služeb firmy Google; podporovány jsou:
- Vyhledávací zařízení Google Mini a Google Search Appliance – jednoúčelové HW zařízení, které se připojí v síťové infrastruktuře poblíž www serveru, indexuje jeho obsah a poskytuje výsledky hledání; viz http://www.google.com/enterprise/search/index.html
- Google Site Search – vzdálená služba firmy Google, která opět indexuje www prezentaci a poskytuje výsledky hledání; viz http://www.google.com/sitesearch/
Základní princip fungování vyhledávacího řešení postaveného na tomto modulu je následující.

- Služba Google zvnějšku indexuje webovou prezentaci kontinuálním procházením obsahu tak, jak jej vidí anonymní návštěvník. V konfiguraci služby lze stanovit počáteční URL, na kterém startuje procházení webu, vyloučit z indexace některé typy souborů či stránek apod.
- Vyhledávací funkce modulu zpracuje vyhledávací podmínky zadané do vyhledávacího formuláře a výsledný fulltextový dotaz odesílá na danou adresu vyhledávacího zařízení přes protokol http. Zpět dostává výsledky hledání formou XML kódu, který zpracuje a vloží do vyhledávací stránky jako seznam nalezených položek.
Co modul umožňuje
Administrační rozhraní modulu je určené pouze administrátorům, kteří zde definují propojení s indexovacím a vyhledávacím serverem, vytvoří vyhledávací stránky a definují formátování výsledků hledání. Prezentační část obsahuje pouze vyhledávací skript, který zobrazuje vyhledávací stránku a prezentuje výsledky hledání.
Z hlediska vyhledávání se prohledává celá webová prezentace tak, jak ji vidí anonymní návštěvník, tj. stránky, zprávy, stránky prezentované různými moduly, soubory ke stažení apod.
Vyhledávací podmínky se sestavují v syntaxi, kterou používá vyhledávání Google. Tento modul navíc přidává možnost pracovat s vybranými metadaty WebToDate, tj. omezit hledání např. jen na zprávy, omezit se na určitou kategorii či publikaci zpráv, pracovat s časovými údaji zpráv apod. Explicitně jsou ohledně práce s metadaty podporovány následující možnosti:
- Prohledávání celého webu nebo jen ve zprávách
- Třídění seznamu nalezených položek podle relevance nebo data
- Omezení na jazyk
- Omezení na časový interval od - do
- Omezení pro prohledávání zpráv na zvolenou publikaci
- Omezení pro prohledávání zpráv na zvolenou kategorii, přičemž je zohledněno, že zpráva může patřit do více kategorií
Porovnání modulů Fulltext a Fulltext Google
Následující tabulka je porovnáním standardně dodávaného modulu Fulltext a řešení Fulltext Google.
|
Funkce |
Fulltext |
Fulltext Google |
|
Způsob indexace |
Indexuje se obsah databáze pomocí zabudovaných nástrojů použité databáze (MySQL nebo MS SQL) |
Indexuje se procházením www stránek zvnějšku indexovacím robotem |
|
Co se indexuje |
Databáze zpráv a vybraných modulů (Kalendář akcí, Poradny a rozhovory, Diskuze), a to pouze obsah (nikoli tedy části stránek dané jejich šablonami jako navigace apod.) |
Indexuje se kompletní obsah všech stránek tak, jak je vidí anonymní návštěvník webu |
|
Vyhledávání v souborech ke stažení (PDF, DOC apod.) |
Ne |
Ano (cca 250 souborových formátů) |
|
Podpora slovních tvarů češtiny při vyhledávání |
Ne |
Ano, i když specifickým způsobem jak jej používá firma Google |
|
Formulace vyhledávacích podmínek |
Syntaxe modulu Fulltext |
|
|
Prohledávání neveřejného obsahu (dle pravidel modulu Neveřejná část) |
Ano |
Ne |
|
Možnosti zobrazení údajů o položkách v seznamu nalezených položek |
Lze zobrazit stejné údaje jako např. v seznamech zpráv |
Lze zobrazit pouze to, co poskytuje vyhledávací stroj v XML kódu (nikoli tedy např. název kategorie zprávy apod.) |
|
Prohledávání dle metadat WebToDate |
Lze omezit na kategorii buď včetně podkategorií nebo bez nich, publikaci, jazyk, časový rozsah; základní hledání hledá jen ve zprávách, globální i v databázích dalších modulů |
Podobně jako Fulltext. Lze prohledávat jen danou kategorii zpráv, ale nikoli včetně podkategorií. Lze prohledávat jen zprávy nebo celý web. Nelze se omezit na databázi nějakého modulu. |