WebToDate/Fulltext Google/Dodatky

Z WebToDate
Skočit na navigaciSkočit na vyhledávání


Vyhledávací podmínky

Textová vyhledávací podmínka ve vyhledávacím formuláři v prezentační části se formuluje podobně jako při použití vyhledávání na www.google.com, zejména tedy platí:

  • Několik slov se nepovažuje za frázi, ale za hledání s logickou spojkou „a zároveň“, pokud není výraz v uvozovkách (pak se považuje za sousloví)
  • Znak + před slovem znamená hledání přesného výskytu slova
  • Znak – před slovem znamená, že uvedené slovo se nemá ve stránce vyskytovat
  • Spojka OR mezi slovy znamená logickou spojku „nebo“
  • filetype:pdf znamená hledání pouze v PDF souborech (místo pdf lze samozřejmě použít jiné označení typu souboru); podobně -filetype:pdf znamená prohledávání celého obsahu kromě PDF souborů
  • intitle:výraz znamená hledání výrazu pouze v názvech stránek (<title> v HTML)

Další možnosti jsou uvedeny v dokumentaci ke Google Mini (http://code.google.com/intl/cs-CZ/apis/searchappliance/documentation/610/xml_reference.html#request_query_terms), resp. Google Site Search (http://www.google.com/cse/docs/resultsxml.html#wsQueryTerms).

XML protokol pro výsledky hledání

Znalost XML protokolu je nutná pouze při tvorbě transformací aplikovaných na seznamy nalezených položek.

Google Mini

Příklad výpisu nalezených výsledků v XML tak jak je vrací zařízení Google Mini je následující:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<!-- http://192.168.157.12/search?output=xml_no_dtd&ie=UTF-8&client=default_frontend&q=%C4%8Dunek&filter=0&site=default_collection&oe=UTF-8&getfields=author.wtd-publid.wtd-categid&start=10 -->
<GSP VER="3.2">
	<TM>0.123808</TM>
	<Q>čunek</Q>
	<PARAM name="access" value="p" original_value="p"/>
	<PARAM name="entqr" value="0" original_value="0"/>
	<PARAM name="getfields" value="author.wtd-publid.wtd-categid" original_value="author.wtd-publid.wtd-categid"/>
	<PARAM name="start" value="10" original_value="10"/>
	<PARAM name="output" value="xml_no_dtd" original_value="xml_no_dtd"/>
	<PARAM name="sort" value="date:D:L:d1" original_value="date%3AD%3AL%3Ad1"/>
	<PARAM name="ie" value="UTF-8" original_value="UTF-8"/>
	<PARAM name="client" value="default_frontend" original_value="default_frontend"/>
	<PARAM name="q" value="čunek" original_value="%C4%8Dunek"/>
	<PARAM name="filter" value="0" original_value="0"/>
	<PARAM name="site" value="default_collection" original_value="default_collection"/>
	<PARAM name="oe" value="UTF-8" original_value="UTF-8"/>
	<PARAM name="ip" value="192.168.170.18" original_value="192.168.170.18"/>
	<RES SN="11" EN="20">
		<M>920</M>
		<NB>
	<PU>/search?q=%C4%8Dunek&site=default_collection&hl=en&lr=&ie=UTF-8&output=xml_no_dtd&client=default_frontend&access=p&sort=date:D:L:d1&getfields=author.wtd-publid.wtd-categid&start=0&sa=N&filter=0</PU>
	<NU>/search?q=%C4%8Dunek&site=default_collection&hl=en&lr=&ie=UTF-8&output=xml_no_dtd&client=default_frontend&access=p&sort=date:D:L:d1&getfields=author.wtd-publid.wtd-categid&start=20&sa=N&filter=0</NU>
		</NB>
		<R N="11">
			<U>http://192.168.157.29:3822/scripts/detail.php?id=67592</U>
			<UE>http://192.168.157.29:3822/scripts/detail.php%3Fid%3D67592</UE>
			<T>Sněmovna mimořádně jedná o kauze <b>Čunek</b></T>
			<RK>8</RK>
			<CRAWLDATE> 21 Jun 2007</CRAWLDATE>
			<FS NAME="date" VALUE="2007-06-15"/>
			<MT N="author" V="novinky.cz"/>
			<MT N="wtd-publid" V="5"/>
			<MT N="wtd-categid" V="4"/>
			<S>WebToDate 4.0. Úvodní stránka &gt; Zprávy &gt; Domácí &gt; Sněmovna mimořádně jedná<br> o kauze <b>Čunek</b>. <b>...</b> Sněmovna mimořádně jedná o kauze <b>Čunek</b>. <b>...</b>  </S>
			<LANG>cs</LANG>
			<HAS>
				<L/>
				<C SZ="9k" CID="WFeumJLQRUMJ" ENC="windows-1250"/>
			</HAS>
		</R>
		<R N="12">
			<U>http://192.168.157.29:3822/scripts/detail.php?id=53126</U>
			<UE>http://192.168.157.29:3822/scripts/detail.php%3Fid%3D53126</UE>
			<T><b>Čunek</b> navrhuje dvouletou výpověď nájemníkům bez udání <b>...</b></T>
			<RK>8</RK>
			<CRAWLDATE> 21 Jun 2007</CRAWLDATE>
			<FS NAME="date" VALUE="2007-02-26"/>
			<MT N="author" V="čtk"/>
			<MT N="wtd-publid" V="2"/>
			<MT N="wtd-categid" V="7"/>
			<S><b>...</b> <b>Čunek</b> navrhuje dvouletou výpověď nájemníkům bez udání důvodu. Praha -<br> Ministr pro místní rozvoj Jiří <b>Čunek</b> (KDU-ČSL <b>...</b>  </S>
			<LANG>cs</LANG>
			<HAS>
				<L/>
				<C SZ="7k" CID="fMR0GvZ3VsoJ" ENC="windows-1250"/>
			</HAS>
		</R>
		<R N="13">
			<U>http://192.168.157.29:3822/scripts/detail.php?id=34888</U>
			<UE>http://192.168.157.29:3822/scripts/detail.php%3Fid%3D34888</UE>
			<T><b>Čunek</b>: Za čištěním vředu si stojím</T>
			<RK>8</RK>
			<CRAWLDATE> 22 Jun 2007</CRAWLDATE>
			<FS NAME="date" VALUE="2006-11-03"/>
			<MT N="author" V="čtk"/>
			<MT N="wtd-publid" V="2"/>
			<MT N="wtd-categid" V="4"/>
			<S>WebToDate 4.0. Úvodní stránka &gt; Zprávy &gt; Domácí &gt; <b>Čunek</b>: Za čištěním<br> vředu si stojím. <b>...</b> <b>Čunek</b>: Za čištěním vředu si stojím. <b>...</b>  </S>
			<LANG>cs</LANG>
			<HAS>
				<L/>
				<C SZ="9k" CID="6HoQC_z10SQJ" ENC="windows-1250"/>
			</HAS>
		</R>
	</RES>
</GSP>

Kořenovým elementem je <GSP>, jako jeho atribut se udává číslo verze formátu (je doporučeno nepoužité elementy ignorovat, protože v budoucnu může dojít k rozšíření seznamu použitých elementů).

Pod kořenovým elementem se nacházejí (v tomto popisu jsou uvedeny jen některé elementy důležité pro tuto aplikaci, seznam všech elementů je uveden v originální dokumentaci):

- opakuje zadanou textovou vyhledávací podmínku

<PARAM> - obsahuje parametry předané v rámci dotazu aplikaci; každý parametr generuje jeden element PARAM, atribut name specifikuje název parametru, value HTML-formátovanou hodnotu, original_value původní (URL-encoded) hodnotu.

<RES> - v elementu je obsažen seznam nalezených položek; element sám má atributy SN (pořadové číslo první položky v seznamu nalezených v rámci stránkování) a EN (pořadové číslo poslední položky v seznamu nalezených v rámci stránkování), pořadová čísla se počítají od jedné.


V seznamu nalezených položek <RES> se pak nacházejí následující elementy:

<M> - celkový odhadovaný počet položek (výsledku hledání) - Google nevrací přesný počet, ale pouze odhad, toto číslo je tedy třeba vzít jako podklad pro stránkovací lištu

<R> - obsahuje jednu nalezenou položku, atribut N obsahuje pořadové číslo (první je číslo 1)


Uvnitř elementu <R> se nacházejí následující vnořené elementy:

<U> - URL nalezené položky

<UE> - URL-encoded verze URL nalezené položky

<T> - název (nadpis) položky

<RK> - rating, tj. relevance položky vzhledem k vyhledávacímu dotazu (číslo 0 až 10)

<S> - popisek, tj. text, který má reprezentovat obsah dokumentu, vyhledávané výrazy jsou označeny HTML značkou <b> (uvedenou ovšem jako <b>)

<LANG> - dvoupísmenná zkratka jazyka položky, např. <LANG>cs</LANG>

<FS NAME="date" VALUE="2007-05-17"/> - datum poslední modifikace stránky / dokumentu; pokud indexovaní stroj není schopen určit, může být hodnota prázdná nebo element nemusí být vůbec přítomen

<MT N="author" V="Jan Vítek"/> - hodnoty metatagů, atribut N je název metatagu, V jeho hodnota; element MT se může opakovat a to pro různý i stejný název metatagu (stejný název metatagu se opakuje v případě, že je metatag uveden v indexované stránce několikrát. O výpis metatagů je nutno v dotazu explicitně požádat pomocí parametru getfields, tedy např. getfields=author.wtd-publid.wtd-categid. Kompletní výpis metatagů uvnitř jednoho <R> elementu pak může vypadat např. takto:

<MT N="author" V="Jan Vítek"/>
<MT N="wtd-publid" V="2"/>
<MT N="wtd-categid" V="12"/>
<MT N="wtd-categid" V="75"/>

Kompletní dokumentace k vyhledávacímu protokolu je na adrese http://code.google.com/apis/searchappliance/documentation/.

Google Site Search

Příklad výpisu nalezených výsledků v XML tak jak je vrací Google Site Search je následující:

<?xml version="1.0" encoding="windows-1250" standalone="no"?>
<GSP VER="3.2">
  <TM>0.296548</TM>
  <Q>paragraf</Q>
  <PARAM name="output" value="xml_no_dtd" original_value="xml_no_dtd" url_escaped_value="xml_no_dtd" js_escaped_value="xml_no_dtd"/>
  <PARAM name="cx" value="012767698449784641166:jxnsktacbfo" original_value="012767698449784641166%3Ajxnsktacbfo " url_escaped_value="012767698449784641166%3Ajxnsktacbfo" js_escaped_value="012767698449784641166:jxnsktacbfo "/>
  <PARAM name="client" value="google-csbe" original_value="google-csbe" url_escaped_value="google-csbe" js_escaped_value="google-csbe"/>
  <PARAM name="ie" value="windows-1250" original_value="windows-1250" url_escaped_value="windows-1250" js_escaped_value="windows-1250"/>
  <PARAM name="oe" value="windows-1250" original_value="windows-1250" url_escaped_value="windows-1250" js_escaped_value="windows-1250"/>
  <PARAM name="lr" value="lang_cs" original_value="lang_cs" url_escaped_value="lang_cs" js_escaped_value="lang_cs"/>
  <PARAM name="num" value="20" original_value="20" url_escaped_value="20" js_escaped_value="20"/>
  <PARAM name="start" value="0" original_value="0" url_escaped_value="0" js_escaped_value="0"/>
  <PARAM name="q" value="paragraf" original_value="paragraf" url_escaped_value="paragraf" js_escaped_value="paragraf"/>
  <Context>
    <title>ČAK</title>
  </Context>
  <ARES></ARES>
  <RES SN="1" EN="20">
    <M>123</M>
    <NB>
 <NU>/search?q=paragraf&num=20&hl=cs&lr=lang_cs&inlang=pl&client=google-csbe&cx=012767050439784641166:jxnsktovbfo&output=xml_no_dtd&ie=UTF-8&oe=windows-1250&ei=S-PtTaHqC43IsgbS84H0Aw&start=20&sa=N</NU>
    </NB>
    <RG START="1" SIZE="20"></RG>
    <RG START="1" SIZE="1"></RG>
    <R N="1">
      <U>http://www.cak.cz/scripts/detail.php?id=941</U>
      <UE>http://www.cak.cz/scripts/detail.php%3Fid%3D941</UE>
      <T>Za <b>paragraf</b> o tunelování bývá ročně souzeno asi 14 lidí</T>
      <RK>0</RK>
      <S>PRAHA - Proti vypuštění <b>paragrafu</b> o tunelování z trestního zákoníku se ostře <br>  staví SNK -Evropští demokraté. Jejich lídr Josef Zieleniec v ČT prohlásil, <b>...</b></S>
      <LANG>cs</LANG>
      <Label>3</Label>
      <Label>4</Label>
      <PageMap>
        <DataObject type="metatags">
          <Attribute name="copyright" value="Macron Software"/>
        </DataObject>
      </PageMap>
      <HAS>
        <L/>
        <C SZ="11k" CID="qREdzIE6ZfAJ"/>
        <RT/>
      </HAS>
      <ELIGIBLE_FOR_VISUAL_SNIPPET/>
    </R>
    <RG START="2" SIZE="1"></RG>
    <R N="2">
      <U>http://www.cak.cz/scripts/detail.php?id=966</U>
      <UE>http://www.cak.cz/scripts/detail.php%3Fid%3D966</UE>
      <T>Bendovo šestero je falešné - Česká advokátní komora</T>
      <RK>0</RK>
      <S><b>Paragraf</b> je nepotřebný, protože na každého potrestaného připadá deset těch, <b>...</b> <br>  <b>Paragraf</b> není určen proti tunelářům. Je to reziduum proti šéfům státních <b>...</b></S>
      <LANG>cs</LANG>
      <Label>3</Label>
      <Label>4</Label>
      <PageMap>
        <DataObject type="metatags">
          <Attribute name="copyright" value="Macron Software"/>
        </DataObject>
      </PageMap>
      <HAS>
        <L/>
        <C SZ="11k" CID="uGnV_r4Vz2kJ"/>
        <RT/>
      </HAS>
      <ELIGIBLE_FOR_VISUAL_SNIPPET/>
    </R>
  </RES>
</GSP>

Použití XML elementů je podobné jako pro Google Mini, kompletní dokumentace k vyhledávacímu protokolu je na adrese http://www.google.com/cse/docs/resultsxml.html.