WebToDate/Fulltext Google/Dodatky: Porovnání verzí
Založena nová stránka: Category:WebToDate Fulltext Google Category:Fulltext == Vyhledávací podmínky == Textová vyhledávací podmínka ve vyhledávacím formuláři v prezenta… |
(Žádný rozdíl)
|
Aktuální verze z 7. 6. 2011, 17:06
Vyhledávací podmínky
Textová vyhledávací podmínka ve vyhledávacím formuláři v prezentační části se formuluje podobně jako při použití vyhledávání na www.google.com, zejména tedy platí:
- Několik slov se nepovažuje za frázi, ale za hledání s logickou spojkou „a zároveň“, pokud není výraz v uvozovkách (pak se považuje za sousloví)
- Znak + před slovem znamená hledání přesného výskytu slova
- Znak – před slovem znamená, že uvedené slovo se nemá ve stránce vyskytovat
- Spojka OR mezi slovy znamená logickou spojku „nebo“
- filetype:pdf znamená hledání pouze v PDF souborech (místo pdf lze samozřejmě použít jiné označení typu souboru); podobně -filetype:pdf znamená prohledávání celého obsahu kromě PDF souborů
- intitle:výraz znamená hledání výrazu pouze v názvech stránek (<title> v HTML)
Další možnosti jsou uvedeny v dokumentaci ke Google Mini (http://code.google.com/intl/cs-CZ/apis/searchappliance/documentation/610/xml_reference.html#request_query_terms), resp. Google Site Search (http://www.google.com/cse/docs/resultsxml.html#wsQueryTerms).
XML protokol pro výsledky hledání
Znalost XML protokolu je nutná pouze při tvorbě transformací aplikovaných na seznamy nalezených položek.
Google Mini
Příklad výpisu nalezených výsledků v XML tak jak je vrací zařízení Google Mini je následující:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<!-- http://192.168.157.12/search?output=xml_no_dtd&ie=UTF-8&client=default_frontend&q=%C4%8Dunek&filter=0&site=default_collection&oe=UTF-8&getfields=author.wtd-publid.wtd-categid&start=10 -->
<GSP VER="3.2">
<TM>0.123808</TM>
<Q>čunek</Q>
<PARAM name="access" value="p" original_value="p"/>
<PARAM name="entqr" value="0" original_value="0"/>
<PARAM name="getfields" value="author.wtd-publid.wtd-categid" original_value="author.wtd-publid.wtd-categid"/>
<PARAM name="start" value="10" original_value="10"/>
<PARAM name="output" value="xml_no_dtd" original_value="xml_no_dtd"/>
<PARAM name="sort" value="date:D:L:d1" original_value="date%3AD%3AL%3Ad1"/>
<PARAM name="ie" value="UTF-8" original_value="UTF-8"/>
<PARAM name="client" value="default_frontend" original_value="default_frontend"/>
<PARAM name="q" value="čunek" original_value="%C4%8Dunek"/>
<PARAM name="filter" value="0" original_value="0"/>
<PARAM name="site" value="default_collection" original_value="default_collection"/>
<PARAM name="oe" value="UTF-8" original_value="UTF-8"/>
<PARAM name="ip" value="192.168.170.18" original_value="192.168.170.18"/>
<RES SN="11" EN="20">
<M>920</M>
<NB>
<PU>/search?q=%C4%8Dunek&site=default_collection&hl=en&lr=&ie=UTF-8&output=xml_no_dtd&client=default_frontend&access=p&sort=date:D:L:d1&getfields=author.wtd-publid.wtd-categid&start=0&sa=N&filter=0</PU>
<NU>/search?q=%C4%8Dunek&site=default_collection&hl=en&lr=&ie=UTF-8&output=xml_no_dtd&client=default_frontend&access=p&sort=date:D:L:d1&getfields=author.wtd-publid.wtd-categid&start=20&sa=N&filter=0</NU>
</NB>
<R N="11">
<U>http://192.168.157.29:3822/scripts/detail.php?id=67592</U>
<UE>http://192.168.157.29:3822/scripts/detail.php%3Fid%3D67592</UE>
<T>Sněmovna mimořádně jedná o kauze <b>Čunek</b></T>
<RK>8</RK>
<CRAWLDATE> 21 Jun 2007</CRAWLDATE>
<FS NAME="date" VALUE="2007-06-15"/>
<MT N="author" V="novinky.cz"/>
<MT N="wtd-publid" V="5"/>
<MT N="wtd-categid" V="4"/>
<S>WebToDate 4.0. Úvodní stránka > Zprávy > Domácí > Sněmovna mimořádně jedná<br> o kauze <b>Čunek</b>. <b>...</b> Sněmovna mimořádně jedná o kauze <b>Čunek</b>. <b>...</b> </S>
<LANG>cs</LANG>
<HAS>
<L/>
<C SZ="9k" CID="WFeumJLQRUMJ" ENC="windows-1250"/>
</HAS>
</R>
<R N="12">
<U>http://192.168.157.29:3822/scripts/detail.php?id=53126</U>
<UE>http://192.168.157.29:3822/scripts/detail.php%3Fid%3D53126</UE>
<T><b>Čunek</b> navrhuje dvouletou výpověď nájemníkům bez udání <b>...</b></T>
<RK>8</RK>
<CRAWLDATE> 21 Jun 2007</CRAWLDATE>
<FS NAME="date" VALUE="2007-02-26"/>
<MT N="author" V="čtk"/>
<MT N="wtd-publid" V="2"/>
<MT N="wtd-categid" V="7"/>
<S><b>...</b> <b>Čunek</b> navrhuje dvouletou výpověď nájemníkům bez udání důvodu. Praha -<br> Ministr pro místní rozvoj Jiří <b>Čunek</b> (KDU-ČSL <b>...</b> </S>
<LANG>cs</LANG>
<HAS>
<L/>
<C SZ="7k" CID="fMR0GvZ3VsoJ" ENC="windows-1250"/>
</HAS>
</R>
<R N="13">
<U>http://192.168.157.29:3822/scripts/detail.php?id=34888</U>
<UE>http://192.168.157.29:3822/scripts/detail.php%3Fid%3D34888</UE>
<T><b>Čunek</b>: Za čištěním vředu si stojím</T>
<RK>8</RK>
<CRAWLDATE> 22 Jun 2007</CRAWLDATE>
<FS NAME="date" VALUE="2006-11-03"/>
<MT N="author" V="čtk"/>
<MT N="wtd-publid" V="2"/>
<MT N="wtd-categid" V="4"/>
<S>WebToDate 4.0. Úvodní stránka > Zprávy > Domácí > <b>Čunek</b>: Za čištěním<br> vředu si stojím. <b>...</b> <b>Čunek</b>: Za čištěním vředu si stojím. <b>...</b> </S>
<LANG>cs</LANG>
<HAS>
<L/>
<C SZ="9k" CID="6HoQC_z10SQJ" ENC="windows-1250"/>
</HAS>
</R>
</RES>
</GSP>
Kořenovým elementem je <GSP>, jako jeho atribut se udává číslo verze formátu (je doporučeno nepoužité elementy ignorovat, protože v budoucnu může dojít k rozšíření seznamu použitých elementů).
Pod kořenovým elementem se nacházejí (v tomto popisu jsou uvedeny jen některé elementy důležité pro tuto aplikaci, seznam všech elementů je uveden v originální dokumentaci):
- opakuje zadanou textovou vyhledávací podmínku
<PARAM> - obsahuje parametry předané v rámci dotazu aplikaci; každý parametr generuje jeden element PARAM, atribut name specifikuje název parametru, value HTML-formátovanou hodnotu, original_value původní (URL-encoded) hodnotu.
<RES> - v elementu je obsažen seznam nalezených položek; element sám má atributy SN (pořadové číslo první položky v seznamu nalezených v rámci stránkování) a EN (pořadové číslo poslední položky v seznamu nalezených v rámci stránkování), pořadová čísla se počítají od jedné.
V seznamu nalezených položek <RES> se pak nacházejí následující elementy:
<M> - celkový odhadovaný počet položek (výsledku hledání) - Google nevrací přesný počet, ale pouze odhad, toto číslo je tedy třeba vzít jako podklad pro stránkovací lištu
<R> - obsahuje jednu nalezenou položku, atribut N obsahuje pořadové číslo (první je číslo 1)
Uvnitř elementu <R> se nacházejí následující vnořené elementy:
<U> - URL nalezené položky
<UE> - URL-encoded verze URL nalezené položky
<T> - název (nadpis) položky
<RK> - rating, tj. relevance položky vzhledem k vyhledávacímu dotazu (číslo 0 až 10)
<S> - popisek, tj. text, který má reprezentovat obsah dokumentu, vyhledávané výrazy jsou označeny HTML značkou <b> (uvedenou ovšem jako <b>)
<LANG> - dvoupísmenná zkratka jazyka položky, např. <LANG>cs</LANG>
<FS NAME="date" VALUE="2007-05-17"/> - datum poslední modifikace stránky / dokumentu; pokud indexovaní stroj není schopen určit, může být hodnota prázdná nebo element nemusí být vůbec přítomen
<MT N="author" V="Jan Vítek"/> - hodnoty metatagů, atribut N je název metatagu, V jeho hodnota; element MT se může opakovat a to pro různý i stejný název metatagu (stejný název metatagu se opakuje v případě, že je metatag uveden v indexované stránce několikrát. O výpis metatagů je nutno v dotazu explicitně požádat pomocí parametru getfields, tedy např. getfields=author.wtd-publid.wtd-categid. Kompletní výpis metatagů uvnitř jednoho <R> elementu pak může vypadat např. takto:
<MT N="author" V="Jan Vítek"/>
<MT N="wtd-publid" V="2"/>
<MT N="wtd-categid" V="12"/>
<MT N="wtd-categid" V="75"/>
Kompletní dokumentace k vyhledávacímu protokolu je na adrese http://code.google.com/apis/searchappliance/documentation/.
Google Site Search
Příklad výpisu nalezených výsledků v XML tak jak je vrací Google Site Search je následující:
<?xml version="1.0" encoding="windows-1250" standalone="no"?>
<GSP VER="3.2">
<TM>0.296548</TM>
<Q>paragraf</Q>
<PARAM name="output" value="xml_no_dtd" original_value="xml_no_dtd" url_escaped_value="xml_no_dtd" js_escaped_value="xml_no_dtd"/>
<PARAM name="cx" value="012767698449784641166:jxnsktacbfo" original_value="012767698449784641166%3Ajxnsktacbfo " url_escaped_value="012767698449784641166%3Ajxnsktacbfo" js_escaped_value="012767698449784641166:jxnsktacbfo "/>
<PARAM name="client" value="google-csbe" original_value="google-csbe" url_escaped_value="google-csbe" js_escaped_value="google-csbe"/>
<PARAM name="ie" value="windows-1250" original_value="windows-1250" url_escaped_value="windows-1250" js_escaped_value="windows-1250"/>
<PARAM name="oe" value="windows-1250" original_value="windows-1250" url_escaped_value="windows-1250" js_escaped_value="windows-1250"/>
<PARAM name="lr" value="lang_cs" original_value="lang_cs" url_escaped_value="lang_cs" js_escaped_value="lang_cs"/>
<PARAM name="num" value="20" original_value="20" url_escaped_value="20" js_escaped_value="20"/>
<PARAM name="start" value="0" original_value="0" url_escaped_value="0" js_escaped_value="0"/>
<PARAM name="q" value="paragraf" original_value="paragraf" url_escaped_value="paragraf" js_escaped_value="paragraf"/>
<Context>
<title>ČAK</title>
</Context>
<ARES></ARES>
<RES SN="1" EN="20">
<M>123</M>
<NB>
<NU>/search?q=paragraf&num=20&hl=cs&lr=lang_cs&inlang=pl&client=google-csbe&cx=012767050439784641166:jxnsktovbfo&output=xml_no_dtd&ie=UTF-8&oe=windows-1250&ei=S-PtTaHqC43IsgbS84H0Aw&start=20&sa=N</NU>
</NB>
<RG START="1" SIZE="20"></RG>
<RG START="1" SIZE="1"></RG>
<R N="1">
<U>http://www.cak.cz/scripts/detail.php?id=941</U>
<UE>http://www.cak.cz/scripts/detail.php%3Fid%3D941</UE>
<T>Za <b>paragraf</b> o tunelování bývá ročně souzeno asi 14 lidí</T>
<RK>0</RK>
<S>PRAHA - Proti vypuštění <b>paragrafu</b> o tunelování z trestního zákoníku se ostře <br> staví SNK -Evropští demokraté. Jejich lídr Josef Zieleniec v ČT prohlásil, <b>...</b></S>
<LANG>cs</LANG>
<Label>3</Label>
<Label>4</Label>
<PageMap>
<DataObject type="metatags">
<Attribute name="copyright" value="Macron Software"/>
</DataObject>
</PageMap>
<HAS>
<L/>
<C SZ="11k" CID="qREdzIE6ZfAJ"/>
<RT/>
</HAS>
<ELIGIBLE_FOR_VISUAL_SNIPPET/>
</R>
<RG START="2" SIZE="1"></RG>
<R N="2">
<U>http://www.cak.cz/scripts/detail.php?id=966</U>
<UE>http://www.cak.cz/scripts/detail.php%3Fid%3D966</UE>
<T>Bendovo šestero je falešné - Česká advokátní komora</T>
<RK>0</RK>
<S><b>Paragraf</b> je nepotřebný, protože na každého potrestaného připadá deset těch, <b>...</b> <br> <b>Paragraf</b> není určen proti tunelářům. Je to reziduum proti šéfům státních <b>...</b></S>
<LANG>cs</LANG>
<Label>3</Label>
<Label>4</Label>
<PageMap>
<DataObject type="metatags">
<Attribute name="copyright" value="Macron Software"/>
</DataObject>
</PageMap>
<HAS>
<L/>
<C SZ="11k" CID="uGnV_r4Vz2kJ"/>
<RT/>
</HAS>
<ELIGIBLE_FOR_VISUAL_SNIPPET/>
</R>
</RES>
</GSP>
Použití XML elementů je podobné jako pro Google Mini, kompletní dokumentace k vyhledávacímu protokolu je na adrese http://www.google.com/cse/docs/resultsxml.html.