天天看點

google高手必經之路

Google([url]www.Google.com[/url])是一個搜尋引擎,由兩個斯坦福大學博士生Larry Page與Sergey Brin于1998年9月發明,Google Inc. 于1999年創立。2000年7月份,Google替代Inktomi成為Yahoo公司的搜尋引擎,同年9月份,Google成為中國網易公司的搜尋引擎。98年至今,Google已經獲得30多項業界大獎。到Google的新聞中心([url]http://www.Google.com/press/index.html[/url]),你可以找到關于一切關于Google的曆史和新聞資料。  

  搜尋入門  

  第一次進入Google,它會根據你的作業系統,确定語言界面。需要提醒的是,Google是通過cookie來存儲頁面設定的,是以,如果你的系統禁用cookie,就無法對Google界面進行個人設定了。  

  Google的首頁很清爽,LOGO下面,排列了四大功能子產品:網站、圖像、新聞討論區和目錄服務。預設是網站搜尋。現在進行第一次搜尋實踐,假定你是個搜尋新手,想要了解一下搜尋引擎的來龍去脈和搜尋技巧。在搜尋框内輸入一個關鍵字“搜尋引擎”, 選中“搜尋中文(簡體)網頁”選項,然後點選下面的“Google搜尋”按鈕(或者直接回車),結果就出來了。  

  注意:文章中搜尋文法外面的引号僅起引用作用,不能帶入搜尋欄内。  

  初階搜尋  

  上例中,單個關鍵字“搜尋引擎”,搜尋得的資訊浩如煙海,而且絕大部分并不符合自己的要求,怎麼辦呢?我們需要進一步縮小搜尋範圍和結果。  

  1,搜尋結果要求包含兩個及兩個以上關鍵字  

  一般搜尋引擎需要在多個關鍵字之間加上“ ”,而Google無需用明文的“ ”來表示邏輯“與”操作,隻要空格就可以了。現在,我們需要了解一下搜尋引擎的曆史,是以期望搜得的網頁上有“搜尋引擎”和“曆史”兩個關鍵字。  

  示例:搜尋所有包含關鍵詞“搜尋引擎”和“曆史”的中文網頁  

  搜尋:“搜尋引擎 曆史”  

  結果:已搜尋有關搜尋引擎 曆史的中文(簡體)網頁。 共約有78,600項查詢結果,這是第1-10項 。 搜尋用時0.36秒。  

  用了兩個關鍵字,查詢結果已經從70多萬項減少到7萬多項。但檢視一下搜尋結果,發現前列的絕大部分結果還是不符合要求,大部分網頁涉及的“曆史”,并不是我們所需要的“搜尋引擎的曆史”。 怎麼辦呢?删除與搜尋引擎不相關的“曆史”。我們發現,這部分無用的資訊,總是和“文化”這個詞相關的,另外一些常見詞是“中國曆史”、“世界曆史”、“曆史書籍”等。  

  2,搜尋結果要求不包含某些特定資訊  

  Google用減号“-”表示邏輯“非”操作。“A –B”表示搜尋包含A但沒有B的網頁。  

  示例:搜尋所有包含“搜尋引擎”和“曆史”但不含“文化”、“中國曆史”和“世界曆史”的中文網頁  

  搜尋:“搜尋引擎 曆史 -文化 -中國曆史 -世界曆史”  

  結果:已搜尋有關搜尋引擎 曆史 -文化 -中國曆史 -世界曆史的中文(簡體)網頁。 共約有36,800項查詢結果,這是第1-10項 。 搜尋用時0.22秒。  

  我們看到,通過去掉不相關資訊,搜尋結果又減少了将近一半。第一個搜尋結果是:  

  搜尋引擎直通車≡搜尋引擎發展曆史  

  搜尋引擎直通車, ... 搜尋引擎專業介紹站點. ...  

  [url]www.se-express.com/about/about.htm[/url] - 14k - 網頁快照 - 類似網頁  

  非常符合搜尋要求。另外,第八項搜尋結果:  

  463搜尋王  

  本站檢索 整個網站 在此輸入關鍵詞. 你的目前  

  位置:首頁 >> Internet搜尋手冊 >> 搜尋引擎的曆史. ...  

  [url]www.cnco.net/search/history.htm[/url] - 21k - 網頁快照 - 類似網頁  

  也符合搜尋要求。但是,10個結果隻有兩個符合要求,未免太少了點。不過,在沒有更好的政策之前,不妨先點開一個結果看看。點開se-express.com的這個名為“搜尋引擎發展曆史”的網頁,我們發現,搜尋引擎的曆史,是與網際網路早期的檔案檢索工具“Archie”息息相關的。此外,搜尋引擎似乎有個核心程式,叫“蜘蛛”,而最早成型的搜尋引擎是“Lycos”,使搜尋引擎深入人心的是“Yahoo”。了解了這些資訊,我們就可以進一步的讓搜尋結果符合要求了。  

  注意:這裡的“ ”和“-”号,是英文字元,而不是中文字元的“+”和“-”。此外,操作符與作用的關鍵字之間,不能有空格。比如“搜尋引擎 - 文化”,搜尋引擎将視為關鍵字為“搜尋引擎”和“文化”的邏輯“與”操作,中間的“-”被忽略。

  6.3,搜尋結果至少包含多個關鍵字中的任意一個。  

  Google用大寫的“OR”表示邏輯“或”操作。搜尋“A OR B”,意思就是說,搜尋的網頁中,要麼有A,要麼有B,要麼同時有A和B。在上例中,我們希望搜尋結果中最好含有“archie”、“lycos”、“蜘蛛”等關鍵字中的一個或者幾個,這樣可以進一步的精簡搜尋結果。  

  示例:搜尋如下網頁,要求必須含有“搜尋引擎”和“曆史”,沒有“文化”,可以含有以下關鍵字中人任何一個或者多個:“Archie”、“蜘蛛”、“Lycos”、“Yahoo”。  

  搜尋:“搜尋引擎 曆史 archie OR 蜘蛛 OR lycos OR yahoo -文化”  

  結果:已搜尋有關搜尋引擎 曆史 archie OR 蜘蛛 OR lycos OR yahoo -文化的中文(簡體)網頁。 共約有8,400項查詢結果,這是第1-10項 。 搜尋用時0.16秒。  

  我們看到,搜尋結果縮小到8千多項,前20項結果中,大部分都符合搜尋要求。如果你想了解一下解搜尋引擎的曆史發展,就不妨研究一下現在搜尋到的結果吧。  

  注意:“與”操作必須用大寫的“OR”,而不是小寫的“or”。  

  在上面的例子中,我介紹了搜尋引擎最基本的文法“與”“非”和“或”,這三種搜尋文法Google分别用“ ”(空格)、“-”和“OR”表示。順着上例的思路,你也可以了解到如何縮小搜尋範圍,迅速找到目的資訊的一般方法:目标資訊一定含有的關鍵字(用“ ”連起來),目标資訊不能含有的關鍵字(用“-”去掉),目标資訊可能含有的關鍵字(用“OR”連起來)。  

  7,雜項文法  

  7.1,通配符問題  

  很多搜尋引擎支援通配符号,如“*”代表一連串字元,“?”代表單個字元等。Google對通配符支援有限。它目前隻可以用“*”來替代單個字元,而且包含“*”必須用""引起來。比如,“"以*治國"”,表示搜尋第一個為“以”,末兩個為“治國”的四字短語,中間的“*”可以為任何字元。  

  7.2,關鍵字的字母大小寫  

  Google對英文字元大小寫不敏感,“GOD”和“god”搜尋的結果是一樣的。  

  7.3,搜尋整個短語或者句子  

  Google的關鍵字可以是單詞(中間沒有空格),也可以是短語(中間有空格)。但是,用短語做關鍵字,必須加英文引号,否則空格會被當作“與”操作符。  

  示例:搜尋關于第一次世界大戰的英文資訊。  

  搜尋:“"world war I"”  

  結果:已向英特網搜尋"world war i". 共約有937,000項查詢結果,這是第1-10項 。 搜尋用時0.06秒。  

  7.4,搜尋引擎忽略的字元以及強制搜尋  

  Google對一些網路上出現頻率極高的英文單詞,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略處理。  

  示例:搜尋關于www起源的一些曆史資料。  

  搜尋:“www的曆史 internet”  

  結果:以下的字詞因為使用過于頻繁,沒有被列入搜尋範圍: www 的. 已搜尋有關www的曆史 internet的中文(簡體)網頁。 共約有75,100項查詢結果,這是第1-10項 。 搜尋用時0.22秒。  

  我們看到,搜尋“www的曆史 internet”,但搜尋引擎把“www”和“的”都省略了。于是上述搜尋隻搜尋了“曆史”和“internet”。這顯然不符合要求。這裡我順便說一點搜尋引擎分詞的知識。當我們在搜尋“www的曆史”的時候,搜尋引擎實際上把這個短語分成三部分,“www”、“的”和“曆史”分别來檢索,這就是搜尋引擎的分詞。是以盡管你輸入了連續的“www的曆史”,但搜尋引擎還是把這個短語當成三個關鍵字分别檢索。  

  如果要對忽略的關鍵字進行強制搜尋,則需要在該關鍵字前加上明文的“+”号。  

  搜尋:“+www +的曆史 internet”  

  結果:已搜尋有關+www +的曆史 internet的中文(簡體)網頁。 共約有25,000項查詢結果,這是第1-10項 。 搜尋用時0.05秒。  

  另一個強制搜尋的方法是把上述的關鍵字用英文雙引号引起來。在上例“”world war I””中,“I”其實也是忽略詞,但因為被英文雙引号引起來,搜尋引擎就強制搜尋這一特定短語。  

  搜尋:“"www的曆史" internet”  

  結果:已搜尋有關"www的曆史" internet的中文(簡體)網頁。 共約有7項查詢結果,這是第1-6項 。 搜尋用時0.26秒。  

  我們看到,這一搜尋事實上把“www的曆史”作為完整的一個關鍵字。顯然,包含這樣一個特定短語的網頁并不是很多,不過,每一項都很符合要求。  

  注意:大部分常用英文符号(如問号,句号,逗号等)無法成為搜尋關鍵字,加強制也不行。  

  8,進階搜尋  

  上面已經探讨了Google的一些最基礎搜尋文法。通常而言,這些簡單的搜尋文法已經能解決絕大部分問題了。不過,如果想更迅速更貼切找到需要的資訊,你還需要了解更多的東西。  

  8.1,對搜尋的網站進行限制  

  “site”表示搜尋結果局限于某個具體網站或者網站頻道,如“[url]www.sina.com.cn[/url]”、“edu.sina.com.cn”,或者是某個域名,如“com.cn”、“com”等等。如果是要排除某網站或者域名範圍内的頁面,隻需用“-網站/域名”。  

  示例:上著名IT門戶網站ZDNET和CNET搜尋一下關于搜尋引擎技巧方面的資訊。  

  搜尋:“"search engine" tips site:[url]www.zdnet.com[/url] OR site:[url]www.cnet.com[/url]”  

  結果:已在[url]www.zdnet.com[/url]内搜尋有關"search engine" tips OR site:[url]www.cnet.com[/url]的網頁。 共約有1,040項查詢結果,這是第1-10項 。 搜尋用時0.09秒。  

  注意,在這裡Google有個小BUG。“已在[url]www.zdnet.com[/url]内搜尋…”,其實應該表述成“已在[url]www.zdnet.com[/url]和[url]www.cnet.com[/url]内搜尋…”。  

  示例:搜尋新浪科技頻道中關于搜尋引擎技巧的資訊。  

  搜尋:“搜尋引擎 技巧 site:tech.sina.com.cn”  

  結果:已在tech.sina.com.cn搜尋有關搜尋引擎 技巧 的中文(簡體)網頁。 共約有163項查詢結果,這是第1-10項 。 搜尋用時0.07秒。  

  注意:site後的冒号為英文字元,而且,冒号後不能有空格,否則,“site:”将被作為一個搜尋的關鍵字。此外,網站域名不能有“http://”字首,也不能有任何“/”的目錄字尾;網站頻道則隻局限于“頻道名.域名”方式,而不能是“域名/頻道名”方式。  

  8.2,在某一類檔案中查找資訊  

  “filetype:”是Google開發的非常強大實用的一個搜尋文法。也就是說,Google不僅能搜尋一般的文字頁面,還能對某些二進制文檔進行檢索。目前,Google已經能檢索微軟的Office文檔如.xls、.ppt、.doc,.rtf,WordPerfect文檔,Lotus1-2-3文檔,Adobe的.pdf文檔,ShockWave的.swf文檔(Flash動畫)等。其中最實用的文檔搜尋是PDF搜尋。PDF是ADOBE公司開發的電子文檔格式,現在已經成為網際網路的電子化出版标準。目前Google檢索的PDF文檔大約有2500萬左右,大約占所有索引的二進制文檔數量的80%。PDF文檔通常是一些圖文并茂的綜合性文檔,提供的資訊一般比較集中全面。  

  示例:搜尋幾個資産負債表的Office文檔。  

  搜尋:“資産負債表 filetype:doc OR filetype:xls OR filetype:ppt”  

  結果:已搜尋有關資産負債表 filetype:doc OR filetype:xls OR filetype:ppt的中文(簡體)網頁。 共約有481項查詢結果,這是第1-10項 。 搜尋用時0.04秒。  

  注意,下載下傳的Office檔案可能含有宏病毒,謹慎操作。  

  示例:搜尋一些關于搜尋引擎知識和技巧方面的PDF文檔  

  搜尋:“"search engine" tips OR tutorial filetype:pdf”  

  結果:已向英特網搜尋"search engine" tips OR tutorial filetype:pdf. 共約有12,600項查詢結果,這是第1-10項 。 搜尋用時0.22秒。  

  我們來看其中的一個結果:  

  [PDF]Search Engines Tips  

  文檔類型: PDF/Adobe Acrobat - HTML 版  

  ... [url]http://www.google.com/press/zeitgeist.html[/url] See what people are searching on at Google.com  

  * Search Engine Watch [url]http://searchenginewatch.com/[/url] Some free tips ...  

  [url]www.allvertical.com/PromoKits/SearchEngineTips.pdf[/url] - 類似網頁  

  可以看到,Google用[PDF]來标記這是一個PDF的文檔檢索,另外,它還給出了該PDF文檔的HTML版本,該HTML版保留了文檔的文字内容和結構,但沒有圖檔。  

  8.3,搜尋的關鍵字包含在URL連結中  

  “inurl”文法傳回的網頁連結中包含第一個關鍵字,後面的關鍵字則出現在連結中或者網頁文檔中。有很多網站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網頁名稱中,比如“MP3”、“GALLARY”等,于是,就可以用INURL文法找到這些相關資源連結,然後,用第二個關鍵詞确定是否有某項具體資料。INURL文法和基本搜尋文法的最大差別在于,前者通常能提供非常精确的專題資料

本文轉自loveme2351CTO部落格,原文連結:http://blog.51cto.com/loveme23/7710 ,如需轉載請自行聯系原作者

繼續閱讀