企業網站建設標簽代碼的使用方法
index、noindex、follow、nofollow的使用;
爬蟲是目前最常見的網絡程序,曾經有過統計,說是目前的網絡流量有一半以上是爬蟲使用的。雖然爬蟲程序隨處可見,但是并不代表這種做法就是合理合法的。
在抓取網頁時,我們要讓自己的爬蟲遵守Robot.txt協議。一般網站有兩種方式聲明不想被爬蟲爬取按:第一種是在站點的根目錄下增加一個純文本文件,例如http://www.aaa.com/robots.txt。第二種是直接在頁面中使用robots的meta標簽。
接下來,詳細介紹一下robots的meta標簽。標簽有四類:index、noindex、follow、nofollow。使用時以逗號分隔。
index指令:表示Robot可以索引本頁;
follow指令:表示Robot可以跟蹤本頁鏈接;
noindex指令:表示拒絕Robot索引本頁,但可跟蹤該頁上的鏈接;
nofollow指令:表示拒絕Robot跟蹤本頁鏈接,但可索引本頁。
根據以上的命令,我們就有了一下的四種組合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本頁,而且可以順著本頁繼續索引別的鏈接
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不許抓取本頁,但是可以順著本頁抓取索引別的鏈接
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本頁,但是不許順著本頁抓取索引別的鏈接
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不許抓取本頁,也不許順著本頁抓取索引別的鏈接。
這里需要注意的是,不要把兩個對立的反義詞寫到一起,例如
<META NAME="ROBOTS" CONTENT="INDEX,NOINDEX">
還有一點,禁止搜索引擎建立快照。
<meta name="robots" content="noarchive">
以上的一段代碼限制了所有的搜索引擎建立你的網頁快照。如果我們需要僅僅限制一個搜索引擎建立快照的話,就可以像如下這樣去寫
<meta name="Googlebot" content="noarchive">
這樣的標記是禁止搜索引擎為你的網站建立快照。
Meta標簽的使用;
meta標簽的組成
meta標簽共有兩個屬性,它們分別是http-equiv屬性和name屬性,不同的屬性又有不同的參數值,這些不同的參數值就實現了不同的網頁功能。
1、name屬性
name屬性主要用于描述網頁,與之對應的屬性值為content,content中的內容主要是便于搜索引擎機器人查找信息和分類信息用的。
meat標簽的name屬性語法格式是:<meta name="參數" content="具體的參數值"> 。
其中name屬性主要有以下幾種參數:
A、Keywords(關鍵字)
說明:keywords用來告訴搜索引擎你網頁的關鍵字是什么。
舉例:<meta name ="keywords" content="science, education,culture,politics,ecnomics,relationships, entertaiment, human">
B、description(網站內容描述)
說明:description用來告訴搜索引擎你的網站主要內容。
舉例:<meta name="description" content="This page is about the meaning of science, education,culture.">
C、robots(機器人向導)
說明:robots用來告訴搜索機器人哪些頁面需要索引,哪些頁面不需要索引。
content的參數有all,none,index,noindex,follow,nofollow。默認是all。
舉例:<meta name="robots" content="none">
D、author(作者)
說明:標注網頁的作者
舉例:<meta name="author" content="zys666,zys666@21cn.com">
2、http-equiv屬性
http-equiv顧名思義,相當于http的文件頭作用,它可以向瀏覽器傳回一些有用的信息,以幫助正確和精確地顯示網頁內容,與之對應的屬性值為content,content中的內容其實就是各個參數的變量值。
meat標簽的http-equiv屬性語法格式是:<meta http-equiv="參數" content="參數變量值"> ;其中http-equiv屬性主要有以下幾種參數:
A、Expires(期限)
說明:可以用于設定網頁的到期時間。一旦網頁過期,必須到服務器上重新傳輸。
用法:<meta http-equiv="expires" content="Fri, 12 Jan 2001 18:18:18 GMT">
注意:必須使用GMT的時間格式。
B、Pragma(cache模式)
說明:禁止瀏覽器從本地計算機的緩存中訪問頁面內容。
用法:<meta http-equiv="Pragma" content="no-cache">
注意:這樣設定,訪問者將無法脫機瀏覽。
C、Refresh(刷新)
說明:自動刷新并指向新頁面。
用法:<meta http-equiv="Refresh" content="2;URL=http://www.chinayancheng.net">
注意:其中的2是指停留2秒鐘后自動刷新到URL網址。
D、Set-Cookie(cookie設定)
說明:如果網頁過期,那么存盤的cookie將被刪除。
用法:<meta http-equiv="Set-Cookie" content="cookievalue=xxx; expires=Friday, 12-Jan-2001 18:18:18 GMT; path=/">
注意:必須使用GMT的時間格式。
E、Window-target(顯示窗口的設定)
說明:強制頁面在當前窗口以獨立頁面顯示。
用法:<meta http-equiv="Window-target" content="_top">
注意:用來防止別人在框架里調用自己的頁面。
F、content-Type(顯示字符集的設定)
說明:設定頁面使用的字符集。
用法:<meta http-equiv="content-Type" content="text/html; charset=gb2312">
meta標簽的功能
上面我們介紹了meta標簽的一些基本組成,接著我們再來一起看看meta標簽的常見功能:
1、幫助主頁被各大搜索引擎登錄
meta標簽的一個很重要的功能就是設置關鍵字,來幫助你的主頁被各大搜索引擎登錄,提高網站的訪問量。在這個功能中,最重要的就是對Keywords和description的設置。因為按照搜索引擎的工作原理,搜索引擎首先派出機器人自動檢索頁面中的keywords和decription,并將其加入到自己的數據庫,然后再根據關鍵詞的密度將網站排序。因此,我們必須設置好關鍵字,來提高頁面的搜索點擊率。下面我們來舉一個例子供大家參考:
<meta name="keywords" content="政治,經濟, 科技,文化, 衛生, 情感,心靈,娛樂,生活,社會,企業,交通">
<meta name="description" content="政治,經濟, 科技,文化, 衛生, 情感,心靈,娛樂,生活,社會,企業,交通">
設置好這些關鍵字后,搜索引擎將會自動把這些關鍵字添加到數據庫中,并根據這些關鍵字的密度來進行合適的排序。
2、定義頁面的使用語言
這是meta標簽最常見的功能,在制作網頁時,我們在純HTML代碼下都會看到它,它起的作用是定義你網頁的語言,當瀏覽者訪問你的網頁時,瀏覽器會自動識別并設置網頁中的語言,如果你網頁設置的是GB碼,而瀏覽者沒有安裝GB碼,這時網頁只會呈現瀏覽者所設置的瀏覽器默認語言。同樣的,如果該網頁是英語,那么charset=en。下面就是一個具有代表性的例子:
<meta http-equiv=″content-Type″ content=″text/html; charset=gb2312″〉
該代碼就表示將網頁的語言設置成國標碼。
3、自動刷新并指向新的頁面
如果你想使您的網頁在無人控制的情況下,能自動在指定的時間內去訪問指定的網頁,就可以使用meta標簽的自動刷新網頁的功能。下面我們來看一段代碼:
〈meta http-equiv=″refresh″ content=″2; URL=http://www.yeah.net″〉
這段代碼可以使當前某一個網頁在2秒后自動轉到http://www.yeah.net頁面中去,這就是meta的刷新作用,在content中,2代表設置的時間(單位為秒),而URL就是在指定的時間后自動連接的網頁地址。
4、實現網頁轉換時的動畫效果
使用meta標簽,我們還可以在進入網頁或者離開網頁的一剎那實現動畫效果,我們只要在頁面的html代碼中的<head></head>標簽之間添加如下代碼就可以了:
<meta http-equiv="Page-Enter" content="revealTrans(duration=5.0, transition=20)">
<meta http-equiv="Page-Exit" content="revealTrans(duration=5.0, transition=20)">
一旦上述代碼被加到一個網頁中后,我們再進出頁面時就會看到一些特殊效果,這個功能其實與FrontPage2000中的Format/Page Transition一樣,但我們要注意的是所加網頁不能是一個Frame頁;
5、網頁定級評價
IE4.0以上版本的瀏覽器可以防止瀏覽一些受限制的網站,而之所以瀏覽器會自動識別某些網站是否受限制,就是因為在網站meta標簽中已經設置好了該網站的級別,而該級別的評定是由美國RSAC,即娛樂委員會的評級機構評定的,如果你需要評價自己的網站,可以連接到網站http://www.rsac.org/,按要求提交表格,那么RSAC會提供一段meta代碼給你,復制到自己網頁里就可以了。下面就是一段代碼的樣例:
〈meta http-equiv=″PICS-Label″
content=′(PICS-1.1 ″http://www.rsac.org/ratingsv01.html″
l gen true comment ″RSACi North America Server″
for ″http://www.rsac.org″
on ″2001.08.16T08:15-0500″
r (n 0 s 0 v 0 l 0))′〉
6、控制頁面緩沖
meta標簽可以設置網頁到期的時間,也就是說,當你在Internet Explorer 瀏覽器中設置瀏覽網頁時首先查看本地緩沖里的頁面,那么當瀏覽某一網頁,而本地緩沖又有時,那么瀏覽器會自動瀏覽緩沖區里的頁面,直到meta中設置的時間到期,這時候,瀏覽器才會去取得新頁面。例如下面這段代碼就表示網頁的到期時間是2001年1月12日18時18分18秒。
〈meta http-equiv=″expires″ content=″Friday, 12-Jan-2001 18:18:18 GMT″〉
7、控制網頁顯示的窗口
我們還可以使用meta標簽來控制網頁顯示的窗口,只要在網頁中加入下面的代碼就可以了:<metahttp-equiv="window-target" content="_top">,這段代碼可以防止網頁被別人作為一個Frame調用
robots.txt作用及其使用
robots.txt就是一份網站和搜索引擎雙方簽訂的規則協議書,是搜索引擎中訪問網站的時候要查看的第一個文件。首先爬行來檢查該站點根目錄下是否存在robots.txt。如果存在,蜘蛛就按照協議上規定爬行抓取;沒有robots.txt,蜘蛛會隨著鏈接爬行進行抓取。
理解User-agent和Disallow的定義:
User-agent:該項用于描述搜索引擎蜘蛛的名字;Disallow:該項用于描述不希望被抓取和索引的一個URL,這個URL可以是一條完整的路徑
下面是一些robots.txt基本的用法:
1、禁止所有搜索引擎訪問網站的任何部分:
User-agent: *
Disallow: /
2、允許所有的robot訪問
User-agent: *
Disallow:
或者也可以建一個空文件robots.txt
3、禁止所有搜索引擎訪問網站的幾個部分(下例中的cgi-bin、tmp、private目錄)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
4、禁止某個搜索引擎的訪問(下例中的BadBot)
User-agent: BadBot
Disallow: /
5、只允許某個搜索引擎的訪問(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /
- 基于用戶創新
界面設計日新月異,夢創義堅持基于用戶需求的界面創新設計……
- 服務設計思維
互聯網的格局發生的改變,在我們進行設計服務時更是考慮不同用戶、不同……
- 洞察用戶心理
洞察用戶有意識和無意識的行為以及心理特征通過構造一系列的服務來促進……
- 查看更多 >>
最新新聞Latest News
- 中小型企業網站建設完應該如何營銷
- 很多中小型企業往往糾結于以下10個問題:一、我們起步比別人晚,我們的……
- 做企業網站到底做給誰看?
- 設計經常時不時的遇到一些企業客戶,常常搞不清楚誰會真正看你的企業網……
- 傳統企業進軍移動互聯網,從移動云網站開始
- 移動互聯網是移動通信和互聯網融合的產物,其發展的重要基礎便是智能手……
- 網站建設和運營五大細節決定用戶黏性
- 網站的成功離不開搜索引擎優化,更離不開最基礎最根本的用戶群體,如何……
- 2015年值得關注的電子商務5大趨勢
- 線上線下銷售的界線正在變得越來越模糊。在2015年,這一趨勢仍將繼續。……