首頁 > 新聞 > 網站建設 > 企業網站建設標簽代碼的使用方法

企業網站建設標簽代碼的使用方法

index、noindex、follow、nofollow的使用；

爬蟲是目前最常見的網絡程序，曾經有過統計，說是目前的網絡流量有一半以上是爬蟲使用的。雖然爬蟲程序隨處可見，但是并不代表這種做法就是合理合法的。
在抓取網頁時，我們要讓自己的爬蟲遵守Robot.txt協議。一般網站有兩種方式聲明不想被爬蟲爬取按：第一種是在站點的根目錄下增加一個純文本文件，例如http://www.aaa.com/robots.txt。第二種是直接在頁面中使用robots的meta標簽。
接下來，詳細介紹一下robots的meta標簽。標簽有四類：index、noindex、follow、nofollow。使用時以逗號分隔。

index指令：表示Robot可以索引本頁;
follow指令：表示Robot可以跟蹤本頁鏈接;
noindex指令：表示拒絕Robot索引本頁，但可跟蹤該頁上的鏈接;
nofollow指令：表示拒絕Robot跟蹤本頁鏈接，但可索引本頁。

根據以上的命令，我們就有了一下的四種組合：

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">：可以抓取本頁，而且可以順著本頁繼續索引別的鏈接
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">：不許抓取本頁，但是可以順著本頁抓取索引別的鏈接
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">：可以抓取本頁，但是不許順著本頁抓取索引別的鏈接
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">：不許抓取本頁，也不許順著本頁抓取索引別的鏈接。

這里需要注意的是，不要把兩個對立的反義詞寫到一起，例如

<META NAME="ROBOTS" CONTENT="INDEX,NOINDEX">

還有一點，禁止搜索引擎建立快照。

<meta name="robots" content="noarchive">

以上的一段代碼限制了所有的搜索引擎建立你的網頁快照。如果我們需要僅僅限制一個搜索引擎建立快照的話，就可以像如下這樣去寫

<meta name="Googlebot" content="noarchive">
這樣的標記是禁止搜索引擎為你的網站建立快照。

Meta標簽的使用；

meta標簽的組成

meta標簽共有兩個屬性，它們分別是http-equiv屬性和name屬性，不同的屬性又有不同的參數值，這些不同的參數值就實現了不同的網頁功能。

1、name屬性

name屬性主要用于描述網頁，與之對應的屬性值為content，content中的內容主要是便于搜索引擎機器人查找信息和分類信息用的。

meat標簽的name屬性語法格式是：＜meta name="參數" content="具體的參數值"＞。

其中name屬性主要有以下幾種參數：

A、Keywords(關鍵字)

說明：keywords用來告訴搜索引擎你網頁的關鍵字是什么。

舉例：＜meta name ="keywords" content="science, education,culture,politics,ecnomics，relationships, entertaiment, human"＞

B、description(網站內容描述)

說明：description用來告訴搜索引擎你的網站主要內容。

舉例：＜meta name="description" content="This page is about the meaning of science, education,culture."＞

C、robots(機器人向導)

說明：robots用來告訴搜索機器人哪些頁面需要索引，哪些頁面不需要索引。

content的參數有all,none,index,noindex,follow,nofollow。默認是all。

舉例：＜meta name="robots" content="none"＞

D、author(作者)

說明：標注網頁的作者

舉例：＜meta name="author" content="zys666,zys666@21cn.com"＞

2、http-equiv屬性

http-equiv顧名思義，相當于http的文件頭作用，它可以向瀏覽器傳回一些有用的信息，以幫助正確和精確地顯示網頁內容，與之對應的屬性值為content，content中的內容其實就是各個參數的變量值。

meat標簽的http-equiv屬性語法格式是：＜meta http-equiv="參數" content="參數變量值"＞；其中http-equiv屬性主要有以下幾種參數：

A、Expires(期限)

說明：可以用于設定網頁的到期時間。一旦網頁過期，必須到服務器上重新傳輸。

用法：＜meta http-equiv="expires" content="Fri, 12 Jan 2001 18:18:18 GMT"＞

注意：必須使用GMT的時間格式。

B、Pragma(cache模式)

說明：禁止瀏覽器從本地計算機的緩存中訪問頁面內容。

用法：＜meta http-equiv="Pragma" content="no-cache"＞

注意：這樣設定，訪問者將無法脫機瀏覽。

C、Refresh(刷新)

說明：自動刷新并指向新頁面。

用法：＜meta http-equiv="Refresh" content="2；URL=http://www.chinayancheng.net"＞

注意：其中的2是指停留2秒鐘后自動刷新到URL網址。

D、Set-Cookie(cookie設定)

說明：如果網頁過期，那么存盤的cookie將被刪除。

用法：＜meta http-equiv="Set-Cookie" content="cookievalue=xxx; expires=Friday, 12-Jan-2001 18:18:18 GMT； path=/"＞

注意：必須使用GMT的時間格式。

E、Window-target(顯示窗口的設定)

說明：強制頁面在當前窗口以獨立頁面顯示。

用法：＜meta http-equiv="Window-target" content="_top"＞

注意：用來防止別人在框架里調用自己的頁面。

F、content-Type(顯示字符集的設定)

說明：設定頁面使用的字符集。

用法：＜meta http-equiv="content-Type" content="text/html; charset=gb2312"＞

meta標簽的功能

上面我們介紹了meta標簽的一些基本組成，接著我們再來一起看看meta標簽的常見功能：

１、幫助主頁被各大搜索引擎登錄

meta標簽的一個很重要的功能就是設置關鍵字，來幫助你的主頁被各大搜索引擎登錄，提高網站的訪問量。在這個功能中，最重要的就是對Keywords和description的設置。因為按照搜索引擎的工作原理,搜索引擎首先派出機器人自動檢索頁面中的keywords和decription，并將其加入到自己的數據庫，然后再根據關鍵詞的密度將網站排序。因此，我們必須設置好關鍵字，來提高頁面的搜索點擊率。下面我們來舉一個例子供大家參考：

＜meta name="keywords" content="政治,經濟, 科技,文化, 衛生, 情感，心靈，娛樂，生活，社會，企業，交通"＞
＜meta name="description" content="政治,經濟, 科技,文化, 衛生, 情感，心靈，娛樂，生活，社會，企業，交通"＞

設置好這些關鍵字后，搜索引擎將會自動把這些關鍵字添加到數據庫中，并根據這些關鍵字的密度來進行合適的排序。

　　２、定義頁面的使用語言

　　這是meta標簽最常見的功能,在制作網頁時,我們在純HTML代碼下都會看到它,它起的作用是定義你網頁的語言,當瀏覽者訪問你的網頁時,瀏覽器會自動識別并設置網頁中的語言,如果你網頁設置的是GB碼,而瀏覽者沒有安裝GB碼,這時網頁只會呈現瀏覽者所設置的瀏覽器默認語言。同樣的,如果該網頁是英語,那么charset=en。下面就是一個具有代表性的例子：

　　＜meta http-equiv=″content－Type″ content=″text/html; charset=gb2312″〉

該代碼就表示將網頁的語言設置成國標碼。

　　３、自動刷新并指向新的頁面

　　如果你想使您的網頁在無人控制的情況下，能自動在指定的時間內去訪問指定的網頁，就可以使用meta標簽的自動刷新網頁的功能。下面我們來看一段代碼：

　　〈meta http-equiv=″refresh″ content=″２; URL=http://www.yeah.net″〉

　　這段代碼可以使當前某一個網頁在２秒后自動轉到http://www.yeah.net頁面中去,這就是meta的刷新作用,在content中,２代表設置的時間（單位為秒）,而URL就是在指定的時間后自動連接的網頁地址。

　　４、實現網頁轉換時的動畫效果

　　使用meta標簽，我們還可以在進入網頁或者離開網頁的一剎那實現動畫效果，我們只要在頁面的html代碼中的＜head＞＜/head＞標簽之間添加如下代碼就可以了：

＜meta http-equiv="Page-Enter" content="revealTrans(duration=５.０, transition=２０)"＞
＜meta http-equiv="Page-Exit" content="revealTrans(duration=５.０, transition=２０)"＞

一旦上述代碼被加到一個網頁中后，我們再進出頁面時就會看到一些特殊效果，這個功能其實與FrontPage2000中的Format/Page Transition一樣，但我們要注意的是所加網頁不能是一個Frame頁;

　　５、網頁定級評價

　　IE4.0以上版本的瀏覽器可以防止瀏覽一些受限制的網站,而之所以瀏覽器會自動識別某些網站是否受限制,就是因為在網站meta標簽中已經設置好了該網站的級別,而該級別的評定是由美國RSAC,即娛樂委員會的評級機構評定的,如果你需要評價自己的網站,可以連接到網站http://www.rsac.org/,按要求提交表格,那么RSAC會提供一段meta代碼給你,復制到自己網頁里就可以了。下面就是一段代碼的樣例：

〈meta http-equiv=″PICS－Label″
content=′(PICS－1.1 ″http://www.rsac.org/ratingsv01.html″
l gen true comment ″RSACi North America Server″
for ″http://www.rsac.org″
on ″2001.08.16T08:15－0500″
r (n 0 s 0 v 0 l 0))′〉

　　６、控制頁面緩沖

　　meta標簽可以設置網頁到期的時間,也就是說,當你在Internet Explorer 瀏覽器中設置瀏覽網頁時首先查看本地緩沖里的頁面,那么當瀏覽某一網頁,而本地緩沖又有時,那么瀏覽器會自動瀏覽緩沖區里的頁面,直到meta中設置的時間到期,這時候,瀏覽器才會去取得新頁面。例如下面這段代碼就表示網頁的到期時間是2001年1月12日18時18分18秒。

　　〈meta http-equiv=″expires″ content=″Friday, 12-Jan-2001 18:18:18 GMT″〉

　　７、控制網頁顯示的窗口

　　我們還可以使用meta標簽來控制網頁顯示的窗口，只要在網頁中加入下面的代碼就可以了：＜metahttp-equiv="window-target" content="_top"＞，這段代碼可以防止網頁被別人作為一個Frame調用

robots.txt作用及其使用

robots.txt就是一份網站和搜索引擎雙方簽訂的規則協議書，是搜索引擎中訪問網站的時候要查看的第一個文件。首先爬行來檢查該站點根目錄下是否存在robots.txt。如果存在，蜘蛛就按照協議上規定爬行抓取；沒有robots.txt，蜘蛛會隨著鏈接爬行進行抓取。

理解User-agent和Disallow的定義：

User-agent：該項用于描述搜索引擎蜘蛛的名字；Disallow：該項用于描述不希望被抓取和索引的一個URL，這個URL可以是一條完整的路徑

下面是一些robots.txt基本的用法：
1、禁止所有搜索引擎訪問網站的任何部分：
User-agent: *
Disallow: /

2、允許所有的robot訪問
User-agent: *
Disallow:
或者也可以建一個空文件robots.txt

3、禁止所有搜索引擎訪問網站的幾個部分（下例中的cgi-bin、tmp、private目錄）
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/

4、禁止某個搜索引擎的訪問（下例中的BadBot）
User-agent: BadBot
Disallow: /

5、只允許某個搜索引擎的訪問（下例中的WebCrawler）
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /