我喜歡瀏覽網(wǎng)頁時(shí)多個(gè)心眼。這個(gè)心眼需要觀察許多元素,每個(gè)元素都能提供信息。孤立的一個(gè)元素不重要,但是多個(gè)元素組成的信息,往往能獲得有價(jià)值的判斷。那么從這些元素說起:
永遠(yuǎn)不忽略URL
URL是一個(gè)重要的信息,職業(yè)敏感讓分析師絕對不會(huì)忽略URL地址的特點(diǎn)。URL反映出網(wǎng)站的蛛絲馬跡,直接以例子說話:
$URL地址所在的域名
很多人在網(wǎng)上被騙,很大原因就是從來不關(guān)注URL所在的域名。
比如:http://www.taobao.ipx32.com/about.html,看似弱智的騙術(shù)卻讓很多網(wǎng)友 誤以為是淘寶的網(wǎng)站而落入圈套。這是ipx32域的網(wǎng)站,而不是taobao的網(wǎng)站。
在瀏覽的過程中,時(shí)刻關(guān)注頁面的URL域名,可以知道點(diǎn)擊鏈接是否離開本站,而關(guān)注新到的站點(diǎn)域名有何特征。在許多大客戶的營銷過程中,跨域的鏈接是很常 見的,不同的域意味著站長或廣告主的監(jiān)測工具與策略也會(huì)有所不同。
比如:在IT門戶中常有Intel,華碩,HP等硬件廠商的專題頁面(可能會(huì)添加Google Analytics或Nielsen的監(jiān)測代碼),這些頁面中會(huì)有鏈接將訪問者導(dǎo)入新的域名,如intel.com.cn,或者h(yuǎn)p.com.cn(可能 會(huì)添加Omniture、HBX或Webtrends的監(jiān)測代碼)。這種跨域的URL是顯而易見的。
$ URL地址所包含的參數(shù)
URL中包含參數(shù)是再常見不過了,但每個(gè)參數(shù)都有含義,關(guān)注它們能夠全面掌握網(wǎng)站的功能特點(diǎn)。比如:
http://www.chinawebanalytics.cn/?p=917 這是Sidney的新博客的地址,可以分析這個(gè)博客運(yùn)營了挺長的一段時(shí)間了,ID號(hào)都排到917了。
http://adsclick.qq.com/adsclick?oid=1112901loc=QQ_SX_JY_Test6url=http://www.52-abc.com/這是QQ首頁的右側(cè)廣告鏈接,里面豐富的參數(shù)告訴了我們對這些廣告位的名稱定義,以及跳轉(zhuǎn)的目標(biāo)地址。
http://www.soso.com/q?sp=Ssc=webcid=w.q.in.sb.webty=1bn=op=entrykw=w=WA 這是騰訊搜搜的“WA”結(jié)果頁,告訴我們搜索關(guān)鍵詞參數(shù)是用W變量。還有一些別的參數(shù),也許一下子看不懂,如果有需要可再多次試驗(yàn)研究,就可以確定。
總之,對URL的參數(shù)關(guān)注是分析師的基本功。
$ URL地址所指向的文件類型
URL中會(huì)包括文件類型的信息。
HTML/HTM:這說明這種網(wǎng)站的頁面是經(jīng)過靜態(tài)化處理的,以方便搜索引擎抓取?,F(xiàn)在大部分門戶與CMS系 統(tǒng)都會(huì)有靜態(tài)化處理功能。再有一些簡單的個(gè)人網(wǎng)頁也會(huì)使用html文件名。
JSP/PHP/ASPX/ASP:這說明這是一種動(dòng)態(tài)頁面,網(wǎng)頁源文件是存在服務(wù)器端,這些文件的特性可自 行搜索了解。
無類型:有些地址,http://www.ectend.com,這是屬于服務(wù)器 自定義了主頁,效果其實(shí)是http://www.ectend.com/index.php
.do:http://www.ems.com.cn/qcgzOutQueryAction.do?reqCode=gotoSearch 這種情況是jsp開發(fā)的網(wǎng)站。其實(shí)不需要完全知道,能輔助即可。這種網(wǎng)站一般有一定的技術(shù)含量,但技術(shù)實(shí)力不強(qiáng),不夠先進(jìn),常見于一些國資背景企業(yè)的功能 型網(wǎng)頁,或者網(wǎng)站的后臺(tái)。因?yàn)闀r(shí)下好的網(wǎng)站,在前端頁面都能將URL隱藏得很好,不會(huì)出現(xiàn).do這種情況。
另外:還有一些開源項(xiàng)目的網(wǎng)站URL地址比較特別,如Wordpress:http://www.ectend.com/index.php/excellent-analytics/; 或 Wikipedia:http://zh.wikipedia.org/wiki/Wikipedia:首頁。
$ URL地址命名的特征
從URL的命名也能發(fā)現(xiàn)蹊蹺或有趣的事,比如:
淘寶的URL特征就很有意思,是通過base 64編碼的。(感謝money的指點(diǎn),修正原來錯(cuò)誤,很有收獲,再次說明URL里有乾坤),很 多“-”。我推測“–”之間代表著變量,如果中間沒有值,就代表這個(gè)變量沒有定義。
http://list.taobao.com/browse/50018957-50018960/n-1-1---------------------0---------yes---------------------2-------b--40--commend-0-all-50018960.htm?ssid=r18?ad_id=am_id=cm_id=pm_id=
凡客誠品的URL也很有特色:
http://www.vancl.com/Product_1E10000/RuanNiuPiXiDaiXiuXianXie+HeiSe.html, 產(chǎn)品拼音+顏色。
另外還能找出他們員工粗心之處:我們知道中文括號(hào)()與英文括號(hào)()不同,URL地址中只能出現(xiàn)英文括號(hào),中文括號(hào)會(huì)翻譯成編碼??梢奦ancl 的員工在產(chǎn)品錄入時(shí)沒有統(tǒng)一標(biāo)準(zhǔn):
http://www.vancl.com/CategoryList-1440-1--1/GaoJiMianTangQuanMianChenShan%EF%BC%88ZunGuiKuan%EF%BC%89.html
http://www.vancl.com/CategoryList-1324-1--1/ShangWuXiuXianKu(BiaoZhunKuan).html
網(wǎng)頁源文件
對于好奇的網(wǎng)頁,一定要查看網(wǎng)頁源文件。通過源文件的快速瀏覽能夠確定網(wǎng)站的技術(shù)實(shí)力、設(shè)計(jì)人員的素質(zhì),監(jiān)測工具與監(jiān)測方法的部署情況。一般關(guān)注以 下四點(diǎn):
代碼是否干凈還是冗煩
部署了哪些監(jiān)測工具
監(jiān)測工具的代碼部署的位置與順序
是否加入了可疑代碼