標記檔案: AWStats

除了網站流量報表,我還使用了偵測網站運作的專用工具!

網站分析報表僅針對http和https連線資料進行解析統計

昨天提到的幾種網站報表都只有針對http和https連線的資料來進行分析,雖然AWStats報表可以針對其它的連線資料做分析(例如FTP、mail等等),但那也是像我這種在維運伺服器主機的系統管理者才會需要看這些數據,因為大多數人只需要看網站的分析報表而已。

這些報表解析生成的時間可能不是那麼即時,有的會每小時解析一次,有的是不定期進行解析,也就是說現在看到的分析報表是一個小時之前的所有累計資料分析統計出來的結果!

我需要更多更即時的運作資訊,以判斷網站是否正常運作

我的工作是要維護網站主機的正常運作,檢查http和https連線的記錄都是為了查看是否有異常的攻擊出現,包括像是特定的搜尋引擎網路機器人(爬蟲程式)是否出現太過頻繁而造成主機負載過重…

而想判斷網站主機是否正常運作,不是只看網站分析報表就能掌握的,還必須有更多、更即時的其它運作資訊:

  • 主機的CPU用量
  • 主機的記憶體(Memory)用量
  • 主機的儲存空間(Storage Space)用量
  • 主機的網路流量
  • 主機開啟的TCP服務連接埠

透過上述幾種資訊來進行綜合評估,就能夠有效判斷網站主機是否在正常運作的範圍內(當然也會有例外,例如某些服務程式當掉就沒有徵兆)!

例如CPU用量突然飆高好幾倍,代表網站主機的負載突然變高,有可能是因為網站的連線數量變多、或是主機的資料庫異常繁忙、或是主機在做壓縮解密等任務,也有可能是因為被駭客攻擊或被用來挖礦~

搜尋引擎的網路機器人很容易造成網站主機負載過高

我自己代管維運伺服器十幾年來的心得是,很多時候CPU用量過高都是因為搜尋引擎的網路機器人造成的,可以說是無時無刻、不分日夜的出動,而且數量之多、IP分佈之廣實在令人無法想像!

很多人都有用過yahoo、google、bing等搜尋引擎,但不曉得它為什麼可以這麼快就找出符合條件的資訊出來,其實就是這些搜尋引擎透過網路機器人去「爬出」各個網站中的所有資訊。

有在搜尋引擎註冊的網站會被主動優先去爬找,沒有去註冊的新網站就需要時間等待(等待網路機器人去找到網站、然後進行爬找),然後網路機器人會將取得的資訊記錄在它們的大數據分散式資料庫裡,一旦有人搜尋時,再從大數據中去找出來呈現。

有些網路機器人寫得比較好,不會死命的把網站中所有資訊一次爬完,會分次爬找;有些網路機器人就較差,像是要把整個網站複製走一樣,不斷地咬住網站爬找,這種類型的網路機器人就會造成網站主機負載太重、出現幾乎停擺的狀況。

當然,駭客攻擊若是採用主動掃描時也會發生讓主機癱瘓的情況,因為主動掃描的行為就像網路機器人在爬找網站內容一樣,而且都是用程式撰寫出來的(只是程式語言不同、速度不同、目的不同)!

被網路機器人爬找到CPU不斷維持在高點的主機

實際案例:昨天發生在我維運的AWS網站主機

這是用INSTAWATCHER監測在AWS的網站主機運作狀況,很清楚可以看到主機的CPU用量因為網路機器人不斷在爬找網站內容而造成維持在高點,經過處理後馬上就降下來了!

要滿足網路行銷的需求,也要兼顧主機運作正常

由於現在很多企業都會透過網路來行銷,也會用google關鍵字之類的數位廣告,因此就會需要讓google搜尋引擎派出的網路機器人能正常爬找,但同時也要去防止較具惡意的攻擊連線或是寫得較差的網路機器人…

若是企業有專人在代管維運伺服器主機時就比較不必煩惱;若是沒有請專人在代管維運,企業有兩種選擇:

  • 花更多錢提高主機等級或是啟用更多台主機
  • 花錢請專業人士來代管維運

網站報表有多種,喜歡哪種自己選!

Google Analytics分析報表,簡稱GA報表

Google Analytics原為Urchin所營運的付費網站流量統計服務,2005年4月,Google宣佈購併Urchin公司,並將原本需要付費的部分服務開放免費使用。此後,基本版可免費使用,但進階版本仍然需要付費。

透過在網站中埋入Google Analytics追蹤碼,網站主們可以獲取進站流量的資料,包括來源、使用者、裝置、造訪路徑等,透過Google Analytics,可以更全面的了解品牌的受眾,進而為潛在客戶優化購買、造訪流程,提高轉單意願,對於網頁入門來說是非常推薦使用的工具。(參考維基百科

網站分析是在分析什麼?簡單來說,假如你擁有一個網站,只要在上面安裝GA的追蹤代碼(tracking code),GA就可以監測和蒐集使用者在網站上的各種行為資料,例如說流量的來源是什麼、進站後去了哪些頁面、停留了多少時間……等等。

將這些基本的行為資料解讀、分析之後,必可以從中發些獨特的商業洞見,而這些洞見會是優化網站設計、規劃行銷活動,甚至是擬定品牌策略時最好的參考依據。數位世界擁有現實世界沒有的可追蹤性,所以這些洞見是在數位之外的行銷領域中很難獲得的(請看下面的舉例)。

一個網站由多個網頁組成,且每個網頁都有自己獨特的URL。使用者進站後可能只瀏覽了一頁,也可能逛了多頁之後才離開。如果將網站比擬成實體商店,在實體商店中,我們很難準確得知每天的來客數、客人來源、客人在店內的動線等等;但是,GA可以幫我們獲得客人在網站上的這些行為。GA的數據能幫助你回答類似以下的行銷問題:

  • 「從廣告導進來的流量跟自然搜尋流量相比,何者更有可能變成忠實顧客?」
  • 「哪些類別的內容最受到回訪者的喜愛?」
  • 「平日與假日、白天與晚上的流量各自有什麼差別?」

參考資料:國家發展委員會-政府網站營運交流平台

AWStats分析報表

AWStats是一套遵循 GNU 通用公共授權條款 (GNU General Public License, GPL) 的開放原始碼軟體。這個分析軟體需要的安裝容量雖然精簡,功能卻一點也不馬虎。功能如下:

  • 支援跨平台作業系統:您可以在 Windows 或 Unix-Like 作業系統上輕鬆建立分析記錄檔的運作環境。
  • 報表支援多國語言:AWStats 所產生的分析統計報表支援多國語言,使得閱讀分析報表的管理者不會因為語言而產生困擾。
  • 支援分析多種服務記錄檔:
    #網頁記錄檔:支援 Apache (combined/ common log format XLF/ ELF/ CLF)、Microsoft IIS (W3C log format)…等。
    #快取記錄檔:支援 Squid (common log format, CLF) …等。
    #串流記錄檔:支援 Darwin Streaming Server、Windows Media Server…等。
    #郵件記錄檔:支援 Postfix、Sendmail、Qmail、Mdaemon、www4mail…等。
    #FTP記錄檔:支援 ProFTPD、VSftpd…等。
  • 詳盡的統計報表:AWStats 產生的分析報表具備非常詳盡內容。例如,週期性網路流量、來源國家、來源 IP 位址、參觀網站時間、參觀網頁、訪客作業系統、使用的瀏覽器、連結網站的來源、連結網站的關鍵字…等。

參考資料:自由軟體鑄造場

WordPress網站中的分析報表

網站的建置方法有很多種,若是使用Open Source的CMS(Content Management System)來建置網站,大都會有其相關的模組/外掛可以安裝使用,比較常見的像是像是 WordPress、Joomla、Drupal、Xoops等等。

而像是一些論壇或是針對電商設計的網站系統(例如Magento)也是都有Community的免費版本可以使用,這些網站也都會有模組/外掛可以安裝使用,但大多數就不是免費的了!

以目前市佔率最高的WordPress來說,想了解網站的流量報表,就有數十種相關的外掛可以選擇安裝,有的需要付費、有的則是免費;有的會和Google Analytics整合、有的會和SEO整合…

每個人喜歡和需要的重點不同,就可以自己挑選覺得符合自己需求的外掛來安裝,相關外掛有很多,像是:

  • Jetpack
  • MonsterInsights
  • ExactMetrics
  • HEAP
  • WP Statistics
  • Crazy Egg
  • Mixpanel
  • Matomo
  • Woopra
  • StatCounter

更多相關外掛可以參考這裡:WordPress官方網站的外掛搜尋

 

 

我自己最喜歡看的是AWStats報表,因為它對系統管理很有幫助

上述幾種分析報表都各有人愛,尤其是GA報表更是廣受行銷人員的喜愛,因為它有美美又超複雜的報表,可以方便用來向老闆報告廣告成效,再加上Google投入了不少資源在這個服務上,還弄了一些認證課程讓廣告經銷商可以去推廣,所以有越來越多人使用GA報表。

GA報表和WordPress外掛報表的方式很像,都是透過網站JavaScript的觸發事件來收集網站用戶的操作行為,所以就像是駭客攻擊、網路機器人(爬蟲程式)的點擊也有可能被當成是正常的用戶點擊行為…

有些企業會啟用雲端的自動擴展機制(AutoScaling),當連線數量大或主機負載高時就自動增加雲端主機的數量,但或許你在雲端自動被加開的主機就是因為網路機器人和駭客攻擊而造成的,不但沒有增加你的銷售績效,反而增加你的成本!

此外還有許多駭客攻擊可以偽裝成各家搜尋引擎的爬蟲程式,來避免被封鎖,因為有很多防護程式會把搜尋引擎列入白名單,如此一來就讓駭客有機可趁~

對我來說,我需要的是能反應網站伺服器真實記錄的報表,也就是可以解析Web Log的AWStats分析報表,簡單易懂,可以協助我快速判斷哪些IP是在攻擊、哪些點擊可能有異常…等等。

所以我說分析報表有很多種,端看自己需要哪一種~