cactiez 偶有部份設備無法正常抓取數據問題解決

cactiez 是一個開源套件, 主要用於網路管理, 它有點老,應該也沒再出新版, 最後一版可能停留在0.7 或 0.8

記得幾年前,我開始出現在一間小公司, 剛去時, 副總問我一個問題, 能否確實要求網管人員每日檢查機房? 那時我感到一臉茫然, 每日檢查當然是不難, 但檢查完的當下, 其它的時間怎麼辦?其實同樣的問題,好像在2001年在華碩時, 當時的協理也問過我.., 是的, 當時我開始協助INFRA事宜時, 當時的華碩也沒有網管系統.

於是乎, 我就安裝了一套開源網管系統cactiez, 它每分鐘檢查, 有問題就EMAIL,或者在頁面上狂叫.. (PS:華碩當時裝的別套)

於是乎這套系統給了很大的幫助,也使用了超過七年, 隨著時間推移, 它漸漸也有了些問題…

本來嘛, 小公司設備不多, 但幾年來陸續新增設備上去, 它偶爾會有幾個設備出現抓取間間断断的現象, 一開始都以為是SNMP問題, 也確實有很舊的網路設備經常出現SNMP錯誤, 但它本身運作沒有任何問題, 除非重開機, 尤其是很舊的智邦網路交換器..說到這交換器, 這公司也是交了智商稅的, 當初建廠時包給中華電信, 估計它又轉包, 買了一堆可管理的交換器, 但卻未管理, 把它當HUB用就算了(沒做任何VLAN), 也沒用上SNMP等,也沒建置網管系統

現在整理它常遇到的幾個問題, 以及我最新遇上的問題如何解決?

  1. MYSQL LOG要清…在/var/lib/mysql下, 可能一兩年要清,不然會塞爆檔案系統, 最好寫個cron job
  2. 如果出現抓取的網路流量圖間断(如下截圖在紅框左邊有一堆間断情況), 可能table index 要重建, 也可能要修復table, 所以要定期檢查database 健康狀況, 它系統內有個PHP程式可做這兩件事…
  3. 如果第2點都沒問題, 那就必須確認設備SNMP有沒異常? 若也沒有, 就往下再確認一件事…
  4. 在以上都沒問題的情況下, 也是我最近遇上的問題, 最後檢查了半天, 才發現是database connection數不足, 仔細檢查才發現內建db max connection數是151, 後來我把它加大到300就沒事, 一切正常了..上面截圖紅框內即是解決後正常, 紅框左邊即是間断抓不到流量的情況.

當網管系統因DB連線數受限, 而無法獲取當下數據時, 其流量圖就會出現中断, 同時也會影响weathermap, 如果你有用它這功能來看骨幹網路拓樸網路流量的話,會看到SWITCH間的連線變成灰色.甚至會誤判為網路中断異常…

所以任何一套系統, 即便是網管系統這樣的網管人員最重要的輔助工具, 也需要被維護..

 

By Kevin

發佈留言