cactiez 是一個開源套件, 主要用於網路管理, 它有點老,應該也沒再出新版, 最後一版可能停留在0.7 或 0.8
記得幾年前,我開始出現在一間小公司, 剛去時, 副總問我一個問題, 能否確實要求網管人員每日檢查機房? 那時我感到一臉茫然, 每日檢查當然是不難, 但檢查完的當下, 其它的時間怎麼辦?其實同樣的問題,好像在2001年在華碩時, 當時的協理也問過我.., 是的, 當時我開始協助INFRA事宜時, 當時的華碩也沒有網管系統.
於是乎, 我就安裝了一套開源網管系統cactiez, 它每分鐘檢查, 有問題就EMAIL,或者在頁面上狂叫.. (PS:華碩當時裝的別套)
於是乎這套系統給了很大的幫助,也使用了超過七年, 隨著時間推移, 它漸漸也有了些問題…
本來嘛, 小公司設備不多, 但幾年來陸續新增設備上去, 它偶爾會有幾個設備出現抓取間間断断的現象, 一開始都以為是SNMP問題, 也確實有很舊的網路設備經常出現SNMP錯誤, 但它本身運作沒有任何問題, 除非重開機, 尤其是很舊的智邦網路交換器..說到這交換器, 這公司也是交了智商稅的, 當初建廠時包給中華電信, 估計它又轉包, 買了一堆可管理的交換器, 但卻未管理, 把它當HUB用就算了(沒做任何VLAN), 也沒用上SNMP等,也沒建置網管系統
現在整理它常遇到的幾個問題, 以及我最新遇上的問題如何解決?
- MYSQL LOG要清…在/var/lib/mysql下, 可能一兩年要清,不然會塞爆檔案系統, 最好寫個cron job
- 如果出現抓取的網路流量圖間断(如下截圖在紅框左邊有一堆間断情況), 可能table index 要重建, 也可能要修復table, 所以要定期檢查database 健康狀況, 它系統內有個PHP程式可做這兩件事…
- 如果第2點都沒問題, 那就必須確認設備SNMP有沒異常? 若也沒有, 就往下再確認一件事…
- 在以上都沒問題的情況下, 也是我最近遇上的問題, 最後檢查了半天, 才發現是database connection數不足, 仔細檢查才發現內建db max connection數是151, 後來我把它加大到300就沒事, 一切正常了..上面截圖紅框內即是解決後正常, 紅框左邊即是間断抓不到流量的情況.
當網管系統因DB連線數受限, 而無法獲取當下數據時, 其流量圖就會出現中断, 同時也會影响weathermap, 如果你有用它這功能來看骨幹網路拓樸網路流量的話,會看到SWITCH間的連線變成灰色.甚至會誤判為網路中断異常…
所以任何一套系統, 即便是網管系統這樣的網管人員最重要的輔助工具, 也需要被維護..
DB 相關參數修正, 作業系統4GB RAM前提下:
[mysqld]
max_connections = 300
table_open_cache = 512
thread_cache_size = 8
innodb_buffer_pool_size = 512M
max_heap_table_size = 32M
tmp_table_size = 32M
wait_timeout = 600
interactive_timeout = 600
query_cache_size = 16M
query_cache_limit = 1M
# Other common settings
key_buffer_size = 16M
sort_buffer_size = 2M
read_buffer_size = 2M
read_rnd_buffer_size = 2M
join_buffer_size = 2M