
問題描述:
xxx 生產數據庫 RAC 集群節(jié)點實例出現了反復重啟,故障期間出現私網不通,CPU 內存爆滿
的情況。
問題分析:
通過集群 alert 日志發(fā)現心跳超時錯誤并重啟節(jié)點。
dc1 節(jié)點 crs 日志顯示:09-09 10:30 分集群重啟
dc2 集群 crs 日志顯示 09-09 10:23 分開始心跳超時,dc1 被驅逐
dc2 集群 crs 日志顯示 dc1 主機集群重啟后 10:31 重新注冊到集群
并且故障期間發(fā)現私網網絡不通。
TOP 發(fā)現主機負載超高,CPU 主要在 sys 78.5%,ocssd.bin 進程 CPU 1112%,系統空閑內存
低,并且有大量換頁內存使用的情況:
文檔被以下合輯收錄
評論