2個月前,20:05空蕩蕩的辦公區
徐璐盯著監控屏上跳動的告警信息,手指無意識摩挲著鍵盤邊緣。
半小時前發生的歸檔進程阻塞事故已經解決,但剛進公司一個月不到的小李在故障處理時誤刪歸檔日志的陰影還在心頭縈繞。
她調出操作審計日志,突然聽到身后傳來咖啡杯輕磕桌面的聲響。
“徐姐,這么晚還喝真不怕睡不著嗎?”劉洋倚在隔斷旁,看著滿屏的ora-00312錯誤代碼,“要不要試試我的解壓大法?”他晃了晃手機,屏幕里面是連連看
徐璐剛要拒絕,目光掃過工位旁積灰的團隊合影——那是三年前容災演練成功后拍的,照片里大家舉著“零宕機”的錦旗笑得燦爛。
現在錦旗還掛在茶水間,但上次集體活動已經是半年前了。
“幫我約a區三樓的會議室。”她突然調出知識庫文檔,“明天下午三點,把上次erp索引丟失的事故分析加進材料。”
第二天15:00a315會議室
投影儀在幕布上投出醒目的標題:《那些年我們填過的坑》,副標題寫著“數據庫故障復盤故事會(第一期)”。
徐璐把馬克筆塞給縮在角落的小李時,發現對方眼神有點躲閃,不由反省自己是不是真的這么可怕。
“從我開始吧。”她點開自己加密的故障日志文件夾,大屏上突然出現五年前的郵件截圖:
————————————
主題:緊急:生產庫控制文件損壞
內容:今日凌晨因存儲陣列故障導致所有控制文件丟失,當前數據庫無法掛載
“當時我剛休完產假。”徐璐的聲音平靜得像在講別人的故事,“用老控制文件強行open時觸發了ora-01578,偏偏備份磁帶機正在檢修。”
會議室響起倒吸氣聲。
幾個老員工交換眼神——這是部門禁忌話題,當年因為這個事故差點丟掉運營商大單。
“我抱著筆記本在機房坐了1時。”她調出當時手寫的恢復流程圖,“最后用隱含參數_allow_resetlogs_corruption打開數據庫,然后立刻做全庫邏輯導出。”
劉洋突然舉手:“但oracle官方明確警告過這個參數會...”
“會破壞數據一致性。”徐璐接話,“所以導出數據后我們對比和校驗了三天三夜。”她點開滿是紅線的校驗報告,“找到137處數據塊校驗錯誤,全靠開發團隊連夜寫修復腳本。”
投影切換到感謝名單,二十多個泛黃的名字里,徐璐用紅圈標出三個:“這三位前輩已經離職,但他們的日志分析工具現在還在知識庫里。”
16:20轉折時刻
當小李顫巍巍站到臺前時,徐璐忙里偷閑正用平板給女兒回消息。
“昨、昨天我誤刪歸檔日志...”實習生剛開口就哽咽了,任誰工作第一個月就犯了大錯都不好受,“當時徐工讓我用rman做增量備份,但我忘了檢查控制文件...”
徐璐突然起身走向白板,在“人為失誤”的分類欄下重重畫圈,說道,“這個標簽該撕了。”