kfmes.com 서버 복구

blog 2007/05/26 17:43

약 39시간만에 복구가 되었네요
이 시간동안 웹 사이트 및 자테온 로그인시 딜레이 발생등 이용에 불편함이 있었습니다.
위 작업을 하는동안 우여곡절이 많았고, 참 많이 힘들었습니다..


이 밑으로의 내용은 편의상 경어를 사용하지 않겠습니다.

서버 관리를 같이 하시는 bh(병희)님 께서 25일 0시 30분경 시스템 설정을 변경하고 재부팅을 했는데, POST 과정에서 "Fan 4 failure" 가 뜨면서 부팅이 되질 않는 현상이 발생했다.

그런데 그날따라 서버들도 이상증상이 나타났었다. bh님이 관리하시는 인질범 서버를 시작으로, 셈틀깨비 동아리방에 위치한 서버(가보니 커널패닉)도 죽었있었다.
셈삐 서버는 재부팅하니 정상적으로 돌아옴.

kfmes.com 서버

병희님 연락을 받고 현장엘 가보니, 사태는 생각보다 심각했었다.
무한 재부팅 상황....

일단 열어봐야겠다는 생각에 케이스를 열어볼려했으나
torx

이게 왠걸.. 무슨 나사가 저렇게 생겼는지 OTL
irc에 물어보니 eregee님께서 torx(톡스)라고 하는 종류의 나사라고 알려주셨다.

다음날오전...
저 서버를 기능하신 동아리 선배님께 증상을 얘기했더니,
마침 대구에 계셔서 작업을 도와 주셨다

hp에 연락해서 견적을 내봤더니, 부품값 10만원, 기술지원비 20만원이 나왔다
차라리 돈좀 더 보태서 컴퓨터를 사서 서버로 돌리고 말지 ㅡ.,ㅡ

암튼 저걸 복구해보고 안되면 폐기처분 하는 방안으로 이야기가 흘러갔다.
(하드 랙도뽑아보니 그쪽 나사도 torx나사였다 -_-;;;;)
사용자 삽입 이미지


일단 자료를 백업을 해야겠는데 SCSI컨트롤러가 없으니,  동아리 선배님(다른분)께서 근무하시는 회사로 가게 되었다.


다행히도 그 회사에 torx 드라이버가 있었다!!
하드 데이터를 백업할려고, 리눅스 부팅을했다.
근데 뭔가 이상한걸 발견...

원래 서버에 freeBSD가 깔려있던지라. 파티션이 bsd파티션이었던것이었다
fdisk 해보면 뜨기는하는데, mount 가 안되는것이었다-_-;;;

이리저리 궁리해본결과,
dos 부팅을 해서 ghost로 하드디스크를 통째로 이미지뜨는 방법으로 하기로 했다.

여기서문제가 발생-_-a
dos 환경인지라 ghost에서 다른 파티션읽는건 가능하더라도, 이미지파일을 다른곳으로 쓰기위해선, fat 파일 시스템이 있어야 하는 문제였다.

여기서 한참을 시간을 또 보냈다.
외장하드를 분해해서 ide쪽에 연결해놓고 이미지뜨는 작업을 했다.
사용자 삽입 이미지
더 많은 일이 있었지만 요쯤해서 중략.

도움을 주신 선배님과 회사 관계자분들께 감사하다는 말씀을 드립니다.
torx 드라이버도 잠시 빌려왔음 ..

집에와서 vmware 이미지 만들고, 백업받은 고스트 이미지를 restore 했다.
사용자 삽입 이미지
(vmware 쓰면서 저렇게 하드를 저렇게나 많이 추가해본적은 이번이 처음)

해가 밝았다..  -_-;
freebsd를 설치하고, mount 하니 잘 보였다.
(얼마전에 ghost로 ext3 파티션까지는 테스트해서 잘 되었었는데, bsd파티션인 ufs도 잘 될지 불안해하면서 작업을 했음)
data 파일은 백업했으니, 문제의 팬을 점검해봤다.
3층부터 큼지막한 서버를 밖으로 내놓았다.(엘리베이터 없음)


사용자 삽입 이미지
이것이 바로 빌려온 TORX 드라이버! 생긴게 참 요상하게 생겼다.

사용자 삽입 이미지
서버 개봉 박두(?)
사용자 삽입 이미지
먼지가 아주그냥 쩔어있었다

서버에 쌓여있던 먼지들을 먼지제거제로 제거 하기 시작했다
두통을 사왔었는데 -_-a 모자라서 나중에 한통을 더 사왔다.

케이스 뚜껑(?) 안쪽면에 구성도 및 내용물(?)에 대한 설명이 적혀있었다
메뉴얼 상으로는 4개의 팬이 있어야되는데
실제로는 2개의 팬 CPU, I/O FAN 이었다.
여기서 문제가 있었던 4번팬은 I/O팬
사용자 삽입 이미지
바로 요녀석!!

CPU 팬도 떼어서 비교를 해봤는데, 팬 날개를 슬쩍 건들여봤는데
CPU 팬은 잘 돌아가는 반면에, IO팬은 먼지때문인지 팬이 돌아가질 않았다-_-;;;
억지로 조금씩 돌려보니 돌아가긴했다. 원할하게 돌아갈때까지 수동으로 돌리는 방법으로 조치를 했다.

다시 3층으로 올려놓고,
제대로 돌아가길 바라며 전원을 넣어보았다.
사용자 삽입 이미지
POST 넘어가고 부팅 화면

약 39시간동안의 서버 다운은 이것으로 해결 되었다.

이번 작업을 하면서 느낀것중에 한가지가
software, hardware 같은건 범용적으로 사용하는것을 사용해야
작업이 편하다는걸 느꼈다.
(torx 나사, scsi(왠만해선 일반 사람들은 쓸일이없..), 리눅스에서 쉽게 마운트 되지않는 bsd파티션)


이번 서버 복구 작업을 같이 했던 병희님,
도움주신 동아리 선배님들, 회사 직원분들께 감사드립니다.
2007/05/26 17:43 2007/05/26 17:43

Trackback Address :: 이 글에는 트랙백을 보낼 수 없습니다


: [1] : ... [25] : [26] : [27] : [28] : [29] : [30] : [31] : [32] : [33] : ... [40] :