티스토리 방명록

댓글쓰기 폼
  • 프로필사진 Favicon of https://juuns.tistory.com BlogIcon HappyDayI 안녕하세요?

    구글을 통해 방문을 하게 되었습니다.

    저희가 이용하는 시스템에서도 Ceph RBD Bluestore를 이용하고 있습니다.
    어느 이유에서 인지는 잘 모르지만, 'ceph osd perf' 명령어를 이용해 확인을 해 보았을 때 두 개의 OSD commit_latency와 apply_latency가 증가(느려짐)가 발생하였습니다. 또한 문제가 되었던 OSD를 'ceph tell osd번호 bench'를 실행해 보니 iops와 bytes_per_sec가 다른 디스크(OSD latency가 증가 하지 않는 디스크) 보다 낮게 측정이 되었습니다.

    디스크에 문제가 있었다고 하셨는데, 디스크에 어떤 문제가 생겨서 장애가 발생하였는지.. 조금 더 알고 싶어 질문을 드립니다ㅠㅠ
    ->어떤 사유로 장애가 있었는지 궁금합니다. 혹은 아래와 같은 문제였는지 참고 부탁드립니다..
    -> TRIM이나 DISCARD 옵션과 관련이 있는 것인지..?(per mapping rbd device map option에 'notrim' 옵션이 있었습니다.)
    -> 삼성 SSD 컨트롤러에 Bad cell 처리 기능이 없어, 디스크에 Bad cell 발생시 느려지는 이슈인지.. 궁금합니다.

    제가 이용하는 디스크는 삼성 870 QVO 4TB(QLC 타입) 입니다.

    부족한 질문을 드려 죄송합니다.

    감사합니다.
    2021.04.22 13:36 신고
  • 프로필사진 Favicon of https://www.jacobbaek.com BlogIcon jacobbaek Jacob_baek 안녕하세요.
    이야기주신 상황과는 좀 다를거라 판단되긴하나 간단히 당시 상황을 이야기드리자면
    당시 디스크 이슈는 bad sector로 디스크 교체가 필요한 상황이었고 여유있는 환경이 아니었기에
    디스크 교체는 하지 못하고 해당 osd들을 서비스에서 제외했었습니다.
    이로 인해 pg 재조정이 좀 필요한 상황이 되었고 pg num 변경을 통해 이슈를 해결했었습니다.
    말씀해주신 notrim/discard 옵션과는 다소 차이가 있는 이슈 상황이었습니다.
    안타깝지만 도움이 되지는 못할듯해보이네요 ㅠ
    2021.04.25 21:31 신고