보안과 머신러닝 그리고 SIEM

최근 머신러닝이라는 글과 관련 데이터 분석가 혹은 데이터 엔지니어로 일하는 사람들과 애기를 오래 나눌수 있었는데, 애기하다보니 요즘 머신러닝과 딥러닝이 사회적으로 핫하고 배워야 할 것 같다는 생각이 들어 관련 자료들을 많이 찾아보았다.

그러면서 기존 보안업무로 이해했던 부분들과 많은 부분들이 머신 러닝의 많은 기술들이 이미 오래전부터 보안에서 사용되어 왔다는 것을 느낄수 있었다.

보안시장은 2000 초반부터 SIEM이라는 솔류션등을 활용해 빅데이터 기반의 분석을 진행해 왔다. 특히 머신러닝중 사람들이 애기하는 지도 학습(Supervised)이 우리가 정통적으로 사용하는 룰을 기반으로 하는 탐지 방식과 다른 부분을 찾기 어려울 정도다.

다만 회귀(regression)나 분류(classification)안에 다양한 알고리즘을 접목하여 분류하지 않은 값을 찾아 낼 수 있지 않을까 하는 기대가 생긴다.

아마 아직 내가 알지 못하는 지식이 여기 있을 것 같다.  만약 이 부분을 보다 학습한다면 기존의 룰 기반의 탐지의 한계는 정해진 패턴으로 학습하는데, 머신러닝의 강화학습이라는 것에 좀 더 초점을 맞춰서 공격을 보다 정확도를 높이고 예측하여 탐지하고자 한다.

그런데 그 강화 학습이라는 것도 SIEM 입장에서 볼 때 이것이 머신러닝인지 의문이 들때가 많다. 보통 SIEM에서 Score 기반 이나 특정치 이상으로 범주를 통해 구분할 수 있도록 룰의 입력을 넣고, 탐지 이후에 이 값이 맞는지 아닌지 검증하는 단계를 거치는데, 이는 머신러닝에서 강화학습과 같은 방식으로 불리는 알고리즘에 하나이기 때문에 지금 내 머리속의 과거와 머신러닝의 경계에서 많은 혼란이 온다. 용어를 넣지 않았을 뿐 SIEM은 이미 머신러닝, 빅 데이터의 일부분으로 홍보하듯이 내가 알게 모르게 이미 사용하고 있었을 것 같다.

하지만 명확한건 나는 머신러닝에서 정의한 알고리즘이 몇개, 어떻게 동작 하고 무엇인지 모른다. 아마 다른 보안전문가도 나와 같은 사람들이 많지 않을까 한다.

다만 이러한 알고리즘을 이해하므로써 보다 넓은 다변화된 탐지를, 강화 학습을 만들 수 있을지 의문은 들지만 머신러닝이 무엇인지 알고리즘들을 정확이 들여다볼 필요가 있다.

그래야 내가 놓친것이 있는지, 용어만 거창한, 탁상 토론용 기술인지 확인 할 수 있기 때문이다.

Facebook Comments

Leave A Reply

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.