Machine Learning

pefile 악성코드 판단하는 CNN 모델 - 모델생성(2)

yssy431 2020. 7. 31. 00:44

기존의 dataset으로의 trainset 과 testset으로 나눈 후의 모델성능이 0.90, 현재 이모델을 만들 때 사용 한 데이터는 대략 11만개의 악성코드와 2만개의 정상 파일로 만든 dataset

해당 모델로 최신 악성코드들로 천개 가량을 모아서 testset을 생성하여 model 성능 평가

 

최신 악성코드 dataset의 결과는 초라하다

 

저장해놓은 모델을 실수로 날려서 새로운 모델을 간단하게 epoch 5회로 생성 후 testset으로 평가 시작

validation set은 0.9267이 나왔지만 testset의 평가는 0.6548로 엄청나게 성능이 나오지 않았다.

그림상으로 나오진 않았지만 50회 진행 후 작업시 0.73이 최대치였으며 최소한 0.85이상은 만드는 것이 목표이다.

생각한 문제점들은 overfitting이 심하게 되었고, generalized가 되지 못한 모델이였다.

Model 구조 자체에 Dropout layer를 추가하고 parameter 수정을 해야 할 것 같고,

binary string -> numpy array로 바로 변환하는 작업이 문제가 있는 작업이엿던 것 같다.