카테고리 분류를 위한 Model 생성 도전

Machine Learning

yssy431 2020. 10. 28. 00:05

Machine learning하면서 중요하게 느껴진 것은 데이터의 라벨링이다.

현재 도전하고 싶은 주제가 생겼는대 도메인들을 크롤링하여 해당 html내 정보들을 이용하여 카테고리를 자동으로 분류 할 수 있을지 호기심이 생겨 시작해보려고 한다.

현재 가지고 있는 기본 데이터셋을 구성해보진 않았지만 url과 해당 url의 카테고리 정보들을 db화 후

테스트를 해보고자 한다.

앞으로의 계획표

1. url -> 도메인 추출 후 중복 제거 작업

2. domain : catagory로 데이터셋 정리

3. 크롤링 모듈 제작

4. domain : catagory : data로 도메인 내 데이터 추출 작업

5. 데이터 분석 (html내 어떠한 정보를 학습시킬지 선정 ex)keyword, image etc.. 생각나는게 없다) 및 전처리 작업

6. 모델 생성 및 최적화 작업

현재 생각나는 대로 계획표를 만들었다.

1,2,3,4,5,6이지만 순서는 3번을 먼저 한후에 1,2,4,5,6순서가 될 것같다. 데이터를 구하지 못하여 시도조차 못할 수도 있다.

url dataset 분석 작업 (1)	2020.11.01
.text section을 image resizing 후 CNN 모델생성(2) (1)	2020.08.05
.text section을 image resizing 후 CNN 모델생성(1) (0)	2020.08.03
pefile 악성코드 판단하는 CNN 모델 - 모델생성(2) (0)	2020.07.31
Tensorflow cuDNN failed to initialize error 해결 (0)	2020.07.31

Youngsu's Study Room

공부한 것들 올리는 블로그

KAIST 머신러닝 엔지니어 부트캠프,

Youngsu's Study Room