Machine learning하면서 중요하게 느껴진 것은 데이터의 라벨링이다.
현재 도전하고 싶은 주제가 생겼는대 도메인들을 크롤링하여 해당 html내 정보들을 이용하여 카테고리를 자동으로 분류 할 수 있을지 호기심이 생겨 시작해보려고 한다.
현재 가지고 있는 기본 데이터셋을 구성해보진 않았지만 url과 해당 url의 카테고리 정보들을 db화 후
테스트를 해보고자 한다.
앞으로의 계획표
1. url -> 도메인 추출 후 중복 제거 작업
2. domain : catagory로 데이터셋 정리
3. 크롤링 모듈 제작
4. domain : catagory : data로 도메인 내 데이터 추출 작업
5. 데이터 분석 (html내 어떠한 정보를 학습시킬지 선정 ex)keyword, image etc.. 생각나는게 없다) 및 전처리 작업
6. 모델 생성 및 최적화 작업
현재 생각나는 대로 계획표를 만들었다.
1,2,3,4,5,6이지만 순서는 3번을 먼저 한후에 1,2,4,5,6순서가 될 것같다. 데이터를 구하지 못하여 시도조차 못할 수도 있다.
'Machine Learning' 카테고리의 다른 글
url dataset 분석 작업 (1) | 2020.11.01 |
---|---|
.text section을 image resizing 후 CNN 모델생성(2) (1) | 2020.08.05 |
.text section을 image resizing 후 CNN 모델생성(1) (0) | 2020.08.03 |
pefile 악성코드 판단하는 CNN 모델 - 모델생성(2) (0) | 2020.07.31 |
Tensorflow cuDNN failed to initialize error 해결 (0) | 2020.07.31 |