Machine Learning

카테고리 분류를 위한 Model 생성 도전

yssy431 2020. 10. 28. 00:05

Machine learning하면서 중요하게 느껴진 것은 데이터의 라벨링이다. 

 

현재 도전하고 싶은 주제가 생겼는대 도메인들을 크롤링하여 해당 html내 정보들을 이용하여 카테고리를 자동으로 분류 할 수 있을지 호기심이 생겨 시작해보려고 한다.

 

현재 가지고 있는 기본 데이터셋을 구성해보진 않았지만 url과 해당 url의 카테고리 정보들을 db화 후

테스트를 해보고자 한다.

 

앞으로의 계획표

1. url -> 도메인 추출 후 중복 제거 작업 

2. domain : catagory로 데이터셋 정리

3. 크롤링 모듈 제작

4. domain : catagory : data로 도메인 내 데이터 추출 작업

5. 데이터 분석 (html내 어떠한 정보를 학습시킬지 선정 ex)keyword, image etc.. 생각나는게 없다) 및 전처리 작업

6. 모델 생성 및 최적화 작업

 

현재 생각나는 대로 계획표를 만들었다. 

1,2,3,4,5,6이지만 순서는 3번을 먼저 한후에 1,2,4,5,6순서가 될 것같다. 데이터를 구하지 못하여 시도조차 못할 수도 있다.