url 및 category가 있는 데이터셋을 구하게 되어 데이터 분석을 먼저 진행하게 되었다. 대략 25000건의 csv파일을 구하게됨 url의 형태이기에 먼저 domain을 추출하는 작업 진행 import pandas as pd from urllib.parse import urlparse def urltodomain(url): o = urlparse(url) domain = f'{o.scheme}://{o.netloc}' return domain data = pd.read_csv('./url_db.csv',encoding = 'cp949') pd_urls = data['url'].tolist() domain_list = list(map(urltodomain,pd_urls)) domain 추출하고 cat..