Kaist 머신러닝 엔지니어 부트캠프/Study 7

Machine learning training 과정

여태까지 대략적으로만 알고 있던 학습과정에 대해 내부적 작동에 대해 이해를 한 후 logistic regression의 training 과정을 작성 scikit-learn으로는 2줄이면 끝나지만 numpy로 구현하는 것은 많은 코드가 필요하였다. Logistic Regression 에 코드로 구현하였지만 flow를 작성해 보았다. 일반적으로 학습하는 워크프레임들이 너무 잘되어 있어 데이터만 가져다가 넣는 행위 후 결과만 보는 테스트만 진행하였는데 세부적인 학습에 대해 한단계 더 잘 이해하게 되었다.

Logistic Regression

Logistic Regression은 Binary Classification으로 결과값이 0,1로만 나오게 한다. logistic function은 해당 함수는 z의 값이 음의 무한대부터 양의 무한대까지의 모든 z의 값이 0~1 사이의 값으로 출력이 된다. linear regression와 다른 cost function을 사용해야함 why? linear regression의 f(x)는 convex한 함수이지만 logistic regression은 convex하지 않기에 gradient descent를 하던 도중 최소값이나 최대값에 갇힐 수가 있기 때문 그렇기에 새로운 cost function이 필요함. logistic regression out put은 오로지 0,1인 binary classificati..

Linear Regression

Simple Linear Regression의 가장 큰 목표는 data들을 하나의 선으로 표현할 수 있는 선을 찾는 것이다. Machine Learning을 공부해보면 가장 먼저 나오는 모델이라 볼 수 있다. 많은 곳에서 볼 수 있겠지만 가장 많이 보는 공식중 하나인 해당 공식은 machine learning상에서 w : weight , b : bias 라고 볼 수 있다 b가 있는 이유는 input이 아무것도 들어오지 않았어도 무엇인가 out put을 뱉기 위해 필요한 것 그림과 같이 붉은 색 점(학습을 위해 input한 데이터)들과의 거리가 가장 적은 직선을 구해야한다. w와 b를 구하기 위한 공식으로 아래 공식과 같다. 1차원에서라면 해당 값을 구하는 것이 손으로 가능 하겠지만 다차원에서는 미분을 하..

Numpy 관련

여러 연산기능들이 존재하지만 기본적인 것들은 제외 교육중 처음 듣는 용어들과 정확한 명칭들에 대해 작성 1. Numpy의 배열 Numpy의 배열은 ndarray 또는 n-dimensional array라 함. 그리고 이러한 배열은 다차원 (n-dimension 또는 n-D)을 가질 수 있으며 0-D array, 1-D array, 2-D array, 3-D 이상의 array는 각각 scalar, vector, matrix, tensor로 생각할 수 있다. 1-D array Vector 2-D array 2-D array는 row x col shape을 갖는 Matrix 3-D array 3-D array 정육면체를 생각 하면 되며 높이가 axis 0 , 가로 : axis 1 , 세로 : axis 2 2...

Python 관련

1. Python 교육 (Days 2,3) 기존 알고 있던 개념들은 제외하고 조금 더 정확하게 알게 된 정보들을 정리 1) Class '''python class Test(object): # object python의 기본 내장 클래스, 선언하지 않아도 됨 var = 'Study' # 클래스 속성(attribute) 사용하지 않는 것이 좋다 why? 모든 객체(instance)가 같은 값을 참조 def __init__(self): #생성자 #class를 호출시 무조건 생성자에 있는 것을 실행한다. 보통 변수들 선언하고 속성(attribute)라함 self.test = 'study' #self 관념적으로 self를 선언하고 객체를 지칭 pass def my_func(self): # 클래스 함수 Method..

딥러닝 최신 동향

최신 동향 키워드 1. 학습 방법론 : 1) 자기 지도학습 - masked or sequential language modeling - masked visual token modeling 2) 멀티 모델 학습 - 시각, 언어, 음성의 복합 모델 3) 어텐션 기반 모델 4) 데이터 증강 5) 메타 러닝 - 처음보는 문제에 대해 빠르게 학습하는 법을 배우는 기법 2. 성능 지표 1) 공정성과 편향성 - 정의의 불분명성과 수치화의 어려움 2) Xai (설명 가능한 머신러닝) 3) AI 안정성 - 아직 부족한 AI의 신뢰성 향상이 필요함 3. New Problem 1) 필요 연산 자원의 증가 2) 일반화 - 입력 이미지의 작은 변화에도 민감하게 반응 하는 모델을 일반화 해야함 (사진의 색감 변경시 사람은 바로 ..

딥러닝 흐름

KAIST 부트캠프에서 진행한 수업내용 중 강의자료를 활용 문제가 되면 삭제 하겠습니다. 기본 개념 이런 것들은 이미 많은 곳에서 설명을 하니 제외 딥러닝이 가장 큰 영향을 끼친 3개의 분야 시각 지능 관련 시각 모델의 발전 ImageNet 대회의 모델 발전 요즘 단순 이미지 Classification의 문제는 거의 99프로로 분류가 가능하며 해결이 된 상태 현재 대세는 대용량의 라벨링이 되지 않은 데이터들을 처리하기 위한 비지도 학습이 대세인 상태 * 생성적 적대 신경망 (Generative Adversarial Network) 요즘 대세인 모델로 인지 생성기 (generator) 분류기 (Detective) 신경망을 구성 무에서 유를 창조할 수 있다 AI의 시각인지의 기술적 진보 a - 사진에서 ob..