영문은 본강의에 내용이며, >은 개인의 노트이다.
> 딥러닝에 앞서 머신러닝을 알아야 한다, 왜냐하면 머신러닝을 기반을 딥러닝이 나왔기 때문이다.
• What is ML?
도대체 머신런닝이 뭐냐
- "Field of study that gives computers the ability to learn without being explicitly programmed” Arthur Samuel
> 프로그램으로 대량의 스팸메일을 거르는 룰셋을 적용하거나, 혹은 프로그램만 가지고 룰셋을 잡아서 처리하기에는 한계가 있다.
> 자동차 드라이빙으로 예를 들어보자 , 너무나 많은 룰셋이 필요 한다.
> if ~then,else, case 등 기본적으로 프로그램은 데이터를 가공혹은 분류 하는데 if문을 쓴다. 1000개 10000개 라면???
> 사무엘의 정의는 이렇게 명시적으로 분류되는 프로그래밍없이도 컴퓨터가 알아서 분류 하게 해주는 한분야란다.
> 연구분야의 한분야로 컴퓨터가 명시적으로 코딩해주지 않아도 학습할수 있게 해주는 연구분야이다
> 여기에 어디에도 처리하는 말은 없다.
> 즉 연구하는분야 이다.
(1959)
> 사무엘이란분이 정의 내린 내용이다.
• What is learning?
> 크게 2가지로 분류된다. 트레이닝 셋으로 컴퓨터를 학습 시키면 감독?이라 일컷는 감독자 기반 머신러닝 이고
그게 없는 무작위 데이터형테를 기반으로 학습시미면 무감독 이라 일컷는다
> 번역의 오류 인것 같다, 감독? 무감독? 감독한다? 이건 아닌것 같다.
> 데이터가 정형화 되어 학습 되느냐 무정형화 되어 학습되느냐인것 같다
> 직역 번역의 패해는 의미를 회손하고 문제를 야기한다. 개념은 중요한데 번역에서 오는 오류인듯 하다
> 원문이 중요한 이유가 여기에 있다.
1. supervised
- learning with labeled examples
- training set
> 컴퓨터가 학습하도록 미리 데이터를 그룹화 하고 이거는 이거다라고 라벨처리를 해준다.
> 이렇게 라벨처리를 한것을 트레이닝셋(훈련을 시키기 위해 만들어진 데이터 덩어리이다)
• Most common problem type in ML
- Image labeling: learning from tagged images - Email spam filter: learning from labeled (spam or ham) email - Predicting exam score: learning from previous exam score and time spent
• Training data set
> 모델이 있다고 치자, 모델은 학습하는 박스라고 가정하자
> 트레이닝 데이터가 x(피처), y(정답)=라벨 즉 하나의 학습대상이되는 데이터에 이건 정답이다. 아니다등 2진형태의 답을 표기한 형태 이다.
> 박스는 이 트레이닝 데이터들을 학습하면 라벨을 기준으로 판별하고 학습이되니 다음을 예측? 가능 하다는 논리이다.
• Types of supervised learning
< 결과에 따라서 분류를 나눌수 있더라.
- Predicting final exam score based on time spent > 0~100을주고 y값을 예측하는것을 - regression 이라고 한다.
- Pass/non-pass based on time spent > 2가지로 분류 하는것을 - binary classification 이라고한다.
- Letter grade (A, B, C, E and F) based on time spent>여러가지로 분류 하는것을 - multi-label classification 이라고한다.
2. unsupervised
- Google news grouping
- Word clustering
• What is regression?
> 데이터를 그래프화해서 시각해보면 선형의 모양이 나오게 되는데 이는 원리를 파해치는데 유용하다
> 여기서 원리다.
> 앞전에서 머신러닝은 연구라해서 처리라 하지 않았다 즉 원리를 이해해서 응용하자는 거다
> 우리나라 만원짜리에 있는 해시계, 별자리 관측용 기구 등 이는 원리를 파악하여 응용한 거다
> 즉 이는 원리를 찾았다는 증거로 연구한다는 뜻이된다.
> 학습을 한다는 것은 바로 선을 찾는것이다.
(Linear) Hypothesis = 션형의 예측 = 예측 가능한 선형을 찾는다면 y값을 내놓을수 있다.
H(x) = W x + b
> 선형을 찾아 들어가는 방법 , 가설을 증명해 가는 방법, 이제 그래프가 되었으니 그래프가 정답에 가깝게 움직이는 방법은
- Cost function 이 되겠다.
• How fit the line to our (training) data H(x) = W x + b H(x) y
> 공식유도... 젠장 공식이 깨져서 안들어간다.
• What is classification?
'4Z1 - Artificial Intelligence > 인공지능 개론' 카테고리의 다른 글
딥러닝의 기본 학습 - How to minimize cost-실습-2 (0) | 2020.08.27 |
---|---|
딥러닝의 기본 학습 - How to minimize cost-이론-2 (0) | 2020.08.27 |
딥러닝의 기본 학습 - 머신러닝의 개념과 용어-실습-1 (0) | 2020.08.26 |
딥러닝의 기본 학습 - 시작시 필요한 기초지식(1) (0) | 2020.08.26 |
인공지능을 시작하는 비전문가를 위한글 (0) | 2020.08.15 |