본문 바로가기
  • 인공지능 과 디지털 데이터 생성 실험실
  • 인공지능 과 자동화
  • 생성형 AI 실험실
4Z1 - Artificial Intelligence/인공지능 개론

딥러닝의 기본 학습 - 머신러닝의 개념과 용어-이론-1

by Richrad Chung 2020. 8. 26.

영문은 본강의에 내용이며,  >은 개인의 노트이다.

 

> 딥러닝에 앞서 머신러닝을 알아야 한다, 왜냐하면 머신러닝을 기반을 딥러닝이 나왔기 때문이다.

 

• What is ML?

  도대체 머신런닝이 뭐냐

  - "Field of study that gives computers the ability to learn without being explicitly programmed” Arthur Samuel

  > 프로그램으로 대량의 스팸메일을 거르는 룰셋을 적용하거나, 혹은  프로그램만 가지고 룰셋을 잡아서 처리하기에는 한계가 있다.

  > 자동차 드라이빙으로 예를 들어보자 , 너무나 많은 룰셋이 필요 한다.

  > if ~then,else, case 등 기본적으로 프로그램은 데이터를 가공혹은 분류 하는데 if문을 쓴다. 1000개 10000개 라면???

  > 사무엘의 정의는 이렇게 명시적으로 분류되는 프로그래밍없이도 컴퓨터가 알아서 분류 하게 해주는 한분야란다.

 

  > 연구분야의 한분야로 컴퓨터가 명시적으로 코딩해주지 않아도 학습할수 있게 해주는 연구분야이다

  > 여기에 어디에도 처리하는 말은 없다.

  > 즉 연구하는분야 이다.  

 

(1959)

  > 사무엘이란분이 정의 내린 내용이다.

• What is learning?

  > 크게 2가지로 분류된다. 트레이닝 셋으로 컴퓨터를 학습 시키면 감독?이라 일컷는 감독자 기반 머신러닝 이고

그게 없는 무작위 데이터형테를 기반으로 학습시미면 무감독 이라 일컷는다

  > 번역의 오류 인것 같다, 감독? 무감독? 감독한다? 이건 아닌것 같다.

  > 데이터가 정형화 되어 학습 되느냐 무정형화 되어 학습되느냐인것 같다

  > 직역 번역의 패해는 의미를 회손하고 문제를 야기한다. 개념은 중요한데 번역에서 오는 오류인듯 하다

  > 원문이 중요한 이유가 여기에 있다.

 

 1. supervised

    - learning with labeled examples

    - training set

  

    > 컴퓨터가 학습하도록 미리 데이터를 그룹화 하고 이거는 이거다라고 라벨처리를 해준다.

    > 이렇게 라벨처리를 한것을 트레이닝셋(훈련을 시키기 위해 만들어진 데이터 덩어리이다)

 

    • Most common problem type in ML

    - Image labeling: learning from tagged images - Email spam filter: learning from labeled (spam or ham) email - Predicting exam score: learning from previous exam score and time spent

 

    Training data set

     > 모델이 있다고 치자, 모델은 학습하는 박스라고 가정하자

     > 트레이닝 데이터가   x(피처), y(정답)=라벨 즉 하나의 학습대상이되는 데이터에 이건 정답이다. 아니다등 2진형태의 답을 표기한 형태 이다.

     > 박스는 이 트레이닝 데이터들을 학습하면 라벨을 기준으로 판별하고  학습이되니 다음을 예측? 가능 하다는 논리이다.

 

   Types of supervised learning

    < 결과에 따라서  분류를 나눌수 있더라.

     - Predicting final exam score based on time spent > 0~100을주고 y값을 예측하는것을 - regression 이라고 한다.

     - Pass/non-pass based on time spent > 2가지로  분류 하는것을  - binary classification 이라고한다.

     - Letter grade (A, B, C, E and F) based on time spent>여러가지로 분류 하는것을 - multi-label classification 이라고한다.

 

  2. unsupervised

    - Google news grouping

    - Word clustering 

 

• What is regression?

   > 데이터를 그래프화해서 시각해보면 선형의 모양이 나오게 되는데 이는 원리를 파해치는데 유용하다

   > 여기서 원리다.

   > 앞전에서 머신러닝은 연구라해서 처리라 하지 않았다 즉 원리를 이해해서 응용하자는 거다

   > 우리나라 만원짜리에 있는 해시계, 별자리 관측용 기구 등 이는 원리를 파악하여 응용한 거다

   > 즉 이는 원리를 찾았다는 증거로 연구한다는 뜻이된다.

   > 학습을 한다는 것은 바로 선을 찾는것이다.

      (Linear) Hypothesis  = 션형의 예측 = 예측 가능한 선형을 찾는다면 y값을 내놓을수 있다.

      H(x) = W x + b 

   >  선형을 찾아 들어가는 방법 , 가설을 증명해 가는 방법, 이제 그래프가 되었으니 그래프가 정답에 가깝게 움직이는 방법은

   

  - Cost function 이 되겠다.

    • How fit the line to our (training) data H(x) = W x + b H(x) y

     > 공식유도... 젠장 공식이 깨져서 안들어간다.

    

• What is classification?