티스토리 뷰

데이터 스터디

10/31


11 기계학습

  • 룰이 너무 많아진다. Limitations of Explicitly Programming (1959)
  • Supervised (classification) / Unsupervised learning (clustering)
  • Supervised : regression, binary classification, multi-label classification
  • Overfitting : 데이터에만 적중할 , Underfitting : 너무 안맞을
  • Bias, Variance : 높은 bias underfitting / 높은 variance overfitting


12 k-NN (k-Nearest Neighbor)

  • 가장 가까운 이웃 찾기!
  • Weighted K-Nearest Neighbor : 가중치를 두어서 판단.
  • 장점 : 직관적임. 만들기 쉬움.
  • 단점 : 차원이 높아지면 exponential하게 계산량이 늘어남.
  • 차원의 저주 : 데이터 밀도가 떨어져서 k-NN 예측 결과가 나쁘다.
  • 차원의 축소 : PCA (Principal Component Analysis)


13 나이브 베이즈

  • 나이브 : 대충, 단순하게 / 베이즈 이론을 단순하게. 구분하는데 사용 (True/False)
  • 서로간의 연관성을 무시하고 독립적이라고 가정.
  • 베이즈 정리를 이용하여, 분류하고자 하는 대상의 분류 확률을 측정하고, 확률이 쪽으로 분류.
  • 사전확률(P(A))로부터 사후확률(P(A|B)) 구할 있다.
  • B 많아지면 값이 너무 작아져 underflow문제가 발생하여, Log 붙여 계산한다.
  • Smoothing : 분자에 대해 학습데이터에 없는 단어가 포함되면 ‘0’ 되어버린다. 분모에 모수를 더하고 분자에 1 더해서 있다.
  • Smoothing : 빈도수를 임의로 넣을 있는데, 빈도수를 너무 크게 주면, 관찰하지 못한 데이터에 대해 가중치를 크게 주는 꼴이 된다.


댓글
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2025/02   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28