티스토리 뷰
데이터 스터디
10/31
11장 기계학습
- 룰이 너무 많아진다. Limitations of Explicitly Programming (1959)
- Supervised (classification) / Unsupervised learning (clustering)
- Supervised : regression, binary classification, multi-label classification
- Overfitting : 현 데이터에만 적중할 때, Underfitting : 너무 안맞을 때
- Bias, Variance : 높은 bias는 underfitting / 높은 variance는 overfitting
12장 k-NN (k-Nearest Neighbor)
- 가장 가까운 이웃 찾기!
- Weighted K-Nearest Neighbor : 가중치를 두어서 판단.
- 장점 : 직관적임. 만들기 쉬움.
- 단점 : 차원이 높아지면 exponential하게 계산량이 늘어남.
- 차원의 저주 : 데이터 밀도가 떨어져서 k-NN 예측 결과가 나쁘다.
- 차원의 축소 : PCA (Principal Component Analysis)
13장 나이브 베이즈
- 나이브 : 대충, 단순하게 / 베이즈 이론을 단순하게. 구분하는데 사용 (True/False)
- 서로간의 연관성을 무시하고 다 독립적이라고 가정.
- 베이즈 정리를 이용하여, 분류하고자 하는 대상의 각 분류 별 확률을 측정하고, 그 확률이 큰 쪽으로 분류.
- 사전확률(P(A))로부터 사후확률(P(A|B))을 구할 수 있다.
- B가 많아지면 값이 너무 작아져 underflow문제가 발생하여, Log를 붙여 계산한다.
- Smoothing : 분자에 대해 학습데이터에 없는 단어가 포함되면 ‘0’이 되어버린다. 분모에 모수를 더하고 분자에 1을 더해서 줄 수 있다.
- Smoothing : 빈도수를 임의로 넣을 수 있는데, 빈도수를 너무 크게 주면, 관찰하지 못한 데이터에 대해 가중치를 크게 주는 꼴이 된다.
'자기개발 > 책 요약' 카테고리의 다른 글
밑바닥부터 시작하는 데이터 과학 20 - 22장 (0) | 2017.11.14 |
---|---|
밑바닥부터 시작하는 데이터 과학 17 - 19장 (0) | 2017.11.07 |
밑바닥부터 시작하는 데이터 과학 14-16장 (0) | 2017.10.24 |
밑바닥부터 시작하는 데이터 과학 8-10장 (0) | 2017.10.17 |
밑바닥부터 시작하는 데이터 과학 5-7장 (0) | 2017.10.10 |
댓글