티스토리 뷰
데이터 스터디
11/07
17장 의사결정나무 (Decision tree)
- 스무고개 같은 것. 결정 노드, 잎노드 = 끝노드
- 정보획득 (information gain) : feature 만드는 것. 잘 구분하는 노드를 찾는다.
- 엔트로피를 최소값으로 만드는 것이 목표다!
- 분류나무(범주형 결과), 회기나무(숫자 측정 가능)
- 재귀적 분기 (Recursive partitioning)
- 가지치기 : 필요없는 결과는 가지 쳐버림.
- 랜덤포레스트 : Greedy algorithm의 단점 보완. 여러개의 의사결정나무를 만들어 다수결로 결과 결정.
- 앙상블 학습 : 어느정도 독립적인 수 많은 모델을 만들고 앙상블로 통합하는 알고리즘을 개발.
- https://www.kdnuggets.com/2017/11/difference-bagging-boosting.html
18장 인공신경망 (Neural Networks)
- 동물의 뇌의 원리를 이용한 예측 모델
- Black box : 각각의 neuron에서 어떤 의미를 추론하기 어려움.
- Perceptron : 뉴런 딱 하나! -> 일차원 직선
- step_function(dot(weight, input) + bias) -> 이 결과다!
- Feed-Forward Neural Network : 앞으로만 가는 것을 Feed-Forward
- Feed-Forward를 학습한다는 것은 weight와 bias를 조절하는 것 : Backpropagation!
- Backpropagation을 할 때, 미분을 많이 하는데, step_funtion은 미분이 안되기 때문에, sigmoid function을 가지고 계산한다.
- 경사하강법을 통해 weight를 찾는다. -> weight에 대한 error를 줄이는 것.
- backpropagation은 경사하강법의 한계를 그대로 가짐.
- http://playground.tensorflow.org/
19장 군집화 (Clustering)
- 데이터를 비슷한 것끼리 모아주면서 특징을 뽑아냄.
- unsupervised learning!
- 정답이 없다. 모델 검증을 어떻게 하느냐에 따라 ‘더 적합’한 모델이 있을 뿐이다.
- k-means : k개의 point를 랜덤하게 고르고 중심점(군집 안에서 중심 찍고)을 찾아간다.
- Bottom-up Hierarchical : 가장 가까운 두 군집씩 합쳐서 전부 합쳐질 때까지
- Bottom-up에서 min(가장 짧은 거리 찾기)을 가지고 하는 것과 max(가장 작은 원 찾기)로 하는 두가지 방법이 있다.
'자기개발 > 책 요약' 카테고리의 다른 글
밑바닥부터 시작하는 데이터 과학 20 - 22장 (0) | 2017.11.14 |
---|---|
밑바닥부터 시작하는 데이터 과학 11-13장 (0) | 2017.10.31 |
밑바닥부터 시작하는 데이터 과학 14-16장 (0) | 2017.10.24 |
밑바닥부터 시작하는 데이터 과학 8-10장 (0) | 2017.10.17 |
밑바닥부터 시작하는 데이터 과학 5-7장 (0) | 2017.10.10 |
댓글