데이터 스터디11/14 20장 자연어 처리 워드 클라우드 : 의미 없음. 쓸 데 없음. 그냥 예쁘게 보여줌. http://wordcloud.kr/ n-gram 모델 : 확률적 언어 모델의 하나, 기계 번역, 오타 수정에 많이 쓰임 Markov Assumption : 연속 상태를 이전 n상태로 예측 가능. n : 몇 개를 보고? / gram : 단위 (Word length …) 문법 : 주어진 문법에 맞게 문장을 생성함. 토픽 모델링 : LDA(Latent Dirichlet Allocation) -> Unsupervised Generative Topic Model. Generative : 데이터가 어떻게 발생되었는지? // Discriminative : 이미 발생된 데이터를 통해 어떻게하지? Topic M..
데이터 스터디11/07 17장 의사결정나무 (Decision tree) 스무고개 같은 것. 결정 노드, 잎노드 = 끝노드 정보획득 (information gain) : feature 만드는 것. 잘 구분하는 노드를 찾는다. 엔트로피를 최소값으로 만드는 것이 목표다! 분류나무(범주형 결과), 회기나무(숫자 측정 가능) 재귀적 분기 (Recursive partitioning) 가지치기 : 필요없는 결과는 가지 쳐버림. 랜덤포레스트 : Greedy algorithm의 단점 보완. 여러개의 의사결정나무를 만들어 다수결로 결과 결정. 앙상블 학습 : 어느정도 독립적인 수 많은 모델을 만들고 앙상블로 통합하는 알고리즘을 개발. https://www.kdnuggets.com/2017/11/difference-bagg..
데이터 스터디10/31 11장 기계학습 룰이 너무 많아진다. Limitations of Explicitly Programming (1959) Supervised (classification) / Unsupervised learning (clustering) Supervised : regression, binary classification, multi-label classification Overfitting : 현 데이터에만 적중할 때, Underfitting : 너무 안맞을 때 Bias, Variance : 높은 bias는 underfitting / 높은 variance는 overfitting 12장 k-NN (k-Nearest Neighbor) 가장 가까운 이웃 찾기! Weighted K-Neare..
14장 단순 회귀 분석 (Simple Linear Regression) 각 데이터들의 오차의 합이 최소가 되는 선을 찾자. 오차들을 제곱해서 더한다. (상쇄 방지 : 음수가 나오는 경우) : Cost Function Cost Function이 최소가 되는 w와 b를 찾자. least squares 모델 R-squared : 모델이 실제 y값들을 얼마나 잘 대변하고 있냐 / 0-1 사이의 값. 클수록 좋다. 공식을 쓰지 않고 경사하강법으로 : 역행렬을 구해야하는데, Computationally Expansion. 경사하강법 w와 b를 랜덤하게 세팅 w와 b를 Running rate * 편미분 값을 빼서 다시 세팅 15장 다중 회귀 분석 (Multiple Regression) feature를 추가 표준화(R..
데이터 스터디화요일 10/17 경사 하강법 - 기울기가 줄어든다. - 기울기가 낮아지는 방향으로 계속 이동해서 함수의 최대, 최소값을 찾아낸다. - step size : 고정값, 시간에 따라 감소, 이동할 때마다 목적함수를 최소화 … - 단점 : 다차 함수는 로컬 미니멈, 로컬 맥시멈이 있어서 시작점에 따라 문제가 생길 수 있다. - Stochastic Gradient Descent : 작은 토막마다 묶어서 토막을 묶어서 정한다. - 더 많은 GD의 변형이 있다. 데이터 수집 - stdin - stdout : 커맨드 라인으로 입력 받기 - 커맨드 라인에 출력하기. - 파일 읽기 : open(), close(), with(자동으로 close() 해줌) - 웹 스크래핑 (Beautiful Soup, Scra..
5장 통계 데이터를 어디부터 설명해주어야 하냐? 중심경향성(Central Tendency) : 평균, 중앙값산포도 : 데이타가 어느 범위에 걸처있는지. 분산, 표준편차, 공분산.심슨의 역설 : 혼재변수(Confounding variables)를 제거하지 않아서 잘못 계산됨.상관관계는 인과관계를 의미하지 않는다. 6장 확률 베이즈 정리 : 경우가 바뀌었을 때, 사건이 일어날 확률확률변수 : 사건이 일어났냐 안 일어났냐를 지칭하는 변수.정규분포 : 평균 = 0 / 표준편차 = 1중심극한정리 : 많이하면 정규분포를 따른다. 7장 가설과 추론 p-value : 측정값이 우연히 나올 확률 / p-value가 작을수록 기각하기 쉬우므로 실험자가 유리하다. 그러나 5%에 가까울 수록 실험이 애매하다. 5% 이상일 경..