티스토리 뷰
데이터 스터디
11/14
20장 자연어 처리
- 워드 클라우드 : 의미 없음. 쓸 데 없음. 그냥 예쁘게 보여줌. http://wordcloud.kr/
- n-gram 모델 : 확률적 언어 모델의 하나, 기계 번역, 오타 수정에 많이 쓰임
- Markov Assumption : 연속 상태를 이전 n상태로 예측 가능.
- n : 몇 개를 보고? / gram : 단위 (Word length …)
- 문법 : 주어진 문법에 맞게 문장을 생성함.
- 토픽 모델링 : LDA(Latent Dirichlet Allocation) -> Unsupervised Generative Topic Model.
- Generative : 데이터가 어떻게 발생되었는지? // Discriminative : 이미 발생된 데이터를 통해 어떻게하지?
- Topic Model : 사람이 글을 쓰는 과정을 모델링한다. 가정 : 사람은 주제를 가지고 글을 쓴다.
- 글을 쓰는 과정 : Probabilistic generative model / 주제를 뽑아내는 과정 : Stastical Inference
- 각 토픽 별로 워드의 가중치가 있다.
- 깁스 샘플링 : 랜덤 초기화 -> 반복 P가 수렴할 때 까지 확률 계산.
21장 네트워크 분석
- 이 그래프에서 가장 중요한 노드는 뭐야?
- 매개 중심성 : 임의의 두점 사이의 최단 경로를 계산. 최단 경로 상에 가장 빈번하게 등장하는 노드를 찾는 것.
- 고유 벡터 (Eigenvector) : 같은 방향으로 점프 시켜주는 벡터
- 중요한 노드와 연결된 노드가 더 중요하다.
- 페이지 랭크 : 구글 검색 기반 알고리즘으로 유명
- 1/n로 초기화 -> 값이 수렴할 때 까지 각 노드의 페이지 랭크 계산 -> 최종적으로 랜덤 확률을 넣어줌.
22장 추천시스템
- 수작업 -> 여기 가면 여기 가라고 직접 추천
- 인기도 : 1등 추천
- 사용자 기반 협업 필터링 : 사용자 모델링 후, 사용자간 유사도 계산 (cosine similarity).
- 상품 기반 협업 필터링 : 상품 모델링 후, 상품 간 유사도 계산.
'자기개발 > 책 요약' 카테고리의 다른 글
밑바닥부터 시작하는 데이터 과학 17 - 19장 (0) | 2017.11.07 |
---|---|
밑바닥부터 시작하는 데이터 과학 11-13장 (0) | 2017.10.31 |
밑바닥부터 시작하는 데이터 과학 14-16장 (0) | 2017.10.24 |
밑바닥부터 시작하는 데이터 과학 8-10장 (0) | 2017.10.17 |
밑바닥부터 시작하는 데이터 과학 5-7장 (0) | 2017.10.10 |
댓글