티스토리 뷰

데이터 스터디

11/14


20 자연어 처리

  • 워드 클라우드 : 의미 없음. 없음. 그냥 예쁘게 보여줌. http://wordcloud.kr/
  • n-gram 모델 : 확률적 언어 모델의 하나, 기계 번역, 오타 수정에 많이 쓰임
    • Markov Assumption :  연속 상태를 이전 n상태로 예측 가능.
    • n : 개를 보고? / gram : 단위 (Word length …)
  • 문법 : 주어진 문법에 맞게 문장을 생성함.
  • 토픽 모델링 : LDA(Latent Dirichlet Allocation) -> Unsupervised Generative Topic Model.
    • Generative : 데이터가 어떻게 발생되었는지? // Discriminative : 이미 발생된 데이터를 통해 어떻게하지?
    • Topic Model : 사람이 글을 쓰는 과정을 모델링한다. 가정 : 사람은 주제를 가지고 글을 쓴다.
    • 글을 쓰는 과정 : Probabilistic generative model / 주제를 뽑아내는 과정 : Stastical Inference
    • 토픽 별로 워드의 가중치가 있다.
  • 깁스 샘플링 : 랜덤 초기화 -> 반복 P 수렴할 까지 확률 계산.


21 네트워크 분석

  • 그래프에서 가장 중요한 노드는 뭐야?
  • 매개 중심성 : 임의의 두점 사이의 최단 경로를 계산. 최단 경로 상에 가장 빈번하게 등장하는 노드를 찾는 .
    • 고유 벡터 (Eigenvector) : 같은 방향으로 점프 시켜주는 벡터
    • 중요한 노드와 연결된 노드가 중요하다.
  • 페이지 랭크 : 구글 검색 기반 알고리즘으로 유명
    • 1/n 초기화 -> 값이 수렴할 까지 노드의 페이지 랭크 계산 -> 최종적으로 랜덤 확률을 넣어줌.


22 추천시스템

  • 수작업 -> 여기 가면 여기 가라고 직접 추천
  • 인기도 : 1 추천
  • 사용자 기반 협업 필터링 : 사용자 모델링 , 사용자간 유사도 계산 (cosine similarity).
  • 상품 기반 협업 필터링 : 상품 모델링 , 상품 유사도 계산.


댓글
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31