상세정보
미리보기
한국어 임베딩
- 저자
- 이기창 저/NAVER Chatbot Model 감수
- 출판사
- 에이콘출판사
- 출판일
- 2019-12-27
- 등록일
- 2020-04-28
- 파일포맷
- PDF
- 파일크기
- 52MB
- 공급사
- 예스이십사
- 지원기기
-
PC
PHONE
TABLET
웹뷰어
프로그램 수동설치
뷰어프로그램 설치 안내
책소개
<b>자연어 처리 모델의 성능을 높이는 핵심 비결, 『한국어 임베딩』</b></br></br>임베딩(embedding)은 자연어를 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체를 가리키는 용어다. 단어나 문장 각각을 벡터로 변환해 벡터 공간에 '끼워 넣는다(embed)'는 취지에서 임베딩이라는 이름이 붙었다. 컴퓨터가 자연어를 처리할 수 있게 하려면 자연어를 계산 가능한 형식인 임베딩으로 바꿔줘야 한다. </br></br>임베딩은 컴퓨터가 자연어를 이해하도록 하는 첫 관문으로 매우 중요한 기능을 한다. 자연어 처리 모델의 성능은 임베딩이 좌우한다고 해도 과언이 아니다. 이 책에서는 다양한 임베딩 기법을 일별하고 한국어 데이터 전처리, 임베딩 구축에 이르는 전 과정을 튜토리얼 방식으로 소개한다. Word2Vec 등 단어 수준 기법부터 ELMo, BERT 등 문장 수준 임베딩까지 다룬다.
저자소개
서울대학교 국어국문학과를 졸업하고 고려대학교 대학원에서 공학 석사 학위(산업경영공학)를 취득했다. 문장 범주 분류에 큰 영향을 미치는 단어들에 높은 점수를 주는 기법에 대한 논문(SCI 저널 게재)에 1저자로 참여했다. 현재 네이버에서 대화 모델을 개발하고 있다. 주요 업무는 임베딩 학습 및 구축이다. 문장 생성(text generation)에 관심이 많다. 자연어 처리를 주제로 블로그(http://ratsgo.github.io)를 운영하고 있다. 딥러닝과 자연어 처리의 무궁무진한 가능성을 믿는다.
목차
<b>1장. 서론</b></br>1.1 임베딩이란</br>1.2 임베딩의 역할</br>1.2.1 단어/문장 간 관련도 계산</br>1.2.2 의미/문법 정보 함축</br>1.2.3 전이 학습</br>1.3 임베딩 기법의 역사와 종류</br>1.3.1 통계 기반에서 뉴럴 네트워크 기반으로</br>1.3.2 단어 수준에서 문장 수준으로</br>1.3.3 룰 → 엔드투엔드 → 프리트레인/파인 튜닝</br>1.3.4 임베딩의 종류와 성능</br>1.4 개발 환경</br>1.4.1 환경 소개</br>1.4.2 AWS 구성</br>1.4.3 코드 실행</br>1.4.4 버그 리포트 및 Q&A</br>1.4.5 이 책이 도움받고 있는 오픈소스들 </br>1.5 이 책이 다루는 데이터와 주요 용어 </br>1.6 이 장의 요약 </br>1.7 참고 문헌</br></br><b>2장. 벡터가 어떻게 의미를 가지게 되는가</b></br>2.1 자연어 계산과 이해</br>2.2 어떤 단어가 많이 쓰였는가</br>2.2.1 백오브워즈 가정</br>2.2.2 TF-IDF</br>2.2.3 Deep Averaging Network</br>2.3 단어가 어떤 순서로 쓰였는가</br>2.3.1 통계 기반 언어 모델</br>2.3.2 뉴럴 네트워크 기반 언어 모델</br>2.4 어떤 단어가 같이 쓰였는가</br>2.4.1 분포 가정</br>2.4.2 분포와 의미 (1): 형태소</br>2.4.3 분포와 의미 (2): 품사</br>2.4.4 점별 상호 정보량</br>2.4.5 Word2Vec</br>2.5 이 장의 요약</br>2.6 참고 문헌</br></br><b>3장. 한국어 전처리 </b></br>3.1 데이터 확보 </br>3.1.1 한국어 위키백과</br>3.1.2 KorQuAD</br>3.1.3 네이버 영화 리뷰 말뭉치</br>3.1.4 전처리 완료된 데이터 다운로드</br>3.2 지도 학습 기반 형태소 분석</br>3.2.1 KoNLPy 사용법</br>3.2.2 KoNLPy 내 분석기별 성능 차이 분석</br>3.2.3 Khaiii 사용법</br>3.2.4 은전한닢에 사용자 사전 추가하기</br>3.3 비지도 학습 기반 형태소 분석</br>3.3.1 soynlp 형태소 분석기</br>3.3.2 구글 센텐스피스</br>3.3.3 띄어쓰기 교정</br>3.3.4 형태소 분석 완료된 데이터 다운로드</br>3.4 이 장의 요약</br>3.5 참고 문헌</br></br><b>4장. 단어 수준 임베딩</b></br>4.1 NPLM</br>4.1.1 모델 기본 구조</br>4.1.2 NPLM의 학습</br>4.1.3 NPLM과 의미 정보</br>4.2 Word2Vec</br>4.2.1 모델 기본 구조</br>4.2.2 학습 데이터 구축</br>4.2.3 모델 학습</br>4.2.4 튜토리얼</br>4.3 FastText</br>4.3.1 모델 기본 구조</br>4.3.2 튜토리얼</br>4.3.3 한글 자소와 FastText</br>4.4 잠재 의미 분석</br>4.4.1 PPMI 행렬</br>4.4.2 행렬 분해로 이해하는 잠재 의미 분석</br>4.4.3 행렬 분해로 이해하는 Word2Vec</br>4.4.4 튜토리얼</br>4.5 GloVe</br>4.5.1 모델 기본 구조</br>4.5.2 튜토리얼</br>4.6 Swivel</br>4.6.1 모델 기본 구조</br>4.6.2 튜토리얼</br>4.7 어떤 단어 임베딩을 사용할 것인가</br>4.7.1 단어 임베딩 다운로드</br>4.7.2 단어 유사도 평가</br>4.7.3 단어 유추 평가</br>4.7.4 단어 임베딩 시각화</br>4.8 가중 임베딩</br>4.8.1 모델 개요</br>4.8.2 모델 구현</br>4.8.3 튜토리얼</br>4.9 이 장의 요약</br>4.10 참고 문헌</br></br><b>5장. 문장 수준 임베딩</b></br>5.1 잠재 의미 분석</br>5.2 Doc2Vec</br>5.2.1 모델 개요</br>5.2.2 튜토리얼</br>5.3 잠재 디리클레 할당</br>5.3.1 모델 개요</br>5.3.2 아키텍처</br>5.3.3 LDA와 깁스 샘플링</br>5.3.4 튜토리얼</br>5.4 ELMo</br>5.4.1 문자 단위 컨볼루션 레이어</br>5.4.2 양방향 LSTM, 스코어 레이어</br>5.4.3 ELMo 레이어</br>5.4.4 프리트레인 튜토리얼</br>5.5 트랜스포머 네트워크</br>5.5.1 Scaled Dot-Product Attention</br>5.5.2 멀티헤드 어텐션</br>5.5.3 Position-wise Feed-Forward Networks</br>5.5.4 트랜스포머의 학습 전략</br>5.6 BERT</br>5.6.1 BERT, ELMo, GPT</br>5.6.2 프리트레인 태스크와 학습 데이터 구축</br>5.6.3 BERT 모델의 구조</br>5.6.4 프리트레인 튜토리얼</br>5.7 이 장의 요약</br>5.8 참고 문헌</br></br><b>6장. 임베딩 파인 튜닝</b></br>6.1 프리트레인과 파인 튜닝</br>6.2 분류를 위한 파이프라인 만들기</br>6.3 단어 임베딩 활용</br>6.3.1 네트워크 개요</br>6.3.2 네트워크 구현</br>6.3.3 튜토리얼</br>6.4 ELMo 활용</br>6.4.1 네트워크 개요</br>6.4.2 네트워크 구현</br>6.4.3 튜토리얼</br>6.5 BERT 활용</br>6.5.1 네트워크 개요</br>6.5.2 네트워크 구현</br>6.5.3 튜토리얼</br>6.6 어떤 문장 임베딩을 사용할 것인가</br>6.7 이 장의 요약</br>6.8 참고 문헌</br></br><b>부록</b></br>부록 A. 선형대수학 기초</br>1.1 벡터, 행렬 연산</br>1.2 내적과 공분산</br>1.3 내적과 사영</br>1.4 내적과 선형변환</br>1.5 행렬 분해 기반 차원 축소 (1): 주성분 분석(PCA)</br>1.6 행렬 분해 기반 차원 축소 (2): 특이값 분해(SVD)</br></br><b>부록 B. 확률론 기초</b></br>2.1 확률변수와 확률 분포</br>2.2 베이지안 확률론</br></br><b>부록 C. 뉴럴 네트워크 기초</b></br>3.1 DAG로 이해하는 뉴럴 네트워크</br>3.2 뉴럴 네트워크는 확률모델이다</br>3.3 최대우도추정과 학습 손실</br>3.4 그래디언트 디센트</br>3.5 계산 노드별 역전파</br>3.6 CNN과 RNN</br></br><b>부록 D. 국어학 기초</b></br>4.1 통사 단위</br>4.2 문장 유형</br>4.3 품사</br>4.4 상과 시제</br>4.5 주제</br>4.6 높임</br>4.7 양태</br>4.8 의미역</br>4.9 피동</br>4.10 사동</br>4.11 부정</br></br><b>부록 E. 참고 문헌</b>