장바구니 담기 close

장바구니에 상품을 담았습니다.

파이썬 텍스트 마이닝 완벽 가이드

파이썬 텍스트 마이닝 완벽 가이드

  • 박상언 ,강주영 ,정석찬
  • |
  • 위키북스
  • |
  • 2022-02-18 출간
  • |
  • 340페이지
  • |
  • 175 X 235 X 18 mm
  • |
  • ISBN 9791158393007
판매가

28,000원

즉시할인가

25,200

배송비

무료배송

(제주/도서산간 배송 추가비용:3,000원)

수량
+ -
총주문금액
25,200

이 상품은 품절된 상품입니다

※ 스프링제본 상품은 반품/교환/환불이 불가능하므로 신중하게 선택하여 주시기 바랍니다.

목차


[1부] 텍스트 마이닝 기초

▣ 01장: 텍스트 마이닝 기초
1.1 텍스트 마이닝의 정의
1.2 텍스트 마이닝 패러다임의 변화
___1.2.1 카운트 기반의 문서 표현
___1.2.2 시퀀스 기반의 문서 표현
1.3 텍스트 마이닝에 필요한 지식과 도구
___1.3.1 자연어 처리 기법
___1.3.2 통계학과 선형대수
___1.3.3 시각화 기법
___1.3.4 머신러닝
___1.3.5 딥러닝
1.4 텍스트 마이닝의 주요 적용분야
___1.4.1 문서 분류
___1.4.2 문서 생성
___1.4.3 문서 요약
___1.4.4 질의응답
___1.4.5 기계번역
___1.4.6 토픽 모델링
1.5 이 책의 실습 환경과 사용 소프트웨어
___1.5.1 기본 실습 환경
___1.5.2 자연어 처리 관련 라이브러리
___1.5.3 머신러닝 관련 라이브러리
___1.5.4 딥러닝 관련 라이브러리

▣ 02장: 텍스트 전처리
2.1 텍스트 전처리의 개념
___2.1.1 왜 전처리가 필요한가?
___2.1.2 전처리의 단계
___2.1.3 실습 구성
2.2 토큰화
___2.2.1 문장 토큰화
___2.2.2 단어 토큰화
___2.2.3 정규표현식을 이용한 토큰화
___2.2.4 노이즈와 불용어 제거
2.3 정규화
___2.3.1 어간 추출
___2.3.2 표제어 추출
2.4 품사 태깅
___2.4.1 품사의 이해
___2.4.2 NLTK를 활용한 품사 태깅
___2.4.3 한글 형태소 분석과 품사 태깅
___2.4.4 참고자료

▣ 03장: 그래프와 워드 클라우드
3.1 단어 빈도 그래프 - 많이 쓰인 단어는?
3.2 워드 클라우드로 내용을 한눈에 보기
3.3 한국어 문서에 대한 그래프와 워드 클라우드

[2부] BOW 기반의 텍스트 마이닝

▣ 04장: 카운트 기반의 문서 표현
4.1 카운트 기반 문서 표현의 개념
4.2 BOW 기반의 카운트 벡터 생성
4.3 사이킷런으로 카운트 벡터 생성
4.4 한국어 텍스트의 카운트 벡터 변환
___4.4.1 데이터 다운로드
4.5 카운트 벡터의 활용
4.6 TF-IDF로 성능을 높여보자

▣ 05장: BOW 기반의 문서 분류
5.1 20 뉴스그룹 데이터 준비 및 특성 추출
___5.1.1 데이터셋 확인 및 분리
___5.1.2 카운트 기반 특성 추출
5.2 머신러닝과 문서 분류 과정에 대한 이해
5.3 나이브 베이즈 분류기를 이용한 문서 분류
5.4 로지스틱 회귀분석을 이용한 문서 분류
___5.4.1 릿지 회귀를 이용한 과적합 방지
___5.4.2 라쏘 회귀를 이용한 특성 선택
5.5 결정트리 등을 이용한 기타 문서 분류 방법
5.6 성능을 높이는 방법
5.7 카운트 기반의 문제점과 N-gram을 이용한 보완
___5.7.1 통계로는 알 수 없는 문맥 정보
___5.7.2 N-gram의 이해
___5.7.3 N-gram을 이용한 문서 분류
5.8 한국어 문서의 분류
___5.8.1 다음 영화 리뷰에 대한 영화 제목 예측
___5.8.2 성능을 개선하기 위한 노력

▣ 06장: 차원 축소
6.1 차원의 저주와 차원 축소의 이유
6.2 PCA를 이용한 차원 축소
6.3 LSA를 이용한 차원 축소와 의미 파악
___6.3.1 LSA를 이용한 차원 축소와 성능
___6.3.2 LSA를 이용한 의미 기반의 문서 간 유사도 계산
___6.3.3 잠재된 토픽의 분석
___6.3.4 단어 간 의미 유사도 분석
6.4 tSNE를 이용한 시각화와 차원축소의 효과

▣ 07장: 토픽 모델링으로 주제 찾기
7.1 토픽 모델링과 LDA의 이해
___7.1.1 토픽 모델링이란?
___7.1.2 LDA 모형의 구조
___7.1.3 모형의 평가와 적절한 토픽 수의 결정
7.2 사이킷런을 이용한 토픽 모델링
___7.2.1 데이터 준비
___7.2.2 LDA 토픽 모델링 실행
___7.2.3 최적의 토픽 수 선택하기
7.3 Gensim을 이용한 토픽 모델링
___7.3.1 Gensim 사용법과 시각화
___7.3.2 혼란도와 토픽 응집도를 이용한 최적값 선택
7.4 토픽 트렌드로 시간에 따른 주제의 변화 알아내기

▣ 08장: 감성 분석
8.1 감성분석의 이해
___8.1.1 어휘 기반의 감성 분석
___8.1.2 머신러닝 기반의 감성 분석
8.2 감성 사전을 이용한 영화 리뷰 감성 분석
___8.2.1 NLTK 영화 리뷰 데이터 준비
___8.2.2 TextBlob을 이용한 감성 분석
___8.2.3 AFINN을 이용한 감성 분석
___8.2.4 VADER를 이용한 감성 분석
___8.2.5 한글 감성사전
8.3 학습을 통한 머신러닝 기반의 감성 분석
___8.3.1 NLTK 영화 리뷰에 대한 머신러닝 기반 감성 분석
___8.3.2 다음 영화 리뷰에 대한 머신러닝 기반 감성 분석
8.4 참고문헌

▣ 09장: 인공신경망과 딥러닝의 이해
9.1 인공신경망의 이해
___9.1.1 인공신경망의 구조와 구성요소
___9.1.2 인공신경망에서의 학습
___9.1.3 손실 함수의 이해
___9.1.4 경사하강법
9.2 딥러닝의 이해
___9.2.1 딥러닝이란?
___9.2.2 층이 깊은 신경망의 문제점
___9.2.3 딥러닝에서의 해결방안
___9.2.4 다양한 딥러닝 알고리즘
___9.2.5 딥러닝 개발 및 활용환경

[3부] 텍스트 마이닝을 위한 딥러닝 기법

▣ 10장: RNN - 딥러닝을 이용한 문서 분류
10.1 왜 RNN일까?
___10.1.1 RNN의 이해
___10.1.2 RNN이 문서 분류에 적합한 이유
___10.1.3 RNN의 문서 분류 적용방안
10.2 워드 임베딩의 이해
___10.2.1 워드 임베딩이란?
___10.2.2 BOW와 문서 임베딩
___10.2.3 워드 임베딩과 딥러닝
10.3 RNN을 이용한 문서 분류 - NLTK 영화 리뷰 감성분석
___10.3.1 워드 임베딩을 위한 데이터 준비
___10.3.2 RNN이 아닌 일반적인 신경망 모형을 이용한 분류
___10.3.3 문서의 순서정보를 활용하는 RNN 기반 문서분류
10.4 LSTM, Bi-LSTM과 GRU를 이용한 성능 개선

▣ 11장: Word2Vec, ELMo, Doc2Vec의 이해
11.1 Word2Vec - 대표적인 워드 임베딩 기법
___11.1.1 Word2Vec 학습의 원리
___11.1.2 Word2Vec 활용 - 학습된 모형 가져오기
___11.1.3 FastText - 워드 임베딩에 N-gram 적용
11.2 ELMo - 문맥에 따른 단어 의미의 구분
___11.2.1 Word2Vec의 문제점
___11.2.2 ELMo의 구조
11.3 Doc2Vec - 문맥을 고려한 문서 임베딩

▣ 12장: CNN - 이미지 분류를 응용한 문서 분류
12.1 CNN의 등장과 작동 원리
12.2 CNN을 이용한 문서 분류
12.2.1 CNN을 이용한 문서 분류의 원리
12.2.2 CNN을 이용한 NLTK 영화 리뷰 분류

▣ 13장: 어텐션(Attention)과 트랜스포머
13.1 Seq2seq: 번역에서 시작한 딥러닝 기법
13.2 어텐션을 이용한 성능의 향상
13.3 셀프 어텐션(Self-attention)과 트랜스포머
___13.3.1 셀프 어텐션의 이해
___13.3.2 트랜스포머의 구조
___13.3.3 인코더의 셀프 어텐션 원리
___13.3.4 디코더의 작동 원리

▣ 14장: BERT의 이해와 간단한 활용
14.1 왜 언어 모델이 중요한가?
14.2 BERT의 구조
14.3 언어모델을 이용한 사전학습과 미세조정학습
14.4 사전학습된 BERT 모형의 직접 사용방법
14.5 자동 클래스를 이용한 토크나이저와 모형의 사용

▣ 15장: BERT 사전학습 모형에 대한 미세조정학습
15.1 BERT 학습을 위한 전처리
15.2 트랜스포머의 트레이너를 이용한 미세조정학습
15.3 파이토치를 이용한 미세조정학습

▣ 16장: 한국어 문서에 대한 BERT 활용
16.1 다중 언어 BERT 사전학습 모형의 미세조정학습
16.2 KoBERT 사전학습 모형에 대한 파이토치 미세조정학습

교환 및 환불안내

도서교환 및 환불
  • ㆍ배송기간은 평일 기준 1~3일 정도 소요됩니다.(스프링 분철은 1일 정도 시간이 더 소요됩니다.)
  • ㆍ상품불량 및 오배송등의 이유로 반품하실 경우, 반품배송비는 무료입니다.
  • ㆍ고객님의 변심에 의한 반품,환불,교환시 택배비는 본인 부담입니다.
  • ㆍ상담원과의 상담없이 교환 및 반품으로 반송된 물품은 책임지지 않습니다.
  • ㆍ이미 발송된 상품의 취소 및 반품, 교환요청시 배송비가 발생할 수 있습니다.
  • ㆍ반품신청시 반송된 상품의 수령후 환불처리됩니다.(카드사 사정에 따라 카드취소는 시일이 3~5일이 소요될 수 있습니다.)
  • ㆍ주문하신 상품의 반품,교환은 상품수령일로 부터 7일이내에 신청하실 수 있습니다.
  • ㆍ상품이 훼손된 경우 반품 및 교환,환불이 불가능합니다.
  • ㆍ반품/교환시 고객님 귀책사유로 인해 수거가 지연될 경우에는 반품이 제한될 수 있습니다.
  • ㆍ스프링제본 상품은 교환 및 환불이 불가능 합니다.
  • ㆍ군부대(사서함) 및 해외배송은 불가능합니다.
  • ㆍ오후 3시 이후 상담원과 통화되지 않은 취소건에 대해서는 고객 반품비용이 발생할 수 있습니다.
반품안내
  • 마이페이지 > 나의상담 > 1 : 1 문의하기 게시판 또는 고객센터 : 070-4821-5101
교환/반품주소
  • 부산광역시 부산진구 중앙대로 856 303호 / (주)스터디채널 / 전화 : 070-4821-5101
  • 택배안내 : CJ대한통운(1588-1255)
  • 고객님 변심으로 인한 교환 또는 반품시 왕복 배송비 5,000원을 부담하셔야 하며, 제품 불량 또는 오 배송시에는 전액을 당사에서부담 합니다.