목차
프롤로그
1부. 서론
1장. 데이터과학적 한국학
2장. 디지털 전환과 지구화
3장. 디지털 인문학
참고 문헌
2부. 데이터 수집과 가공
1장. 자원으로서 데이터
1. 국가 통계 포털
2. 공공 데이터 포털
3. 국사편찬위원회 한국사데이터베이스
4. 한국학중앙연구원 디지털 아카이브
5. AI 허브
6. 모두의 말뭉치
2장. 종류
1. 정형 데이터와 비정형 데이터
2. 레이블 데이터와 원시 데이터
3장. 데이터 웹 수집
1. 한국학 아카이브 자료 웹 수집
2. 소셜미디어 데이터 웹 수집
4장. 데이터 저장과 가공
1. 텍스트 파일 형식
2.JSON 형식
참고 문헌
3부. 데이터 분석 방법론
1장. 기술 통계량 및 데이터의 분포
1. 평균, 기대값
2. 분산, 표준편차, 편차
3. 공분산, 상관도
2장. 연관도, 유사도, 중요도
1. 상호정보량
2. 코사인 유사도
3. TF-IDF 가중치
3장. 텍스트 분석 및 전처리
1. 한글 인코딩과 글자 처리
2. 한자 변환
3. 어휘 형태 단위 토큰화
1) NLTK
2) KoNLPy
3) 기호 문자와 불용어(stopword)불용어 처리
4) 단어조각과 바이트페어 인코딩
4장. 언어 분석을 위한 기계 학습 및 딥러닝
1. 지도 학습, 비지도 학습, 자기 지도 학습
2. 텍스트 분류와 기계 학습
1) 나이브 베이즈 분류
2) 기계 학습 절차의 이해
3) 분류 모델의 평가 척도
3. 클러스터링: 비지도 학습
1) K-평균 군집
2) LDA 토픽 모델링
4. 신경망 학습
1) 기울기 하강과 비용 함수
2) 단어 임베딩과 표현 학습
3) 자기 지도 학습: 스킵그램(skip-gram)과 부정 대조 추정
4) 정적 임베딩과 어휘 형태와 의미의 연관성
5. 문맥 임베딩
1) 트랜스포머 언어 모델
2) 자기 지도 학습: 단어 가림 모델, 다음 문장 추정, 다음 단어 추정
6. 언어 모델과 전이 학습
1) 사전 학습 언어 모델과 정밀 학습
2) 초거대 언어 모델과 프롬프트 엔지니어링
3) 생성형 언어 모델과 상호작용형 학습
4) 초거대 언어 모델의 한계와 분류형 작은 언어 모델
참고 문헌
4부. 한국학 연구에 데이터과학적 방법의 적용
1장. 한글과 조선글 사용의 차이와 변화
1. 조선글과 한글
2. 1986년 조선글의 자모 조사
3. 2018년 한글의 자모 조사
4. 글자의 분석과 한글과 조선글의 차이를 넘어
참고 문헌
2장. 근대 언어학 잡지의 주제 분석
1. 『한글』의 근현대적 한글 운동
2. 『정음』의 근대 언어학적 언문 운동
3. 『월간잡지 朝鮮語』의 어용성
참고 문헌
3장. 근현대 잡지 텍스트의 근대성 분석
1. 『동광』의 주요 저자들과 언어적 근대성
2. 『별건곤』의 문화적 사회적 근대성
3. 『삼천리』의 주제적 근대성
참고 문헌
4장. 한국전쟁 휴전회담록 분석
1. 사료사적 이해와 자료의 특성
2. 언어 분석 자료의 구성
3. 본회의 기록의 분석 과정과 결과
4. 참모 장교 회의 기록의 분석 과정과 결과
5. 휴전회담 기록과 언어 모델에 기반한 발화 사실 분류
참고 문헌
5장. 한국의 ‘페미니즘’과 서양의 ‘feminism’
1. 데이터 수집과 트위터 이슈
2. 트위터 텍스트 전처리
3. N-Gram 분석에 의한 ‘페미니즘’과 ‘feminism’ 비교
4. 맥락으로 보는 서양과 한국의 페미니즘
참고 문헌
6장. 한국 사회의 혐오와 차별의 언어
1. 인공지능의 언어 윤리 문제와 범주의 모호성
2. 언어 윤리 문제에 관한 AI 언어 모델 연구
3. 언어 윤리 문제에 관한 데이터 고찰
4. 언어 모델의 문맥 임베딩 표상
5. 챗지피티를 이용한 언어 윤리 문제 판별
6. 언어 윤리 문제와 한국 사회의 특성 연구
참고 문헌
5부. 데이터과학적 한국학 연구와 인문학의 미래
1장. 인문학 연구에서 ‘데이터과학적’이란?
2장. 데이터과학적 인문학의 미래와 한국학
참고 문헌
찾아보기