본문 바로가기

KT AIVLE SCHOOL

[8,9주차] 언어지능 딥러닝

목차

1. TF-IDF, 비지도학습, Word Embedding

2. 정보검색, 추천시스템

3. 언어지능 인공신경망

4. RNN

5. 강화학습

6. 실습코드

 

 

1. TF-IDF, 비지도학습, Word Embedding

1) TF-IDF (Term Frequency-Inverse Document Frequency)

문서 내에서 단어의 중요도를 평가하는 방법. 단어의 빈도와 역문서 빈도를 사용하여 계산.

자카드 유사도 : 두 문장을 각각 단어의 집합으로 만든 뒤 집합을 통해 유사도 측정, 유사도 측정법 : A/B (A: 두 집합의 교집합인 공통된 단어의 개수, B: 집합이 가지는 단어의 개수), 자카드 유사도는 0과 1사이의 값을 가짐.

코사인 유사도 : 두 개의 벡터값에서 코사인 각도를 구하는 방법, -1에서 1사이의 값을 가짐

유클리디언 유사도 : 두 벡터간의 거리로 유사도를 판단(기준: 유클리디언 거리판단)

맨하탄 유사도 : 두 벡터간의 거리로 유사도를 판단(기준: 맨하탄 거리판단)

2) 비지도학습

레이블이 없는 데이터를 사용하여 학습하는 방법. 데이터의 패턴이나 구조를 찾는 데 주로 사용 (대표적으로 kNN)

3) Word Embedding

단어를 고차원에서 저차원의 연속 벡터 공간으로 매핑하는 방법. Word2Vec, GloVe 등의 방법이 있음. (고차원의 단어공간을 저차원의 벡터공감으로 변환하여 단어 간의 의미적 관계를 임베딩 벡터로 표현)

Word2Vec : 주어진 단어를 기반으로 주변 단어들의 확률을 최대화하는 방식으로 단어의 임베딩을 학습. 주로 CBOW(주변 단어들을 기반으로 중심 단어를 예측), Skip-Gram(중심 단어를 기반으로 주변 단어들을 예측)을 사용, 예를들어 '왕-남자+여자 = 여왕'과 같은 단어 간 관계를 표현

GloVe : 전체 텍스트 데이터에서 단어 쌍의 동시 출현 횟수를 계산하여 단어의 임베딩을 학습, 전체 코퍼스의 통계 정보를 사용하기 때문에 Word2Vec에 비해 더 넓은 문맥을 포착, '단어의 의미는 다른 단어들과의 관계속에서 형성된다'를 바탕으로 동시 출현 행렬을 최적화하여 단어 임베딩을 얻음.

 

2. 정보검색, 추천시스템

1) 정보검색

사용자의 질의에 가장 관련된 문서나 정보를 찾아내는 시스템. TF-IDF, 코사인 유사도 등의 방법을 사용할 수 있음.

2) 추천시스템

사용자의 과거 행동이나 선호를 기반으로 가장 적절한 아이템을 추천하는 시스템. 협업 필터링, 콘텐츠 기반 필터링 등의 방법이 사용.

파레토 법칙:  상위 20%가 80%의 가치를 창출

롱테일의 법칙 : 하위 80%의 다수가 상위 20%보다 뛰어난 가치를 창출

CF(Collaborative Filtering, 협업필터링) : 사용자와 아이템 간의 상호 작용 데이터를 기반으로 추천을 생성, 사용자가 아이템에 대한 평가한 정보나 구매이력등을 사용. 장점으로는 잠재적인 특징들을 고려, 보다 다양한 범위의 추천가능. 단점으로는 아직 평가되지 않은 항목이나 초기 사용자에 대해선 추천하기 어려움.

CBF(Content-Based Filtering, 콘텐츠 기반 필터링) : 아이템의 속성(콘텐츠)을 기반으로 추천을 생성, 예를들면 영화의 장르나 감독 배우 등의 정보를 사용하여 추천을 생성, 사용자가 과거에 선호했던 아이템의 속성과 새로운 아이템의 속성을 비교하여 추천, 장점으로는 새로 추가된 아이템에 대해서도 추천가능, 단점으로 사용자의 선호도/취향을 특정 단어로 표현하기 어려움.

최근 추천시스템은 CF와 CBF의 장점을 합쳐 유사성, 잠재요소등을 고려하여 CBF,CF 알고리즘과 딥러닝의 특징을 결합한 추천 알고리즘을 개발.

 

3. 언어지능 인공신경망

딥러닝 기반의 자연어 처리 모델은 텍스트 데이터의 복잡한 패턴과 구조를 학습하는데 탁월함. 기본적인 피드포워드 신경망에서부터 시작하여, 텍스트 데이터의 순차적 특성을 잘 학습할수 있는 RNN,LSTM,GRU,CNN 등의 구조가 발전. 최근에는 Transformer 구조를 기반으로 한 BERT, GPT등의 모델이 높은 성능을 보이며 NLP 분야의 표준으로 자리잡고 있음.

 

4. RNN (Recurrent Neural Network, 순환 신경망)

텍스트는 단어나 문자의 시퀀스로 이루어져 있기 때문에, 시퀀스 데이터의 특성을 잘 학습할수 있는 모델. 이전 시점의 정보를 현재 시점의 입력과 함께 사용하여 출력을 생성. 긴 시퀀스를 처리하는 경우 '장기 의존성'문제가 발생할 수 있기 때문에 LSTM이나 GRU 같은 변형구조가 개발됨.

 

5. 강화학습

자연어 처리에서 강화학습은 대화 시스템, 대화형 에이전트, 기계 번역 등에서 활용. 딥러닝과 강화학습을 결합한 DQN, A3C와 같은 방법은 복잡한 언어 기반의 작업에서 높은 성능을 나타냄.

 

6. 실습코드

언어지능딥러닝.zip
0.06MB