일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 3유형
- Kaggle
- CUDA
- 머신러닝
- 캐글
- K최근접이웃
- 실기
- ㅂ
- DASH
- 인공지능
- webserving
- 공간분석
- 공간시각화
- pytorch
- 딥러닝
- fastapi
- Ai
- 빅데이터분석기사
- GPU
- qgis
- gradio
- dl
- KNN
- 성능
- streamlit
- 1유형
- QGIS설치
- ml 웹서빙
- 2유형
- 예제소스
Archives
- Today
- Total
에코프로.AI
[텍스트마이닝] 이란? 본문
텍스트 마이닝(Text Mining) 이란?
텍스트 마이닝은 정형 및 비정형 데이터를 자연어 처리방식(Natural Language Processing)과 문서처리방법을 적용하여, 유용한 정보를 추출하여 가공하는 것을 목적으로 하는 기술입니다.
텍스트 마이닝은 데이터로부터 유용한 인사이트를 발굴하는 데이터 마이닝(Data Mining), 언어를 정보로 변환하기 위한 자연어처리, 정보검색 등 다양한 분유가 접목되어 발전한 학문, 기술입니다.
텍스트 마이닝 - 사례
- 지식 경영 (Knowledge management)
많은 양의 데이터 중, 의미있는 데이터만 뽑아내고 효율적으로 관리할 수 있다. - 사이버 범죄 예방 (Cybercrime prevention)
텍스트 마이닝을 이용한 범죄 예방 어플리케이션 등 - 고객 관리 서비스 (Customer Care Service)
고객에게 빠르게 자동화된 응답을 제공하기 위해 활용 - 고객 클레임 분석을 통한 부정행위 탐지(Fraud detection through claims investigation)
보험회사는 텍스트 마이닝을 통해 사기를 방지하고 빠르게 클레임을 처리 - 콘텐츠 강화 (Content enrichment)
다양한 목적에 따라 그에 적합한 내용으로 정리하고 요약 - 소셜 미디어 데이터 분석 (Social media data analysis)
해당 브랜드나 제품에 대한 다양한 의견과 감성반응을 살펴볼 수 있다.
텍스트 마이닝 기술 영역
- 텍스트 분류 (Text Classification)
- 감성 분석 (Sentiment Analysis)
- 텍스트 요약 (Summarization)
- 텍스트 군집화 및 유사도 분석 (Clustering)
텍스트 데이터의 구조
말뭉치 > 문서 > 단락 > 문장 > 단어 > 형태소
- 말뭉치 : 분석을 위해 수집된 문서들의 집합
- 말뭉치는 여러 개의 문서가 존재
- 문서는 여러 개의 단락으로 구성
- 단락은 여러 개의 문장으로 구성
- 문장은 여러 개의 단어로 구성
- 단어는 여러 개의 형태소로 구성
예시 ) 일기데이터를 분석하여 감성분석
- 말뭉치 : 100일간의 일기전체
- 문서 : 하루 일기
- 형태소 : 더이상 쪼개면 의미가 없어지는 것 (가방 -> 가/방 (의미가 없어짐))
텍스트 마이닝 분석 프로세스
텍스트 데이터 수집 >> 텍스트 전처리 >> 토큰화 >> 특징값 추출 >> 데이터 분석
- 텍스트 데이터 수집 : SNS/뉴스/블로그 등 텍스트 데이터 수집
- Crawling 을 이용한 Web 데이터 수집 (SNS / 블로그 / 카페 등)
- 빅카인즈 (BIG Kinds) 뉴스 데이터 제공 사이트
- 기타 공공/오픈 데이터
- 텍스트 전처리 : 컴퓨터가 이해하기 쉽게 텍스트를 변환하는 과정
- 전처리는 용도에 맞게 텍스트를 사전에 처리하는 작업
- 궁극적으로 '중요한 특징 값'을 선택하는 것이 중요
- 오탈자 제거, 띄어쓰기 교정
- 불용어 제거 : 데이터에서 큰 의미가 없는 단어 제거
- 정제(cleaning) : 가지고 있는 코퍼스로부터 노이즈 데이터를 제거
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듬.
- 토큰화 : 단어 단위로 나누는 과정
- 주어진 코퍼스(corpus, 말뭉치) 에서 토큰(token)이라 불리는 단위로 나누는 작업(공백/형태소/명사 기준)
- 기준은 분석 방법에 따라 다르다
- 감성 분석을 한다면, 감성을 나타내는 품사가 동사,형용사 쪽에 가깝기 때문에 형태소 분석기를 사용해서 동사,형용사 위주로 추출한다.
- 특징 값 추출 : 중요한 단어를 선별하는 과정
- '중요한 단어' 를 선별하는 과정
- '중요한 단어' 로서의 특징은 적은 수의 문서에 분포되어 있어야 하고, 문서 내에서도 빈번하게 출현해야 한다.
- 특정 텍스트를 통해 문서를 구분 짓는 것이기 때문에 어떤 단어가 모든 문서에 분포되어 있다면 이는 차별성 없는 단어이다.
- 데이터 분석 : 머신러닝, 딥러닝 등 분석 모델 사용
- 머신러닝
- Linear Regression
- Logistic Regression
- Random Forest
- XGBoost 등.
- 딥러닝
- CNN
- RNN
- LSTM
- GRU 등등
- 머신러닝
끝~

[참고 사이트 ] https://start-learn.tistory.com/m/23
'AI Tutorial' 카테고리의 다른 글
[사전학습] ObjectDetection (Feat. efficientdet, OpenCV) (1) | 2024.09.04 |
---|---|
[텍스트마이닝] 감성분석-네이버 영화리뷰 (3) | 2024.09.04 |
[Python] 전이학습(Transfer Learning) 설명 (0) | 2024.08.29 |
[Python] 오토인코더(AutoEncoder) 설명 및 코드구현 (Feat. Tensorflow) (1) | 2024.08.28 |
[Python] RNN 구현 (Feat. Tensorflow) (0) | 2024.08.28 |