'2025/01 글 목록

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

2013년부터 인기가 폭발적으로 치솟은 데이터 사이언스 분야는 점차 발전하며 구체적인 역할과 직업으로 세분화되고 있다. 하지만 그 과정에서 직업마다 일관성 없는 역할이 주어졌고, 어쩔 수 없는 혼란을 가져왔다. 예를 들어, 다양한 직업이 똑같은 역할을 수행하는 경우도 있고, 한 직업이 다양한 역할을 수행하는 경우도 있다:1. 데이터 사이언티스트필요 역량데이터 분석에 대한 기본 통계학과 수학적 지식 머신러닝과 딥러닝 모델 개별 경험 데이터 시각화 및 인사이트 발굴 능력추천 기술SQL, 파이썬, R, 머신러닝 알고리즘 업무상세데이터 사이언티스트는 다양한 데이터를 수집, 전처리, 시각화하고 이를 통해 비즈니스에 가치를 창출하는 역할을 수행합니다. 다시 말해, 이들은 비즈니스에서 표면적으로 드러나지 않는 문제를..

AI Foundation 2025. 1. 13. 09:33

[HuggingFace] Fine-tuning - 3 (A full training)

A full training 이제 트레이너 클래스를 사용하지 않고 지난 섹션에서 했던 것과 동일한 결과를 얻는 방법을 살펴보겠습니다. 다시 한 번, 섹션 2에서 데이터 처리를 완료했다고 가정합니다. 다음은 필요한 모든 사항을 간략하게 요약한 것입니다.from datasets import load_datasetfrom transformers import AutoTokenizer, DataCollatorWithPaddingraw_datasets = load_dataset("glue", "mrpc")checkpoint = "bert-base-uncased"tokenizer = AutoTokenizer.from_pretrained(checkpoint)def tokenize_function(example): ..

AI Tutorial 2025. 1. 9. 11:33

[CUDA] 2. pytorch에서 GPU를 사용하는 방법

CUDA를 설치하지 않으셨으면 아래의 링크를 통해서 선행 설치해야 진행가능합니다.[CUDA] 1. 소개 및 설치 for windows(Feat. GTX 1650) Check GPUGPU 가용성 확인GPU에 액세스할 수 있는지 확인하는 가장 쉬운 방법은 torch.cuda.is_available()을 호출하는 것입니다. True를 반환하면 시스템에 torch버전에 맞는 CUDA가 올바르게 설치되어 있다는 뜻입니다.import torchtorch.cuda.is_available() 현재 선택한 디바이스의 인덱스를 가져옵니다. torch.cuda.current_device() 사용 가능한 GPU 수를 확인합니다.torch.cuda.device_count() 디바이스 이름을 가져옵니다.torch.cuda.get..

AI Tutorial 2025. 1. 8. 12:23

[HuggingFace] Fine-tuning - 2(Fine-tuning a model with the Trainer API)

Fine-tuning a model with the Trainer API (Trainer API 로 모델 미세 조정하기) 🤗 트랜스포머는 데이터 세트에 대해 미리 학습된 모델을 미세 조정할 수 있도록 Trainer(트레이너) 클래스를 제공합니다. 마지막 섹션에서 모든 데이터 전처리 작업을 완료했다면 이제 트레이너를 정의하는 몇 단계만 남았습니다. 가장 어려운 부분은 CPU에서 매우 느리게 실행되므로 Trainer.train()을 실행할 환경을 준비하는 것입니다. GPU가 설정되어 있지 않은 경우 Google Colab에서 무료 GPU 또는 TPU에 액세스할 수 있습니다. 아래 코드 예제는 이전 섹션의 예제를 이미 실행한 것으로 가정합니다. 다음은 필요한 사항을 간략하게 요약한 것입니다:from data..

카테고리 없음 2025. 1. 6. 14:30

[HuggingFace] Fine-tuning - 1 (Processing the data)

Processing the data (데이터 처리)이전 장의 예를 계속하면 PyTorch에서 하나의 배치에 대한 시퀀스 분류기를 훈련하는 방법은 다음과 같습니다.import torchfrom transformers import AdamW, AutoTokenizer, AutoModelForSequenceClassification# Same as beforecheckpoint = "bert-base-uncased"tokenizer = AutoTokenizer.from_pretrained(checkpoint)model = AutoModelForSequenceClassification.from_pretrained(checkpoint)sequences = [ "I've been waiting for a Hu..

AI Tutorial 2025. 1. 5. 18:38

[CUDA] 1. 소개 및 설치 for windows(Feat. GTX 1650)

용어정의CUDA, CUDA Toolkit, cuDNN은 NVIDIA에서 개발한 GPU 컴퓨팅 관련 기술들로, 각각 다음과 같은 특징을 가지고 있습니다 CUDA (Compute Unified Device Architecture)CUDA는 NVIDIA가 개발한 병렬 컴퓨팅 플랫폼 및 프로그래밍 모델입니다정의: GPU에서 수행하는 병렬 처리 알고리즘을 C, C++ 등의 프로그래밍 언어로 작성할 수 있게 해주는 기술입니다목적: GPU의 강력한 병렬 처리 능력을 일반적인 컴퓨팅 작업에 활용하기 위해 개발되었습니다특징: GPU의 가상 명령 집합과 병렬 연산 요소들에 직접 접근할 수 있는 소프트웨어 계층을 제공합니다 대량의 병렬 연산을 동시에 처리하는 것이 주요 목표입니다CUDA To..

AI Tutorial 2025. 1. 3. 16:41

[DeepLearning] 사전학습, 전이학습, RAG, 미세조정

사전학습, 전이학습, RAG, 미세조정은 모두 인공지능 모델, 특히 대규모 언어 모델(LLM)을 개발하고 최적화하는 데 사용되는 중요한 기술들입니다. 각각의 개념과 차이점을 설명해드리겠습니다.사전학습 (Pre-training)사전학습은 대규모의 일반적인 데이터셋을 사용해 모델을 학습시키는 프로세스입니다이 과정에서 모델은 언어의 기본 구조, 문법, 뉘앙스, 다양한 정보 등을 학습합니다. 사전학습은 방대한 양의 데이터와 컴퓨팅 리소스를 필요로 하며, 모델에게 광범위한 지식 기반을 제공합니다 전이학습 (Transfer Learning)전이학습은 한 태스크에 대해 훈련된 모델을 사용해 유사한 작업을 수행하는 모델의 기초로 활용하는 기법입니다이 방법을 통해 작은 데이터셋으로도 높은 성능을 얻을 수 있으며, 특정..

AI Tutorial 2025. 1. 3. 11:51

[Hugging Face - 7] Putting it all together (모든 것을 종합하기)

지난 몇 섹션에서는 대부분의 작업을 수작업으로 수행하는 방법으로 실습을 진행했습니다. tokenizers 의 작동 방식을 살펴보고 토큰화( tokenization ), input IDs 로의 변환, 패딩( padding ), 잘림( truncation )및 주의 마스크( attention masks )에 대해 살펴봤습니다. 그러나 섹션 2에서 살펴본 것처럼 🤗 트랜스포머 API는 이 모든 것을 높은 수준의 함수를 통해 처리할 수 있으며, 여기서 자세히 살펴볼 것입니다. 문장에서 토큰화 도구를 직접 호출하면 모델을 통과할 준비가 된 입력을 반환받습니다:from transformers import AutoTokenizercheckpoint = "distilbert-base-uncased-finetuned..

AI Tutorial 2025. 1. 3. 10:47

[Hugging Face - 6] Handling multiple sequences(여러 시퀀스 처리하기)

이전 섹션에서는 가장 간단한 사용 사례인 짧은 길이의 단일 시퀀스에 대해 추론을 수행하는 방법을 살펴보았습니다. 하지만 이미 몇 가지 의문이 생겼습니다:여러 개의 시퀀스를 어떻게 처리하나요?길이가 다른 여러 시퀀스를 어떻게 처리하나요 ?어휘 색인이 모델이 잘 작동하는 데 필요한 유일한 입력일까요?시퀀스가 너무 길다는 게 있을까?이러한 질문이 어떤 종류의 문제를 제기하는지 살펴보고, 🤗 Transformers API를 사용하여 이러한 문제를 어떻게 해결할 수 있는지 알아보겠습니다. 모델은 일괄 입력을 예상합니다.이전 연습에서 시퀀스가 숫자 목록으로 변환되는 방식을 살펴보았습니다. 이 숫자 목록을 텐서로 변환하여 모델로 보내 보겠습니다.import torchfrom transformers import ..

AI Tutorial 2025. 1. 1. 14:43

[Hugging Face - 5] Tokenizers

Tokenizers 는 NLP 파이프라인의 핵심 구성 요소 중 하나입니다. Tokenizers 는 텍스트를 모델에서 처리할 수 있는 데이터로 변환하는 한 가지 용도로 사용됩니다. 모델은 숫자만 처리할 수 있으므로 Tokenizers 는 텍스트 입력을 숫자 데이터로 변환해야 합니다. 이 섹션에서는 토큰화 파이프라인에서 정확히 어떤 일이 일어나는지 살펴보겠습니다. NLP 작업에서 일반적으로 처리되는 데이터는 원시 텍스트입니다. 다음은 이러한 텍스트의 예입니다:Jim Henson was a puppeteer 하지만 모델은 숫자만 처리할 수 있으므로 원시 텍스트를 숫자로 변환하는 방법을 찾아야 합니다. 이것이 바로 토큰화 도구가 하는 일이며, 이를 수행하는 방법에는 여러 가지가 있습니다. 목표는 가장 의미 있는..

AI Tutorial 2025. 1. 1. 12:57

에코프로.AI

목록2025/01 (10)

에코프로.AI

티스토리툴바