Skip to content

Büyük Dil Modelleri (LLMs) ile ilgili temel teknikleri sade ve anlaşılır projelerle sunar. Fine-Tuning ve PEFT gibi yöntemlerle Pre-Trained dil modellerinin optimize edilmesi, ayrıca RAG (Retrieval-Augmented Generation) ile dış bilgi kaynaklarından verilerin çekilerek model çıktısına entegre edilmesi pratik örneklerle desteklenmiştir.

Notifications You must be signed in to change notification settings

fawern/LLMs-FineTune-RAG-TurkishGuide

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 

Repository files navigation

Büyük Dil Modelleri (LLM) Nedir?

Genel Bakış

Büyük Dil Modelleri (LLM - Large Language Models), büyük miktarda metin verisi üzerinde eğitilmiş ve genellikle milyarlarca parametreye sahip olan yapay zeka modelleridir. Bu modeller, dil anlama ve metin üretme görevlerinde son derece başarılıdır ve çeşitli doğal dil işleme (NLP) görevlerinde kullanılır.

LLM üzerine konuşup RNN, LSTM, GRU, Transformer gibi teknolojilere de değinmek gerekmektedir.

RNN (Recurrent Neural Networks)

RNN'ler, sıralı verilerle çalışmak üzere tasarlanmıştır. Her adımda, girdi ve önceki gizli durumu kullanarak yeni bir gizli durum üretirler. RNN'ler, özellikle uzun cümlelerde ve bağımlılıklarda zorluk yaşarlar. Bu nedenle, daha gelişmiş modeller tercih edilebilir. Bu durumun en temel sebebi Vanishing Gradient ve Exploding Gradient problemleridir. Bu problemler geriye doğru yayılım (backpropagation) sırasında, ağırlıkların güncellenmesi sırasında karşılaşılan problemlerdir.

Bu sorunlara çözüm olarak LSTM ve GRU modelleri geliştirilmiştir.

LSTM (Long Short-Term Memory)

LSTM, RNN'lerin Vanishing Gradient problemini çözmek için tasarlanmıştır. Hafıza hücreleri ve kapılar (gates) kullanarak uzun vadeli bağımlılıkları öğrenmeyi sağlar.

GRU (Gated Recurrent Unit)

GRU, LSTM'e benzer bir yapıya sahiptir ancak daha basit bir yapıya sahiptir. LSTM'den daha hızlıdır ve daha az parametreye sahiptir.

Transformer

Transformer mimarisi 2017 yılında "Attention is All You Need" makalesi ile tanıtılmıştır. RNN ve LSTM'in sıralı verilerdeki zorluklarına alternatif olarak geliştirilmiştir. Transformer mimarisi, paralel işleme imkanı sunarak daha hızlı ve verimli eğitim sağlar. Uzun bağımlılıkları öğrenmeyi kolaylaştırır. Bu mimari adeta bir çağ kapatıp yeni bir çağ açmıştır.

RNN-GRU-LSTM-Tranformer Temsili

Attention Mekanizmaları

Modelin önemli bilgilere odaklanmasını sağlar. Girdilerin ilişkilerini etkili bir şekilde öğrenmek için encoder ve decoder katmanlarında kullanılır.

Büyük Dil Modellerinin Gücü

Büyük dil modelleri, geniş ve çeşitli veri kümeleri üzerinde eğitilir. Dilin karmaşıklıklarını ve inceliklerini öğrenirler ve geniş bir bilgi tabanına sahip olurlar. Ancak, bu modeller genellikle genel amaçlıdır ve belirli bir görev için en iyi performansı sağlamak üzere ince ayar gerektirebilirler. Büyük Dil Modelleri, dil anlama ve üretme yetenekleriyle birçok alanda devrim yaratmış ve çeşitli uygulamalarda kullanılmaktadır. Doğal dil işleme alanında daha önce mümkün olmayan çözümler sunarak, kullanıcıların ihtiyaçlarını karşılamada ve karmaşık dil görevlerini yerine getirmede büyük avantajlar sağlar.

Örnek Modeller ve Kullanımları

  • GPT-3: Metin üretme konusunda oldukça başarılı; hikaye yazma, makale oluşturma veya müşteri hizmetleri botları gibi çeşitli alanlarda kullanılabilir.
  • BERT: Metinleri anlamada üstün performans gösterir; metin sınıflandırma, duygu analizi veya metin içindeki bilgilere dair soruları yanıtlama gibi işlemler için idealdir.
  • T5: Çeviri, metin özetleme ve soru yanıtlama gibi çeşitli dil görevlerinde kullanılır.

About

Büyük Dil Modelleri (LLMs) ile ilgili temel teknikleri sade ve anlaşılır projelerle sunar. Fine-Tuning ve PEFT gibi yöntemlerle Pre-Trained dil modellerinin optimize edilmesi, ayrıca RAG (Retrieval-Augmented Generation) ile dış bilgi kaynaklarından verilerin çekilerek model çıktısına entegre edilmesi pratik örneklerle desteklenmiştir.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published