AI Training Data

technology-ai-machine-learning

AI Training Data

Kurzdefinition

AI Training Data - Die Datensammlung (Text-Corpora, Images, Videos, Audio, strukturierte Datasets) die verwendet wird um AI-Modelle (LLMs,...

Definition

AI Training Data existiert in 3 Haupt-Typen basierend auf Training-Phase + Data-Source:

1. Pre-Training Data (Foundation-Model-Training): Massive, diverse, unlabeled Datasets (300B-13T tokens für LLMs, 100M-650M images für Vision-Models) → scraped from Internet (Common-Crawl, Wikipedia, GitHub, Books, Reddit, etc.). Purpose: Broad-Knowledge-Acquisition → Model lernt Language-Patterns, World-Knowledge, Reasoning-Capabilities. Cost: $50M-$100M+ für Data-Collection + Curation (Deduplizierung, Toxicity-Filtering, PII-Removal). Example: GPT-4 Pre-Training-Data: ~13T tokens from Web-Crawl, Books-Corpus, Code-Repositories, Scientific-Papers (estimated composition: 60% Web-Text, 20% Books, 10% Code, 10% Research-Papers).

2. Fine-Tuning Data (Domain/Task-Specific-Training): Smaller, curated, labeled Datasets (1k-1M examples typical) → human-labeled or synthetic-generated. Purpose: Task-Specialization → adapt pre-trained model für specific Domain (Brand-Voice, Industry-Terminology, Task-Performance wie Classification/Extraction/Generation). Cost: $100-$50k+ depending on Volume + Labeling-Complexity ($0.10-$5 per example for human labeling, $0.001-$0.01 for synthetic). Example: B8 Brand-Voice-Fine-Tuning-Data: 500-2.000 Examples of on-brand content (Blog-Posts, Social-Posts, Email-Copy) → Claude-Fine-Tuning → 80-90% Approval-Rate vs. 50-60% without Fine-Tuning.

3. RLHF Data (Reinforcement-Learning-from-Human-Feedback): Human-Preference-Data (Comparisons, Rankings, Ratings) für Alignment-Training → improve Safety, Helpfulness, Instruction-Following. Purpose: Human-Alignment → steer model towards desired behaviors (avoid harmful-content, follow complex-instructions, provide helpful-responses). Cost: $100k-$1M+ for Labeler-Workforce (Thousands of human-raters evaluating 100k-1M+ model-outputs). Example: ChatGPT-RLHF-Data: ~100k human-labeled comparisons ("Response-A better than Response-B") → PPO-Training → reduces hallucinations by ~40%, improves instruction-following by ~60%.

Abgrenzung:
- Training-Data vs. Model-Training: Training-Data = INPUT (the raw material), Model-Training = PROCESS (the algorithm that uses Training-Data to update Model-Parameters). Training-Data is static, Model-Training is dynamic.
- Training-Data vs. Inference-Data: Training-Data = historical data used für Lernen (offline), Inference-Data = real-time input used für Predictions (online). Training happens once (or periodically), Inference happens millions+ times täglich.
- Training-Data vs. Test-Data: Training-Data = used für learning (Model sees it während Training), Test-Data = used für evaluation (Model NEVER sees it während Training, only für measuring Performance). Test-Data prevents Overfitting.
- Training-Data vs. Prompt-Engineering: Training-Data = changes Model-Weights (permanent, expensive), Prompt-Engineering = changes Model-Input (temporary, zero-cost). Training-Data für long-term behavior-changes, Prompts für per-request customization.

Kontext und Relevanz

B8-Kontext: AI Training Data ist foundational-concept für AI-Strategy-Consulting + Custom-AI-Development → 100% B8-AI-Projects consider Training-Data-Requirements. Typische-Use-Cases: (1) Brand-Voice-Fine-Tuning-Data-Collection → Client provides 500-2.000 Examples on-brand content → B8 curates + structures für Fine-Tuning → Custom-Brand-Voice-Model, (2) AI-Audit-Training-Data-Evaluation → B8 analyzes Client's Training-Data-Sources (Web-Scraping, CRM-Data, Product-Catalogs) für Quality-Issues (Bias, PII, Inconsistencies) → Recommendations für Data-Curation-Pipeline, (3) Synthetic-Training-Data-Generation → For Use-Cases where real Training-Data is scarce (New-Product-Categories, Rare-Languages) → B8 generates synthetic-examples via GPT-4/Claude → Augments Real-Data für Fine-Tuning.

Stefan Horn
Geschäftsführer und
Leiter Digitale Kommunikation
horn@beaufort8.de