Foundations

Reinforcement Learning

RL algorithms, reward modelling, RLHF, policy gradients, Q-learning and multi-agent RL

831

lessons

Skills in this topic

3 skills — Sign in to track your progress

View full skill map →

Formalise a problem as an MDP

Policy Gradient Methods

Implement REINFORCE from scratch

RLHF & Alignment

Describe the RLHF pipeline end-to-end

Videos 639 Reads 192

Level: All Beginner Intermediate Advanced

Any Length Short (<5m) Medium (5-20m) Long (>20m)

Newest Popular Oldest

RLHF: Reinforcement Learning from Human Feedback - An explainer for Humans - AI Tasks/Annotators

Reinforcement Learning ⚡ AI Lesson

RLHF: Reinforcement Learning from Human Feedback - An explainer for Humans - AI Tasks/Annotators

TheCatWith7Legs Beginner 6mo ago

Understanding Reinforcement Learning from Human Feedback (RLHF)

Reinforcement Learning ⚡ AI Lesson

Understanding Reinforcement Learning from Human Feedback (RLHF)

Victor Leung Beginner 1y ago

Reinforcement Learning from Human Feedback (RLHF) - Beginners Guide | AI Foundation Learning

Reinforcement Learning ⚡ AI Lesson

Reinforcement Learning from Human Feedback (RLHF) - Beginners Guide | AI Foundation Learning

AI Foundation Learning Beginner 1y ago

Reinforcement Learning from Human Feedback (Natural Language Processing at UT Austin)

Reinforcement Learning ⚡ AI Lesson

Reinforcement Learning from Human Feedback (Natural Language Processing at UT Austin)

Greg Durrett Beginner 2y ago

📚 Continue on Coursera External links · Free to audit

View all →

Introduction to Learning

📚 External: Coursera ↗

Introduction to Learning

Opens on Coursera ↗

Overview of Advanced Methods of Reinforcement Learning in Finance

📚 External: Coursera ↗

Overview of Advanced Methods of Reinforcement Learning in Finance

Opens on Coursera ↗

Creating a Team Culture of Continuous Learning

📚 External: Coursera ↗

Creating a Team Culture of Continuous Learning

Opens on Coursera ↗

📚 External: Coursera ↗

Generative AI Advance Fine-Tuning for LLMs

Opens on Coursera ↗

Optimizing Diversity on Teams

📚 External: Coursera ↗

Optimizing Diversity on Teams

Opens on Coursera ↗

📚 External: Coursera ↗

Aléatoire : une introduction aux probabilités - Partie 1

Opens on Coursera ↗

📚 External: Coursera ↗

Opens on Coursera ↗

📚 External: Coursera ↗

Designing Larger Python Programs for Data Science

Opens on Coursera ↗

📚 External: Coursera ↗

Welcome to Munich

Opens on Coursera ↗

Fundamental of Reinforcement Training

📚 External: Coursera ↗

Fundamental of Reinforcement Training

Opens on Coursera ↗

Advanced Deep RL Algorithms and Applications

📚 External: Coursera ↗

Advanced Deep RL Algorithms and Applications

Opens on Coursera ↗

📚 External: Coursera ↗

Value-Based Care: Organizational Competencies

Opens on Coursera ↗

📚 External: Coursera ↗

Opens on Coursera ↗

Study Skills for University Success

📚 External: Coursera ↗

Study Skills for University Success

Opens on Coursera ↗

Decision Making and Reinforcement Learning

📚 External: Coursera ↗

Decision Making and Reinforcement Learning

Opens on Coursera ↗

How to Get Into Software Development

📚 External: Coursera ↗

How to Get Into Software Development

Opens on Coursera ↗

Sample-based Learning Methods

📚 External: Coursera ↗

Sample-based Learning Methods

Opens on Coursera ↗

📚 External: Coursera ↗

Algorithms, Data Collection, and Starting to Code

Opens on Coursera ↗