YouTube 视频 → 音频 → 文字 → AI Skill：一套 2026 年仍可用的完整工程流程

背景#

YouTube 是当前互联网上质量最高的公开视频知识库之一，但要把它真正变成可用的 AI 能力，往往会遇到以下问题：

YouTube 反爬升级，匿名下载不稳定
Linux 下浏览器 Cookie 解密复杂
音频 / 字幕需要标准化
希望最终形成 可复用的 AI Skill / 知识模块

本文记录一套在 2025–2026 年仍然可用、稳定、工程化 的完整方案。

总体流程#

1
YouTube URL
2
   ↓
3
yt-dlp（带登录态）
4
   ↓
5
MP3 音频
6
   ↓
7
Whisper ASR
8
   ↓
9
文本 / 字幕
10
   ↓
11
Chunk / Embedding
12
   ↓
13
AI Skill / RAG

一、核心工具#

1. yt-dlp（YouTube 下载）#

youtube-dl 的增强版
支持最新 YouTube 反爬策略
支持 Cookie / JS runtime

安装：

1
pip install -U yt-dlp

2. ffmpeg（必备）#

yt-dlp 抽取音频、修复封装都依赖 ffmpeg。

1
sudo apt update
2
sudo apt install -y ffmpeg

验证：

1
ffmpeg -version
2
ffprobe -version

3. Whisper（音频转文字）#

本地 ASR，支持中英文，适合私有知识库。

1
pip install -U openai-whisper
2
sudo apt install -y ffmpeg

二、YouTube 下载的关键：登录态#

常见错误#

1
Sign in to confirm you’re not a bot

这是 YouTube 强制要求登录态的表现，不是 yt-dlp 的问题。

三、推荐下载方案#

方案 A：从浏览器直接读取 Cookie（桌面环境）#

前提：

本机有 GUI
Chrome / Chromium 已登录 YouTube
不要使用 sudo

1
yt-dlp   --cookies-from-browser chrome   -f ba   -x --audio-format mp3   https://www.youtube.com/watch?v=VIDEO_ID

1
python3 -m pip install -U secretstorage keyring cryptography
2
sudo apt install -y dbus-x11 gnome-keyring libsecret-1-0

方案 B（最稳）：cookies.txt（服务器 / 自动化推荐）#

浏览器安装 Get cookies.txt 扩展
登录 YouTube，导出 cookies.txt

使用：

1
yt-dlp   --cookies cookies.txt   -f ba   -x --audio-format mp3   https://www.youtube.com/watch?v=VIDEO_ID

四、JS Runtime（可选但推荐）#

解决以下 warning：

1
No supported JavaScript runtime could be found
2
n challenge solving failed

安装 deno：

1
curl -fsSL https://deno.land/install.sh | sh
2
export PATH="$HOME/.deno/bin:$PATH"

五、最佳实践：只下载音频#

1
yt-dlp   --cookies cookies.txt   -f ba   -x --audio-format mp3   https://www.youtube.com/watch?v=VIDEO_ID

六、Whisper 转文字#

中文 / 中英混合：

1
whisper *.mp3 --model medium --language zh

输出文件：

1
video.mp3
2
video.txt
3
video.srt
4
video.vtt

推荐模型：

模型	用途
base	快速测试
medium	准确率 / 性能平衡（推荐）
large	高准确率（慢）

七、构建 AI Skill（示例）#

文本切块示例#

1
def chunk_text(text, max_len=500):
2
    chunks = []
3
    cur = ""
4
    for line in text.split("\n"):
5
        if len(cur) + len(line) > max_len:
6
            chunks.append(cur)
7
            cur = line
8
        else:
9
            cur += line
10
    chunks.append(cur)
11
    return chunks

Skill 描述示例#

1
name: youtube_astock_skill
2
description: >
3
  Knowledge extracted from YouTube videos about A-share trading.
4
input:
5
  question: string
6
output:
7
  answer: string

八、一键流水线#

1
yt-dlp --cookies cookies.txt -f ba -x --audio-format mp3 $URL
2
whisper *.mp3 --model medium --language zh
3
python build_skill.py

总结#

2025+ 年 YouTube 匿名下载不稳定
Cookie 登录态是关键
ffmpeg 是必备组件
Whisper 非常适合私有知识库
该流程适用于：
- AI Agent
- MCP Tool
- RAG 知识库
- 投资 / 技术 / 课程 Skill

延伸方向#

多视频 → 单主题 Skill
自动同步 YouTube Playlist
Skill + 向量检索 + Tool Calling
LangChain / LangGraph / MCP 集成

Lovely Jacky!

In Finalized Morrow, I Full Bloom

YouTube 视频 → 音频 → 文字 → AI Skill：一套 2026 年仍可用的完整工程流程

背景#

总体流程#

一、核心工具#

1. yt-dlp（YouTube 下载）#

2. ffmpeg（必备）#

3. Whisper（音频转文字）#

二、YouTube 下载的关键：登录态#

常见错误#

三、推荐下载方案#

方案 A：从浏览器直接读取 Cookie（桌面环境）#

方案 B（最稳）：cookies.txt（服务器 / 自动化推荐）#

四、JS Runtime（可选但推荐）#

五、最佳实践：只下载音频#

六、Whisper 转文字#

七、构建 AI Skill（示例）#

推荐目录结构#

文本切块示例#

Skill 描述示例#

八、一键流水线#

总结#

延伸方向#

赞助支持

目录

Lovely Jacky!

In Finalized Morrow, I Full Bloom

YouTube 视频 → 音频 → 文字 → AI Skill：一套 2026 年仍可用的完整工程流程

背景#

总体流程#

一、核心工具#

1. yt-dlp（YouTube 下载）#

2. ffmpeg（必备）#

3. Whisper（音频转文字）#

二、YouTube 下载的关键：登录态#

常见错误#

三、推荐下载方案#

方案 A：从浏览器直接读取 Cookie（桌面环境）#

Linux 必要依赖（否则 Cookie 无法解密）#

方案 B（最稳）：cookies.txt（服务器 / 自动化推荐）#

四、JS Runtime（可选但推荐）#

五、最佳实践：只下载音频#

六、Whisper 转文字#

七、构建 AI Skill（示例）#

推荐目录结构#

文本切块示例#

Skill 描述示例#

八、一键流水线#

总结#

延伸方向#

赞助支持

目录