YouTube 音频下载 & 中文字幕生成（Ubuntu + pyenv + faster-whisper）完整指南#

适用场景：

YouTube 视频 没有任何字幕

需要 本地生成高质量中文字幕（SRT/TXT）

适合财经访谈、AI 分析语料整理

使用 Ubuntu + pyenv 管理 Python 多版本

一、系统环境要求#

1. 操作系统#

Ubuntu 20.04 / 22.04 / 24.04（已验证）

2. 必需系统软件包（APT）#

1
sudo apt update
2
sudo apt install -y   ffmpeg   git   curl   wget   ca-certificates   build-essential   pkg-config   libssl-dev   zlib1g-dev   libbz2-dev   libreadline-dev   libsqlite3-dev   llvm   libncursesw5-dev   xz-utils   tk-dev   libxml2-dev   libxmlsec1-dev   libffi-dev   liblzma-dev

说明：

ffmpeg：音频解码（必须）
其余依赖：用于 pyenv / Python 编译

二、Python 环境（pyenv）#

1. 使用 pyenv（你当前就是这个方案）#

示例：

1
pyenv install 3.10.14
2
pyenv local 3.10.14

确认 Python 来自 pyenv：

1
which python

三、Python 必需包#

1. faster-whisper（核心）#

1
pip install faster-whisper

说明：

本地 Whisper 推理（无需联网）

支持 CPU / GPU

large-v3 对中文财经口语最稳

（可选）其他常用包#

1
pip install torch numpy

注：CPU 场景不是必须，GPU（如 4090）才需要关注 torch CUDA 版本

四、yt-dlp（YouTube 下载工具）#

1. 安装#

1
sudo apt install yt-dlp

或（最新版）：

1
pip install -U yt-dlp

2. 必须参数（重点）#

由于 YouTube 反爬机制，强烈建议始终使用：

浏览器 Cookie
EJS 远程组件

1
--cookies-from-browser chrome
2
--remote-components ejs:github

浏览器需关闭，否则 Cookie 可能被锁

五、音频下载（只下音频，不下视频）#

1. 推荐格式（m4a，ID=140）#

1
yt-dlp --cookies-from-browser chrome --remote-components ejs:github   -f 140   -x --audio-format m4a   https://www.youtube.com/watch?v=VIDEO_ID

2. 自动兜底选择（更稳）#

1
yt-dlp --cookies-from-browser chrome --remote-components ejs:github   -f "140/bestaudio[ext=m4a]/bestaudio[ext=webm]/bestaudio/best"   -x --audio-format m4a   https://www.youtube.com/watch?v=VIDEO_ID

六、生成中文字幕（faster-whisper）#

1. 单文件转写（示例脚本）#

1
from faster_whisper import WhisperModel
2
import os
3

4
audio = "example.m4a"
5
base = os.path.splitext(audio)[0]
6

7
model = WhisperModel(
8
    "large-v3",
9
    device="cpu",      # 有 GPU 可改为 "cuda"
10
    compute_type="int8"
11
)
12

13
segments, info = model.transcribe(
14
    audio,
15
    language="zh",
16
    beam_size=5,
17
    vad_filter=True
18
)
19

20
def ts(t):
21
    h = int(t // 3600)
22
    m = int((t % 3600) // 60)
23
    s = t % 60
24
    return f"{h:02d}:{m:02d}:{s:06.3f}".replace(".", ",")
25

26
with open(base + ".zh.srt", "w", encoding="utf-8") as f:
27
    i = 1
28
    for seg in segments:
29
        text = seg.text.strip()
30
        if not text:
31
            continue
32
        f.write(f"{i}\n{ts(seg.start)} --> {ts(seg.end)}\n{text}\n\n")
33
        i += 1

输出文件：

xxx.zh.srt（字幕）
可额外输出 xxx.zh.txt 作为纯文本

七、一键脚本（yt_asr.sh）说明#

功能#

输入：YouTube URL 或本地音频文件
自动完成：
1. 下载音频（m4a）
2. 生成中文字幕（SRT + TXT）
兼容：pyenv / CPU / GPU

关键注意点（你踩过的坑）#

Bash 函数返回值必须干净
download_audio()：
- 日志必须输出到 stderr
- stdout 只能输出最终音频路径

否则会导致：

1
❌ Audio not found: ⬇️ Downloading audio ...

正确做法：

echo xxx >&2

yt-dlp ... >&2

printf '%s\n' "$audio_path"

八、常见问题速查#

Q1：YouTube 显示“无字幕”？#

A：只能自己跑 ASR，yt-dlp 无解

Q2：bestaudio 报错？#

A：先 --list-formats，选 140

Q3：YouTube 提示 bot 校验？#

A：

1
--cookies-from-browser chrome
2
--remote-components ejs:github

Q4：中文财经口语不准？#

A：

用 large-v3
开 vad_filter=True

九、推荐目录结构#

1
YoutubeLearnAStock/
2
├── yt_asr.sh
3
├── out/
4
│   ├── *.m4a
5
│   ├── *.zh.srt
6
│   ├── *.zh.txt
7
│   └── logs/
8
└── README.md

十、你现在拥有的能力#

✅ 不依赖 YouTube 字幕
✅ 可批量生成高质量中文字幕
✅ 可直接用于：
- A 股访谈复盘
- AI 分析 / RAG
- 长期语料积累

这是 专业级工作流，不是“下载字幕小技巧”。

十一、脚本#

一键执行脚本:

1
#!/usr/bin/env bash
2
# yt_asr.sh - Final version + urls.txt batch mode
3
# Supports:
4
#   1) URLs / local audio files as args
5
#   2) --urls-file urls.txt  (one URL per line)
6
# Robust for Ubuntu + pyenv + faster-whisper
7

8
set -euo pipefail
9

10
# -----------------------------
11
# Defaults
12
# -----------------------------
13
OUTDIR="${OUTDIR:-./out}"
14
ASR_LANG="${ASR_LANG:-zh}"          # zh / en / ja / ...
15
MODEL="${MODEL:-large-v3}"
16
DEVICE="${DEVICE:-cpu}"             # cpu | cuda
17
COMPUTE="${COMPUTE:-int8}"
18
BROWSER="${BROWSER:-chrome}"
19
USE_COOKIES="${USE_COOKIES:-1}"
20
USE_REMOTE_COMPONENTS="${USE_REMOTE_COMPONENTS:-1}"
21
KEEP_AUDIO="${KEEP_AUDIO:-1}"
22
FORMAT_SELECT="${FORMAT_SELECT:-140/bestaudio[ext=m4a]/bestaudio[ext=webm]/bestaudio/best}"
23
AUDIO_FORMAT="${AUDIO_FORMAT:-m4a}"
24
VAD_FILTER="${VAD_FILTER:-1}"
25

26
URLS_FILE=""
27

28
# -----------------------------
29
# Helpers
30
# -----------------------------
31
die() { echo "❌ $*" >&2; exit 1; }
32
log() { echo "👉 $*" >&2; }
33

34
need_cmd() { command -v "$1" >/dev/null 2>&1 || die "Missing command: $1"; }
35

36
ensure_python_pkg() {
37
  local mod="$1"
38
  local pkg="${2:-$1}"
39
  log "🔎 python: $(command -v python)"
40
  if python - <<PY >/dev/null 2>&1
41
import importlib.util, sys
42
sys.exit(0 if importlib.util.find_spec("$mod") else 1)
43
PY
44
  then
45
    log "✅ Python package OK: $mod"
46
  else
47
    log "⬇️  Installing Python package: $pkg"
48
    python -m pip install -U "$pkg"
49
  fi
50
}
51

52
is_url() { [[ "$1" =~ ^https?:// ]]; }
53

54
build_ytdlp_args() {
55
  local -a a=()
56
  [[ "$USE_COOKIES" == "1" ]] && a+=(--cookies-from-browser "$BROWSER")
57
  [[ "$USE_REMOTE_COMPONENTS" == "1" ]] && a+=(--remote-components ejs:github)
58
  printf '%s\0' "${a[@]}"
59
}
60

61
download_audio() {
62
  local input="$1" outdir="$2" logf="$3"
63
  mkdir -p "$outdir"
64

65
  local -a ytdlp=()
66
  while IFS= read -r -d '' x; do ytdlp+=("$x"); done < <(build_ytdlp_args)
67

68
  local tmpl="$outdir/%(title).200B [%(id)s].%(ext)s"
69
  log "⬇️  Downloading audio: $input"
70

71
  local filepath
72
  filepath="$(
73
    yt-dlp "${ytdlp[@]}" \
74
      -f "$FORMAT_SELECT" \
75
      -x --audio-format "$AUDIO_FORMAT" \
76
      -o "$tmpl" \
77
      --print after_move:filepath \
78
      "$input" \
79
      2>>"$logf"
80
  )" || die "yt-dlp failed: $input"
81

82
  filepath="$(printf '%s\n' "$filepath" | sed '/^[[:space:]]*$/d' | tail -n 1)"
83
  [[ -f "$filepath" ]] || die "Audio not found after download: $filepath"
84
  printf '%s\n' "$filepath"
85
}
86

87
transcribe_audio() {
88
  local audio="$1" lang="$2" model="$3" device="$4" compute="$5" vad="$6" logf="$7"
89
  [[ -f "$audio" ]] || die "Audio not found: $audio"
90

91
  local base="${audio%.*}"
92
  local srt="${base}.${lang}.srt"
93
  local txt="${base}.${lang}.txt"
94
  local json="${base}.${lang}.json"
95
  local tsv="${base}.${lang}.tsv"
96

97
  log "🧠 Transcribing: $audio"
98
  python - "$audio" "$lang" "$model" "$device" "$compute" "$vad" \
99
    "$srt" "$txt" "$json" "$tsv" >>"$logf" 2>&1 << 'PY'
100
import sys, json, os
101
from faster_whisper import WhisperModel
102

103
audio, lang, model_name, device, compute, vad, srt_p, txt_p, json_p, tsv_p = sys.argv[1:]
104
vad = vad == "1"
105

106
model = WhisperModel(model_name, device=device, compute_type=compute)
107
segments, info = model.transcribe(audio, language=lang, beam_size=5, vad_filter=vad)
108

109
def ts(t):
110
    h=int(t//3600); m=int((t%3600)//60); s=t%60
111
    return f"{h:02d}:{m:02d}:{s:06.3f}".replace(".", ",")
112

113
rows=[]
114
with open(srt_p,"w",encoding="utf-8") as srt, open(txt_p,"w",encoding="utf-8") as txt:
115
    i=1
116
    for seg in segments:
117
        text=(seg.text or "").strip()
118
        if not text: continue
119
        srt.write(f"{i}\n{ts(seg.start)} --> {ts(seg.end)}\n{text}\n\n")
120
        txt.write(text+"\n")
121
        rows.append({"i":i,"start":float(seg.start),"end":float(seg.end),"text":text})
122
        i+=1
123

124
with open(json_p,"w",encoding="utf-8") as f:
125
    json.dump({"audio":os.path.basename(audio),"lang":lang,"segments":rows},f,ensure_ascii=False,indent=2)
126

127
with open(tsv_p,"w",encoding="utf-8") as f:
128
    f.write("i\tstart\tend\ttext\n")
129
    for r in rows:
130
        f.write(f"{r['i']}\t{r['start']:.3f}\t{r['end']:.3f}\t{r['text']}\n")
131
PY
132
}
133

134
usage() {
135
  cat <<'USAGE'
136
Usage:
137
  ./yt_asr.sh [options] <url_or_audio> [more...]
138
  ./yt_asr.sh --urls-file urls.txt
139

140
Options:
141
  --urls-file FILE       Read URLs from file (one per line, # for comments)
142
  -o, --outdir DIR
143
  --lang LANG            zh / en / ja (default: zh)
144
  --model MODEL
145
  --device cpu|cuda
146
  --compute TYPE
147
  --browser NAME
148
  --no-cookies
149
  --no-remote-components
150
  --keep-audio | --no-keep-audio
151
  --no-vad
152
  -h, --help
153
USAGE
154
}
155

156
# -----------------------------
157
# Parse args
158
# -----------------------------
159
ARGS=()
160
while [[ $# -gt 0 ]]; do
161
  case "$1" in
162
    --urls-file) URLS_FILE="$2"; shift 2;;
163
    -o|--outdir) OUTDIR="$2"; shift 2;;
164
    --lang) ASR_LANG="$2"; shift 2;;
165
    --model) MODEL="$2"; shift 2;;
166
    --device) DEVICE="$2"; shift 2;;
167
    --compute) COMPUTE="$2"; shift 2;;
168
    --browser) BROWSER="$2"; shift 2;;
169
    --no-cookies) USE_COOKIES=0; shift;;
170
    --no-remote-components) USE_REMOTE_COMPONENTS=0; shift;;
171
    --keep-audio) KEEP_AUDIO=1; shift;;
172
    --no-keep-audio) KEEP_AUDIO=0; shift;;
173
    --no-vad) VAD_FILTER=0; shift;;
174
    -h|--help) usage; exit 0;;
175
    *) ARGS+=("$1"); shift;;
176
  esac
177
done
178

179
# -----------------------------
180
# Preflight
181
# -----------------------------
182
need_cmd yt-dlp
183
need_cmd ffmpeg
184
need_cmd python
185
ensure_python_pkg faster_whisper faster-whisper
186

187
mkdir -p "$OUTDIR" "$OUTDIR/logs"
188

189
# -----------------------------
190
# Collect inputs
191
# -----------------------------
192
ITEMS=()
193

194
if [[ -n "$URLS_FILE" ]]; then
195
  [[ -f "$URLS_FILE" ]] || die "urls file not found: $URLS_FILE"
196
  while IFS= read -r line; do
197
    line="$(echo "$line" | sed 's/#.*//g' | xargs)"
198
    [[ -z "$line" ]] && continue
199
    ITEMS+=("$line")
200
  done < "$URLS_FILE"
201
fi
202

203
ITEMS+=("${ARGS[@]}")
204
[[ ${#ITEMS[@]} -ge 1 ]] || { usage; exit 1; }
205

206
# -----------------------------
207
# Main loop
208
# -----------------------------
209
for item in "${ITEMS[@]}"; do
210
  echo "============================================================" >&2
211
  log "INPUT: $item"
212

213
  safe_id="$(echo "$item" | sed 's#[^A-Za-z0-9._-]#_#g' | cut -c1-80)"
214
  ts="$(date +%Y%m%d_%H%M%S)"
215
  logf="$OUTDIR/logs/${ts}_${safe_id}.log"
216
  : > "$logf"
217

218
  audio=""
219
  downloaded=0
220

221
  if is_url "$item"; then
222
    audio="$(download_audio "$item" "$OUTDIR" "$logf")"
223
    downloaded=1
224
  else
225
    [[ -f "$item" ]] || die "Not a URL or file: $item"
226
    audio="$item"
227
  fi
228

229
  transcribe_audio "$audio" "$ASR_LANG" "$MODEL" "$DEVICE" "$COMPUTE" "$VAD_FILTER" "$logf"
230

231
  if [[ "$downloaded" == "1" && "$KEEP_AUDIO" == "0" ]]; then
232
    rm -f -- "$audio"
233
  fi
234

235
  log "📝 Log saved: $logf"
236
done
237

238
log "🎉 All done."

十、查看视频信息#

查看视频可以使用的信息:

1
yt-dlp --cookies-from-browser chrome --remote-components ejs:github --list-formats https://www.youtube.com/watch?v=XZP-LbYj8SA

结果:

1
android@HelloKitty:/data/mycodes/YoutubeLearnAStock$ yt-dlp --cookies-from-browser chrome --remote-components ejs:github --list-formats https://www.youtube.com/watch?v=XZP-LbYj8SA
2
Extracting cookies from chrome
3
Extracted 2337 cookies from chrome
4
[youtube] Extracting URL: https://www.youtube.com/watch?v=XZP-LbYj8SA
5
[youtube] XZP-LbYj8SA: Downloading webpage
6
[youtube] XZP-LbYj8SA: Downloading tv downgraded player API JSON
7
[youtube] XZP-LbYj8SA: Downloading web safari player API JSON
8
[youtube] XZP-LbYj8SA: Downloading player b95b0e7a-main
9
[youtube] [jsc:deno] Solving JS challenges using deno
10
[youtube] [jsc:deno] Downloading challenge solver lib script from  https://github.com/yt-dlp/ejs/releases/download/0.3.2/yt.solver.lib.min.js
11
[youtube] XZP-LbYj8SA: Downloading m3u8 information
12
[info] Available formats for XZP-LbYj8SA:
13
ID      EXT   RESOLUTION FPS CH │   FILESIZE   TBR PROTO │ VCODEC         VBR ACODEC      ABR ASR MORE INFO
14
────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
15
sb2     mhtml 20x45        0    │                  mhtml │ images                                 storyboard
16
sb3     mhtml 48x27        0    │                  mhtml │ images                                 storyboard
17
sb1     mhtml 41x90        0    │                  mhtml │ images                                 storyboard
18
sb0     mhtml 82x180       0    │                  mhtml │ images                                 storyboard
19
249-drc webm  audio only      2 │   10.35MiB   51k https │ audio only         opus        51k 48k low, DRC, webm_dash
20
250-drc webm  audio only      2 │   13.75MiB   68k https │ audio only         opus        68k 48k low, DRC, webm_dash
21
249     webm  audio only      2 │   10.36MiB   51k https │ audio only         opus        51k 48k low, webm_dash
22
250     webm  audio only      2 │   13.72MiB   68k https │ audio only         opus        68k 48k low, webm_dash
23
140-drc m4a   audio only      2 │   26.26MiB  129k https │ audio only         mp4a.40.2  129k 44k medium, DRC, m4a_dash
24
251-drc webm  audio only      2 │   24.60MiB  121k https │ audio only         opus       121k 48k medium, DRC, webm_dash
25
140     m4a   audio only      2 │   26.26MiB  129k https │ audio only         mp4a.40.2  129k 44k medium, m4a_dash
26
251     webm  audio only      2 │   24.57MiB  121k https │ audio only         opus       121k 48k medium, webm_dash
27
91      mp4   128x256     30    │ ~ 24.86MiB  123k m3u8  │ avc1.4D400C        mp4a.40.5
28
160     mp4   128x256     30    │    8.15MiB   40k https │ avc1.4d400c    40k video only          144p, mp4_dash
29
278     webm  128x256     30    │   13.86MiB   68k https │ vp9            68k video only          144p, webm_dash
30
394     mp4   128x256     30    │   10.49MiB   52k https │ av01.0.00M.08  52k video only          144p, mp4_dash
31
92      mp4   196x426     30    │ ~ 38.13MiB  188k m3u8  │ avc1.4D400D        mp4a.40.5
32
133     mp4   196x426     30    │   16.17MiB   80k https │ avc1.4d400d    80k video only          240p, mp4_dash
33
242     webm  196x426     30    │   18.19MiB   90k https │ vp9            90k video only          240p, webm_dash
34
395     mp4   196x426     30    │   17.92MiB   88k https │ av01.0.00M.08  88k video only          240p, mp4_dash
35
93      mp4   294x640     30    │ ~ 73.21MiB  361k m3u8  │ avc1.4D401E        mp4a.40.2
36
134     mp4   294x640     30    │   37.74MiB  186k https │ avc1.4d401e   186k video only          360p, mp4_dash
37
18      mp4   294x640     30  2 │ ≈ 63.95MiB  315k https │ avc1.42001E        mp4a.40.2       44k 360p
38
243     webm  294x640     30    │   28.74MiB  142k https │ vp9           142k video only          360p, webm_dash
39
396     mp4   294x640     30    │   32.05MiB  158k https │ av01.0.01M.08 158k video only          360p, mp4_dash
40
94      mp4   394x854     30    │ ~116.32MiB  574k m3u8  │ avc1.4D401E        mp4a.40.2
41
135     mp4   394x854     30    │   74.97MiB  370k https │ avc1.4d401e   370k video only          480p, mp4_dash
42
244     webm  394x854     30    │   40.40MiB  199k https │ vp9           199k video only          480p, webm_dash
43
397     mp4   394x854     30    │   46.73MiB  230k https │ av01.0.04M.08 230k video only          480p, mp4_dash
44
95      mp4   590x1280    30    │ ~209.47MiB 1033k m3u8  │ avc1.4D401F        mp4a.40.2
45
136     mp4   590x1280    30    │  164.49MiB  811k https │ avc1.4d401f   811k video only          720p, mp4_dash
46
247     webm  590x1280    30    │   63.96MiB  315k https │ vp9           315k video only          720p, webm_dash
47
398     mp4   590x1280    30    │   77.00MiB  380k https │ av01.0.05M.08 380k video only          720p, mp4_dash

Lovely Jacky!

From Shattered Sky, I Free Fall

YouTube 音频下载 & 中文字幕生成（Ubuntu + pyenv + faster-whisper）完整指南

YouTube 音频下载 & 中文字幕生成（Ubuntu + pyenv + faster-whisper）完整指南#

一、系统环境要求#

1. 操作系统#

2. 必需系统软件包（APT）#

二、Python 环境（pyenv）#

1. 使用 pyenv（你当前就是这个方案）#

三、Python 必需包#

1. faster-whisper（核心）#

（可选）其他常用包#

四、yt-dlp（YouTube 下载工具）#

1. 安装#

2. 必须参数（重点）#

五、音频下载（只下音频，不下视频）#

1. 推荐格式（m4a，ID=140）#

2. 自动兜底选择（更稳）#

六、生成中文字幕（faster-whisper）#

1. 单文件转写（示例脚本）#

七、一键脚本（yt_asr.sh）说明#

功能#

关键注意点（你踩过的坑）#

八、常见问题速查#

Q1：YouTube 显示“无字幕”？#

Q2：bestaudio 报错？#

Q3：YouTube 提示 bot 校验？#

Q4：中文财经口语不准？#

九、推荐目录结构#

十、你现在拥有的能力#

十一、脚本#

十、查看视频信息#

赞助支持

目录