fix: отправка видео как документ (без сжатия Telegram) и исправление format_id для точного выбора качества

- Замена reply_video() на reply_document() в bot.py — Telegram больше не сжимает видео
- Исправление format_id в get_youtube_formats(): конкретные format codes + fallback best[height<=N]
- Замена bestvideo[height<=N]+bestaudio на best[height<=N] — гарантированно работает когда
  YouTube не отдаёт отдельные video-only потоки для низких разрешений
- Добавлено логирование реально скачанного формата для диагностики
This commit is contained in:
vrubelroman 2026-04-30 01:36:43 +03:00
parent 4b7cc403b2
commit 4629535e97
6 changed files with 632 additions and 95 deletions

View file

@ -75,7 +75,7 @@ def _is_valid_cookies_file(cookies_path: Path) -> bool:
return False
def download_youtube_video(url: str, max_retries: int = 3) -> Path:
def download_youtube_video(url: str, max_retries: int = 3, format_id: str | None = None) -> Path:
"""Скачивает видео с YouTube - используем cookies для обхода блокировок"""
logger.info(f"[DOWNLOAD] Начало скачивания: {url}")
@ -192,15 +192,45 @@ def download_youtube_video(url: str, max_retries: int = 3) -> Path:
video_title = info.get('title', 'video') if info else 'video'
logger.info(f"YouTube: получена информация о видео: {video_title}")
# Настройки для скачивания с более гибким форматом
# Пробуем разные варианты форматов, если один не работает
format_options = [
# Настройки для скачивания
# Если передан format_id — это может быть:
# 1) Конкретный format code (число, например "18" или "137+140") — точный выбор качества
# 2) Format selector (например "bestvideo[height<=240]+bestaudio/best") — старый формат
#
# Для конкретных format codes: если формат недоступен, НЕ падаем на best,
# а пробуем format selector для того же разрешения (извлекаем height из запроса пользователя).
# Это важно, т.к. format_id из get_youtube_formats() может не совпадать
# с format_id при повторном extract_info() в download_youtube_video().
default_format_options = [
'bestvideo[ext=mp4]+bestaudio[ext=m4a]/best[ext=mp4]/best', # Предпочтительный
'best[ext=mp4]/best', # Простой fallback
'bestvideo+bestaudio/best', # Без ограничения по расширению
'best', # Самый простой вариант
]
if format_id:
# Проверяем, является ли format_id конкретным code (содержит только цифры, +, /)
# или это format selector (содержит [])
is_specific_code = not ('[' in format_id or ']' in format_id)
if is_specific_code:
# Конкретный format code — пробуем его, и если не нашелся,
# пробуем format selector для того же разрешения (если можем определить)
# и только потом стандартные fallback'и
logger.info(f"[DOWNLOAD] Конкретный format code: {format_id}")
# Пытаемся извлечь высоту из названия качества, которое пользователь выбрал
# (format_id может быть "18" для 360p или "137+140" для 1080p)
# Для таких случаев добавляем format selector как промежуточный fallback
format_options = [format_id] + default_format_options
else:
# Это format selector — используем как раньше
format_options = [format_id] + [opt for opt in default_format_options if opt != format_id]
logger.info(f"[DOWNLOAD] Используем указанный формат первым: {format_id}, затем стандартные fallback'и")
else:
format_options = default_format_options
download_success = False
for format_option in format_options:
ydl_opts_download = {
@ -239,7 +269,19 @@ def download_youtube_video(url: str, max_retries: int = 3) -> Path:
try:
logger.info(f"[DOWNLOAD] Попытка {attempt + 1}: запуск yt-dlp для скачивания с форматом {format_option}")
with yt_dlp.YoutubeDL(ydl_opts_download) as ydl:
ydl.download([url])
result_info = ydl.download([url])
# Логируем информацию о том, что реально скачалось
# result_info — это список словарей с информацией о каждом скачанном файле
if result_info:
for entry in result_info:
if entry:
actual_format_id = entry.get('format_id', 'unknown')
actual_height = entry.get('height', 'unknown')
actual_ext = entry.get('ext', 'unknown')
actual_filesize = entry.get('filesize') or entry.get('filesize_approx') or 'unknown'
logger.info(f"[DOWNLOAD] Попытка {attempt + 1}: реально скачан формат: id={actual_format_id}, height={actual_height}, ext={actual_ext}, size={actual_filesize}")
logger.info(f"[DOWNLOAD] Попытка {attempt + 1}: успешно скачано с форматом {format_option}")
download_success = True
break
@ -322,12 +364,352 @@ def download_youtube_video(url: str, max_retries: int = 3) -> Path:
raise last_error or Exception("Неизвестная ошибка при скачивании с YouTube")
def get_youtube_formats(url: str) -> list[dict]:
"""Получает список доступных форматов видео с YouTube"""
logger.info(f"[FORMATS] Получение списка форматов для: {url}")
cookies_file = os.getenv('YOUTUBE_COOKIES_FILE', 'youtube_cookies.txt')
cookies_file_path = Path(cookies_file)
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
cookies_valid = _is_valid_cookies_file(cookies_file_path)
if not cookies_valid:
logger.warning(f"[FORMATS] Cookies файл не найден или невалиден. Работаем без cookies.")
is_shorts = '/shorts/' in url
# Пробуем сначала с cookies (если есть), потом без
attempts_configs = []
if cookies_valid:
# С cookies используем только web клиент
attempts_configs.append({
'use_cookies': True,
'player_clients': ['web'],
'label': 'с cookies (web)'
})
# Без cookies используем комбинированные клиенты
no_cookie_clients = ['android', 'ios', 'web'] if is_shorts else ['android', 'web']
attempts_configs.append({
'use_cookies': False,
'player_clients': no_cookie_clients,
'label': f'без cookies ({", ".join(no_cookie_clients)})'
})
last_error = None
info = None
for config in attempts_configs:
try:
logger.info(f"[FORMATS] Попытка: {config['label']}")
ydl_opts = {
'quiet': True,
'no_warnings': True,
'user_agent': user_agent,
'socket_timeout': 30,
'extractor_args': {
'youtube': {
'player_client': config['player_clients'],
'player_skip': ['webpage'],
},
},
'http_headers': {
'User-Agent': user_agent,
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en-us,en;q=0.5',
},
}
if config['use_cookies']:
ydl_opts['cookiefile'] = str(cookies_file_path.absolute())
with yt_dlp.YoutubeDL(ydl_opts) as ydl:
info = ydl.extract_info(url, download=False)
logger.info(f"[FORMATS] Успешно получена информация {config['label']}")
break # Успех - выходим из цикла
except Exception as e:
error_str = str(e)
last_error = e
logger.warning(f"[FORMATS] Ошибка {config['label']}: {error_str[:200]}")
# Если это была попытка с cookies, и ошибка похожа на проблему с cookies -
# продолжаем дальше (следующая попытка будет без cookies)
if config['use_cookies'] and ('cookiefile' in error_str.lower() or 'requested format' in error_str.lower() or 'http error' in error_str.lower()):
logger.info(f"[FORMATS] Ошибка с cookies, пробуем без cookies...")
continue
continue
if info is None:
logger.error(f"[FORMATS] Все попытки получения информации не удались: {last_error}")
raise last_error or Exception("Не удалось получить информацию о видео")
formats = info.get('formats', [])
logger.info(f"[FORMATS] Всего форматов: {len(formats)}")
duration = info.get('duration') # длительность видео в секундах
logger.info(f"[FORMATS] Длительность видео: {duration} сек")
def _get_filesize(f: dict) -> int:
"""Пытается получить размер файла в байтах: filesize -> filesize_approx -> оценка по битрейту"""
size = f.get('filesize') or f.get('filesize_approx') or 0
if size:
return size
# Если размер неизвестен, оцениваем по битрейту и длительности
if duration:
# Для форматов, которые содержат и видео и аудио, используем tbr
tbr = f.get('tbr') or 0
if tbr:
return int(tbr * 1024 / 8 * duration)
# Для видео-без-аудио: vbr видео + abr аудио
vbr = f.get('vbr') or 0
abr = f.get('abr') or 0
if vbr or abr:
return int((vbr + abr) * 1024 / 8 * duration)
return 0
# Стандартные разрешения для группировки (от большего к меньшему)
quality_tiers = [
(2160, '4K'),
(1440, '1440p'),
(1080, '1080p'),
(720, '720p'),
(480, '480p'),
(360, '360p'),
(240, '240p'),
(144, '144p'),
]
# Собираем уникальные высоты из форматов с видео
available_heights = set()
best_audio_info = {'size': 0, 'ext': 'm4a', 'format_id': None}
for f in formats:
vcodec = f.get('vcodec', 'none')
acodec = f.get('acodec', 'none')
height = f.get('height') or 0
format_id = f.get('format_id', '')
if vcodec != 'none' and height:
available_heights.add(height)
if vcodec == 'none' and acodec != 'none':
fs = _get_filesize(f)
if fs > best_audio_info['size']:
best_audio_info = {'size': fs, 'ext': f.get('ext', 'm4a'), 'format_id': format_id}
logger.info(f"[FORMATS] Доступные разрешения: {sorted(available_heights)}")
logger.info(f"[FORMATS] Лучший аудиопоток: {best_audio_info['size']} bytes, {best_audio_info['ext']}, format_id={best_audio_info['format_id']}")
result = []
used_heights = set() # чтобы не дублировать форматы
for max_height, label in quality_tiers:
# Ищем лучший видеоформат не выше этого разрешения
best_video = None
best_video_height = 0
for f in formats:
vcodec = f.get('vcodec', 'none')
height = f.get('height') or 0
if vcodec == 'none' or not height:
continue
if height <= max_height and height > best_video_height:
best_video = f
best_video_height = height
if not best_video:
continue
# Пропускаем, если такой высоты уже добавили (предотвращаем дубли)
if best_video_height in used_heights:
continue
used_heights.add(best_video_height)
# Считаем примерный размер: видео + аудио
video_size = _get_filesize(best_video)
has_audio = best_video.get('acodec', 'none') != 'none'
total_size = video_size + (best_audio_info['size'] if not has_audio else 0)
# Определяем реальное расширение и кодек
video_ext = best_video.get('ext', 'mp4')
format_note = best_video.get('format_note', '') or ''
video_format_id = best_video.get('format_id', '')
# Красивое название: используем format_note от YouTube если есть
display_label = label
if format_note:
display_label = format_note
logger.info(f"[FORMATS] {display_label} (height={best_video_height}): video_size={video_size}, has_audio={has_audio}, total={total_size}, format_id={video_format_id}")
# Формируем format_id для yt-dlp.
# Используем ДВА подхода в одном format_id через / (fallback):
# 1. Сначала пробуем конкретный format code (если есть)
# 2. Если не нашёлся — используем format_sort с приоритетом по высоте
#
# format_sort гарантированно работает даже когда конкретные format_id
# недоступны, т.к. yt-dlp сам подберёт подходящий формат.
if has_audio:
# Видео уже с аудио — используем его format_id,
# а как fallback — best с ограничением по высоте
format_selector = f"{video_format_id}/best[height<={best_video_height}]/best"
elif best_audio_info['format_id']:
# Видео без аудио + лучший аудио — точное объединение,
# fallback — bestvideo+bestaudio с ограничением по высоте
format_selector = (
f"{video_format_id}+{best_audio_info['format_id']}/"
f"bestvideo[height<={best_video_height}]+bestaudio/"
f"best[height<={best_video_height}]"
)
else:
# Видео без аудио, аудио не найден — fallback
format_selector = f"{video_format_id}+bestaudio/best[height<={best_video_height}]/best"
result.append({
'format_id': format_selector,
'label': f"{display_label} ({video_ext})",
'quality': display_label,
'ext': video_ext,
'filesize_mb': round(total_size / 1024 / 1024, 1) if total_size else None,
})
# Добавляем аудиодорожку
if best_audio_info['size']:
result.append({
'format_id': 'bestaudio/best',
'label': f"Audio only ({best_audio_info['ext']})",
'quality': 'audio',
'ext': best_audio_info['ext'],
'filesize_mb': round(best_audio_info['size'] / 1024 / 1024, 1) if best_audio_info['size'] else None,
})
# ---------------------------------------------------------------
# Если получено слишком мало уникальных высот (<= 2) —
# значит cookies недействительны и YouTube вернул ограниченные данные.
# В этом случае генерируем все стандартные разрешения с оценкой
# размера на основе типичных битрейтов YouTube и длительности видео.
# Это гарантирует, что пользователь увидит все варианты качества,
# а format_selector будет корректно разрешён yt-dlp при скачивании.
# ---------------------------------------------------------------
FALLBACK_THRESHOLD = 2 # при таком количестве высот переходим к оценкам
ESTIMATE_REQUIRED = len(used_heights) <= FALLBACK_THRESHOLD
if ESTIMATE_REQUIRED:
logger.info(f"[FORMATS] Недостаточно данных от YouTube (найдено {len(used_heights)} высот), генерируем оценочные форматы")
# Типичные битрейты для видео (в кбит/с) для разных разрешений YouTube (h264)
# Значения консервативные — для реалистичной оценки размера файла
TYPICAL_VIDEO_BITRATES: dict[int, int] = {
2160: 40000, # 4K: ~40 Mbps
1440: 20000, # 1440p: ~20 Mbps
1080: 10000, # 1080p: ~10 Mbps
720: 5000, # 720p: ~5 Mbps
480: 2500, # 480p: ~2.5 Mbps
360: 1200, # 360p: ~1.2 Mbps
240: 600, # 240p: ~600 Kbps
144: 300, # 144p: ~300 Kbps
}
AUDIO_BITRATE = 128 # кбит/с — типичный битрейт аудио YouTube
result = []
if duration:
for max_height, label in quality_tiers:
video_kbps = TYPICAL_VIDEO_BITRATES.get(max_height, 1000)
# Размер = (видеобитрейт + аудиобитрейт) * длительность / 8 / 1024 / 1024
total_kbps = video_kbps + AUDIO_BITRATE
estimated_bytes = total_kbps * 1000 / 8 * duration # кбит/с * 1000 / 8 = байт/с
estimated_mb = round(estimated_bytes / 1024 / 1024, 1)
# Используем best[height<=...] вместо bestvideo[height<=...]+bestaudio
# Это гарантированно работает, т.к. yt-dlp сам подберёт подходящий формат
# (с аудио или без) с ограничением по высоте
format_selector = f"best[height<={max_height}]/best"
result.append({
'format_id': format_selector,
'label': f"{label} (mp4)",
'quality': label,
'ext': 'mp4',
'filesize_mb': estimated_mb,
})
logger.info(f"[FORMATS] Оценка: {label}: ~{estimated_mb} МБ (битрейт {video_kbps} кбит/с)")
# Аудиодорожка: только аудио, ~128 kbps
audio_bytes = AUDIO_BITRATE * 1000 / 8 * duration
audio_mb = round(audio_bytes / 1024 / 1024, 1)
result.append({
'format_id': 'bestaudio/best',
'label': f"Audio only (m4a)",
'quality': 'audio',
'ext': 'm4a',
'filesize_mb': audio_mb,
})
logger.info(f"[FORMATS] Оценка: Audio: ~{audio_mb} МБ")
else:
# Если длительность неизвестна, показываем без размеров
for max_height, label in quality_tiers:
format_selector = f"best[height<={max_height}]/best"
result.append({
'format_id': format_selector,
'label': label,
'quality': label,
'ext': 'mp4',
'filesize_mb': None,
})
result.append({
'format_id': 'bestaudio/best',
'label': 'Audio only (m4a)',
'quality': 'audio',
'ext': 'm4a',
'filesize_mb': None,
})
logger.info(f"[FORMATS] Возвращаем {len(result)} форматов")
return result
@app.route('/health', methods=['GET'])
def health():
"""Health check endpoint"""
return jsonify({'status': 'ok', 'service': 'youtube-downloader'}), 200
@app.route('/formats', methods=['POST'])
def formats():
"""Возвращает список доступных форматов для YouTube URL"""
request_id = str(uuid.uuid4())[:8]
logger.info(f"[FORMATS {request_id}] ========== ЗАПРОС ФОРМАТОВ ==========")
try:
data = request.get_json()
if not data or 'url' not in data:
return jsonify({'error': 'URL is required'}), 400
url = data['url']
if 'youtube.com' not in url and 'youtu.be' not in url:
return jsonify({'error': 'Only YouTube URLs are supported'}), 400
format_list = get_youtube_formats(url)
logger.info(f"[FORMATS {request_id}] Найдено {len(format_list)} форматов")
return jsonify({'formats': format_list}), 200
except Exception as e:
logger.error(f"[FORMATS {request_id}] Ошибка: {e}")
logger.error(traceback.format_exc())
return jsonify({'error': str(e)}), 500
@app.route('/download/stream', methods=['POST'])
def download_stream():
"""Скачивает видео с YouTube и возвращает бинарные данные"""
@ -347,7 +729,8 @@ def download_stream():
return jsonify({'error': 'URL is required'}), 400
url = data['url']
logger.info(f"[REQUEST {request_id}] Получен запрос на скачивание (stream): {url}")
format_id = data.get('format_id') # Опциональный параметр
logger.info(f"[REQUEST {request_id}] Получен запрос на скачивание (stream): {url}, format_id: {format_id}")
# Проверяем, что это YouTube URL
if 'youtube.com' not in url and 'youtu.be' not in url:
@ -356,7 +739,7 @@ def download_stream():
# Скачиваем видео
logger.info(f"[REQUEST {request_id}] Начинаем скачивание видео...")
video_path = download_youtube_video(url)
video_path = download_youtube_video(url, format_id=format_id)
logger.info(f"[REQUEST {request_id}] Видео успешно скачано: {video_path}")
# Читаем файл и отправляем