diff --git a/.env.example b/.env.example index d109bb0..9d87bd5 100644 --- a/.env.example +++ b/.env.example @@ -13,3 +13,4 @@ VK_DOWNLOADER_URL=http://localhost:5555 # YOUTUBE_DOWNLOADER_URL=http://youtube-downloader:5000 # INSTAGRAM_DOWNLOADER_URL=http://instagram-downloader:5000 # VK_DOWNLOADER_URL=http://vk-downloader:5000 +YAPFILES_DOWNLOADER_URL=http://localhost:5558 diff --git a/bot.py b/bot.py index bfb5de6..65cf800 100644 --- a/bot.py +++ b/bot.py @@ -27,6 +27,7 @@ TELEGRAM_BOT_USERNAME = os.getenv('TELEGRAM_BOT_USERNAME', 'vrubelVideoDownload_ YOUTUBE_DOWNLOADER_URL = os.getenv('YOUTUBE_DOWNLOADER_URL', 'http://localhost:5557') INSTAGRAM_DOWNLOADER_URL = os.getenv('INSTAGRAM_DOWNLOADER_URL', 'http://localhost:5556') VK_DOWNLOADER_URL = os.getenv('VK_DOWNLOADER_URL', 'http://localhost:5555') +YAPFILES_DOWNLOADER_URL = os.getenv('YAPFILES_DOWNLOADER_URL', 'http://localhost:5558') # Базовая директория проекта (абсолютный путь), чтобы не зависеть от рабочей директории процесса BASE_DIR = Path(__file__).resolve().parent @@ -158,6 +159,8 @@ def detect_video_source(url: str) -> str: return 'instagram' elif 'vk.com' in domain or 'vkontakte.ru' in domain: return 'vk' + elif 'yapfiles.ru' in domain: + return 'yapfiles' else: return 'unknown' @@ -371,6 +374,62 @@ async def download_vk_video(url: str, chat_id: int, max_retries: int = 3) -> str raise last_error or Exception("Неизвестная ошибка при скачивании с VK через внешний сервис") +async def download_yapfiles_video(url: str, chat_id: int, max_retries: int = 3) -> str: + """Скачивает видео с Yapfiles через внешний сервис""" + logger.info(f"Yapfiles: отправка запроса на внешний сервис {YAPFILES_DOWNLOADER_URL}") + + last_error = None + for attempt in range(max_retries): + try: + async with httpx.AsyncClient(timeout=600.0) as client: + response = await client.post( + f"{YAPFILES_DOWNLOADER_URL}/download/stream", + json={"url": url}, + headers={"Content-Type": "application/json"} + ) + + if response.status_code != 200: + error_text = response.text + try: + error_json = response.json() + error_text = error_json.get('error', error_text) + except: + pass + raise Exception(f"Yapfiles сервис вернул ошибку {response.status_code}: {error_text}") + + video_data = response.content + video_ext = 'mp4' + + content_type = response.headers.get('Content-Type', '') + if 'video/' in content_type: + video_ext = content_type.split('/')[-1].split(';')[0] + + filename = response.headers.get('Content-Disposition', '') + if filename and 'filename=' in filename: + video_filename = filename.split('filename=')[1].strip('"\'') + else: + video_filename = f'{chat_id}_yapfiles_video.{video_ext}' + + video_path = DOWNLOADS_DIR / video_filename + with open(video_path, 'wb') as f: + f.write(video_data) + + logger.info(f"Yapfiles: видео скачано через внешний сервис: {video_path}") + return str(video_path) + + except httpx.TimeoutException: + last_error = Exception(f"Таймаут при запросе к Yapfiles сервису (попытка {attempt + 1}/{max_retries})") + logger.warning(f"Yapfiles: таймаут при запросе к сервису: {last_error}") + except Exception as e: + last_error = e + logger.warning(f"Yapfiles: попытка {attempt + 1}/{max_retries} не удалась: {e}") + + if attempt < max_retries - 1: + await asyncio.sleep((attempt + 1) * 2) + + raise last_error or Exception("Неизвестная ошибка при скачивании с Yapfiles через внешний сервис") + + async def download_video(url: str, chat_id: int, max_retries: int = 3) -> str: """Главная функция скачивания - вызывает нужную функцию в зависимости от источника""" source = detect_video_source(url) @@ -382,6 +441,8 @@ async def download_video(url: str, chat_id: int, max_retries: int = 3) -> str: return await download_instagram_video(url, chat_id, max_retries) elif source == 'vk': return await download_vk_video(url, chat_id, max_retries) + elif source == 'yapfiles': + return await download_yapfiles_video(url, chat_id, max_retries) else: raise Exception("Пардон, не умеем работать с этим источником") @@ -410,7 +471,8 @@ async def handle_message(update: Update, context: ContextTypes.DEFAULT_TYPE): "Поддерживаемые источники:\n" "• YouTube (youtube.com, youtu.be)\n" "• Instagram (instagram.com)\n" - "• VK (vk.com)\n\n" + "• VK (vk.com)\n" + "• Yapfiles (yapfiles.ru)\n\n" "Для других источников: Пардон, не умеем 😅" ) return @@ -498,7 +560,8 @@ async def start_command(update: Update, context: ContextTypes.DEFAULT_TYPE): "Поддерживаемые источники:\n" "• YouTube (youtube.com, youtu.be)\n" "• Instagram (instagram.com)\n" - "• VK (vk.com)\n\n" + "• VK (vk.com)\n" + "• Yapfiles (yapfiles.ru)\n\n" "👥 Работа в группах:\n" "Добавь меня в группу и дай права администратора (нужно право на удаление сообщений). " "После этого я буду автоматически находить ссылки на видео в сообщениях участников, " diff --git a/docker-compose.yml b/docker-compose.yml index 214a309..e49260f 100644 --- a/docker-compose.yml +++ b/docker-compose.yml @@ -11,6 +11,7 @@ services: - YOUTUBE_DOWNLOADER_URL=${YOUTUBE_DOWNLOADER_URL} - INSTAGRAM_DOWNLOADER_URL=${INSTAGRAM_DOWNLOADER_URL} - VK_DOWNLOADER_URL=${VK_DOWNLOADER_URL} + - YAPFILES_DOWNLOADER_URL=${YAPFILES_DOWNLOADER_URL} volumes: - ./video:/app/video - ./data:/app/data:Z diff --git a/instagram-downloader/instagram_cookies.txt b/instagram-downloader/instagram_cookies.txt index 9fc6ff6..edff42e 100644 --- a/instagram-downloader/instagram_cookies.txt +++ b/instagram-downloader/instagram_cookies.txt @@ -38,16 +38,15 @@ rusoska.com FALSE / FALSE 1799795493 userToken a01e24c3-c94f-4a4e-b11b-751b72046 .bongacams.com TRUE / FALSE 1796771469 ls01 %7B%22th_type%22%3A%22live%22%2C%22display%22%3A%22medium%22%7D .mozilla.org TRUE / FALSE 1799925684 _ga_B9CY1C9VBC GS2.1.s1765365263$o1$g1$t1765365684$j60$l0$h0 .mozilla.org TRUE / FALSE 1799925263 _ga GA1.2.1451822324.1765365263 -.mozilla.org TRUE / FALSE 1765451663 _gid GA1.2.878207985.1765365263 -.instagram.com TRUE / TRUE 1799964275 csrftoken CnChQ6nTz8cfm_U7q2ur9w +.instagram.com TRUE / TRUE 1800019219 csrftoken CnChQ6nTz8cfm_U7q2ur9w .instagram.com TRUE / TRUE 1799925292 datr LFY5aVDEvvzQRTypNm_NZ0d3 .instagram.com TRUE / TRUE 1796901312 ig_did B0879634-89D6-4098-9B3E-958B6BC00183 .instagram.com TRUE / TRUE 1765970112 dpr 2 .instagram.com TRUE / TRUE 1799925293 mid aTlWLAAEAAEBRoS_PfrA_i5UP0w1 .instagram.com TRUE / TRUE 1766008776 wd 1920x944 .instagram.com TRUE / TRUE 1796939890 sessionid 42059678244%3AD0GdfKmaFZWqXp%3A10%3AAYgpCODjycI3EWMR6G5Uh6kXjroGZ6pb1IRJmXGX3g -.instagram.com TRUE / TRUE 1773180275 ds_user_id 42059678244 -.instagram.com TRUE / TRUE 0 rur "LDC\05442059678244\0541796940275:01fef3bd7d6beb547023be3c45c01ebfd5726050a4cced10a3a4af9ff39a731103df7c88" +.instagram.com TRUE / TRUE 1773235219 ds_user_id 42059678244 +.instagram.com TRUE / TRUE 0 rur "LDC\05442059678244\0541796995219:01fe8b73a9546ba340b6cb279ca8ea5bb5292bc185cf380103139926633fc5afa37c707f" addons.mozilla.org FALSE / TRUE 0 taarId 4dffa50e49cca797bb48f2f4f11803c251746ad45af1fef3ba1ad37379a24fea .facebook.com TRUE / TRUE 1799963979 datr S-05aRMEAJEaLLwYCMb4y3JM .facebook.com TRUE / TRUE 1766008781 wd 1920x944 diff --git a/yapfiles-downloader/Dockerfile b/yapfiles-downloader/Dockerfile new file mode 100644 index 0000000..3eb1fe0 --- /dev/null +++ b/yapfiles-downloader/Dockerfile @@ -0,0 +1,17 @@ +FROM python:3.11-slim + +WORKDIR /app + +# Установка зависимостей +COPY requirements.txt . +RUN pip install --no-cache-dir -r requirements.txt + +# Копирование приложения +COPY app.py . + +# Создание директории для загрузок +RUN mkdir -p downloads + +# Запуск приложения +CMD ["python", "app.py"] + diff --git a/yapfiles-downloader/README.md b/yapfiles-downloader/README.md new file mode 100644 index 0000000..5dfa427 --- /dev/null +++ b/yapfiles-downloader/README.md @@ -0,0 +1,47 @@ +# Yapfiles Video Downloader + +Микросервис для скачивания видео с yapfiles.ru + +## Порт + +- Внутренний порт: 5000 +- Внешний порт: 5558 + +## API + +### Health Check + +``` +GET /health +``` + +Ответ: +```json +{"status": "ok", "service": "yapfiles-downloader"} +``` + +### Скачать видео + +``` +POST /download/stream +Content-Type: application/json + +{ + "url": "https://www.yapfiles.ru/show/3532099/30faa897f5a34bb58c018f909a6f1fae.mp4.html" +} +``` + +Возвращает бинарные данные видео. + +## Запуск + +```bash +docker-compose up -d --build +``` + +## Логика работы + +1. Получает URL страницы видео на yapfiles.ru +2. Парсит страницу и извлекает прямую ссылку на скачивание +3. Скачивает видео и возвращает бинарные данные + diff --git a/yapfiles-downloader/app.py b/yapfiles-downloader/app.py new file mode 100644 index 0000000..3c2f248 --- /dev/null +++ b/yapfiles-downloader/app.py @@ -0,0 +1,238 @@ +""" +Yapfiles Video Downloader Service +Отдельный микросервис для скачивания видео с yapfiles.ru +""" +import os +import logging +import re +import uuid +from pathlib import Path +from flask import Flask, request, jsonify +from flask_cors import CORS +import requests +from bs4 import BeautifulSoup + +# Настройка логирования +logging.basicConfig( + format='%(asctime)s - %(name)s - %(levelname)s - %(message)s', + level=logging.INFO +) +logger = logging.getLogger(__name__) + +app = Flask(__name__) +CORS(app) + +# Директория для временных файлов +DOWNLOADS_DIR = Path('downloads') +DOWNLOADS_DIR.mkdir(exist_ok=True) + +# User-Agent для запросов +USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36' + + +def extract_download_url(page_url: str) -> tuple[str, str]: + """ + Извлекает прямую ссылку на скачивание видео со страницы yapfiles.ru + Возвращает tuple (download_url, filename) + """ + headers = { + 'User-Agent': USER_AGENT, + 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', + 'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7', + 'Referer': 'https://www.yapfiles.ru/', + } + + logger.info(f"Загружаю страницу: {page_url}") + response = requests.get(page_url, headers=headers, timeout=30) + response.raise_for_status() + + soup = BeautifulSoup(response.text, 'html.parser') + + # Ищем ссылку на скачивание в разных местах + download_url = None + filename = 'yapfiles_video.mp4' + + # Способ 1: Ищем прямую ссылку в source тегах видеоплеера + video_tag = soup.find('video') + if video_tag: + source = video_tag.find('source') + if source and source.get('src'): + download_url = source['src'] + logger.info(f"Найдена ссылка в video/source: {download_url}") + + # Способ 2: Ищем ссылку "Скачать файл" или подобную + if not download_url: + download_links = soup.find_all('a', href=True) + for link in download_links: + href = link.get('href', '') + # Ищем ссылки на /files/ с token + if '/files/' in href and 'token=' in href: + download_url = href + if not download_url.startswith('http'): + download_url = 'https://www.yapfiles.ru' + download_url + logger.info(f"Найдена ссылка на скачивание: {download_url}") + break + + # Способ 3: Ищем в JavaScript коде + if not download_url: + scripts = soup.find_all('script') + for script in scripts: + script_text = script.string or '' + # Ищем паттерны вида /files/...mp4?token=... + matches = re.findall(r'(https?://[^\s"\'<>]+/files/[^\s"\'<>]+\.mp4\?token=[^\s"\'<>]+)', script_text) + if matches: + download_url = matches[0] + logger.info(f"Найдена ссылка в скрипте: {download_url}") + break + + # Или относительные пути + matches = re.findall(r'["\']?(/files/[^\s"\'<>]+\.mp4\?token=[^\s"\'<>]+)["\']?', script_text) + if matches: + download_url = 'https://www.yapfiles.ru' + matches[0] + logger.info(f"Найдена относительная ссылка в скрипте: {download_url}") + break + + # Способ 4: Формируем ссылку на основе URL страницы + # URL страницы: https://www.yapfiles.ru/show/3532099/30faa897f5a34bb58c018f909a6f1fae.mp4.html + # URL файла: https://www.yapfiles.ru/files/3532099/30faa897f5a34bb58c018f909a6f1fae.mp4 + if not download_url: + match = re.search(r'/show/(\d+)/([^/]+)\.html', page_url) + if match: + file_id = match.group(1) + file_name = match.group(2) + # Пробуем без токена - иногда работает для публичных файлов + download_url = f'https://www.yapfiles.ru/files/{file_id}/{file_name}' + logger.info(f"Сформирована ссылка на основе URL: {download_url}") + + if not download_url: + raise Exception("Не удалось найти ссылку на скачивание видео") + + # Извлекаем имя файла из URL + url_path = download_url.split('?')[0] + if '/' in url_path: + filename = url_path.split('/')[-1] + if not filename.endswith(('.mp4', '.webm', '.avi', '.mov')): + filename = 'yapfiles_video.mp4' + + return download_url, filename + + +def download_yapfiles_video(url: str, max_retries: int = 3) -> Path: + """Скачивает видео с yapfiles.ru""" + last_error = None + + for attempt in range(max_retries): + try: + # Получаем прямую ссылку на скачивание + download_url, original_filename = extract_download_url(url) + + headers = { + 'User-Agent': USER_AGENT, + 'Accept': '*/*', + 'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7', + 'Referer': url, + } + + logger.info(f"Yapfiles: скачивание (попытка {attempt + 1}/{max_retries}): {download_url}") + + response = requests.get(download_url, headers=headers, stream=True, timeout=120) + response.raise_for_status() + + # Проверяем что это действительно видео + content_type = response.headers.get('Content-Type', '') + if 'text/html' in content_type: + raise Exception("Получен HTML вместо видео. Возможно, требуется авторизация или ссылка устарела.") + + # Определяем расширение + ext = '.mp4' + if 'video/webm' in content_type: + ext = '.webm' + elif 'video/x-matroska' in content_type: + ext = '.mkv' + + # Создаем имя файла + safe_filename = re.sub(r'[<>:"/\\|?*]', '', original_filename)[:100] + if not safe_filename.endswith(ext): + safe_filename = safe_filename.rsplit('.', 1)[0] + ext + + output_file = DOWNLOADS_DIR / f'{uuid.uuid4()}_{safe_filename}' + + # Сохраняем файл + with open(output_file, 'wb') as f: + for chunk in response.iter_content(chunk_size=8192): + if chunk: + f.write(chunk) + + logger.info(f"Yapfiles: видео скачано: {output_file}") + return output_file + + except Exception as e: + last_error = e + logger.warning(f"Yapfiles: попытка {attempt + 1}/{max_retries} не удалась: {e}") + if attempt < max_retries - 1: + import time + time.sleep((attempt + 1) * 2) + + raise last_error or Exception("Неизвестная ошибка при скачивании с Yapfiles") + + +@app.route('/health', methods=['GET']) +def health(): + """Health check endpoint""" + return jsonify({'status': 'ok', 'service': 'yapfiles-downloader'}), 200 + + +@app.route('/download/stream', methods=['POST']) +def download_stream(): + """Скачивает видео с Yapfiles и возвращает бинарные данные""" + try: + data = request.get_json() + if not data or 'url' not in data: + return jsonify({'error': 'URL is required'}), 400 + + url = data['url'] + logger.info(f"Получен запрос на скачивание (stream): {url}") + + # Проверяем, что это Yapfiles URL + if 'yapfiles.ru' not in url: + return jsonify({'error': 'Only Yapfiles URLs are supported'}), 400 + + # Скачиваем видео + video_path = download_yapfiles_video(url) + logger.info(f"Видео скачано: {video_path}") + + # Читаем файл и отправляем + with open(video_path, 'rb') as f: + video_data = f.read() + + # Безопасное имя файла без кириллицы для заголовка + safe_filename = video_path.name.encode('ascii', 'ignore').decode('ascii') or 'yapfiles_video.mp4' + if not safe_filename.endswith(('.mp4', '.webm', '.mkv')): + safe_filename = 'yapfiles_video.mp4' + + # Определяем content-type + content_type = 'video/mp4' + if video_path.suffix == '.webm': + content_type = 'video/webm' + elif video_path.suffix == '.mkv': + content_type = 'video/x-matroska' + + # Удаляем временный файл + video_path.unlink() + + return video_data, 200, { + 'Content-Type': content_type, + 'Content-Disposition': f'attachment; filename="{safe_filename}"' + } + + except Exception as e: + logger.error(f"Ошибка при скачивании: {e}") + return jsonify({'error': str(e)}), 500 + + +if __name__ == '__main__': + port = int(os.getenv('PORT', 5000)) + host = os.getenv('HOST', '0.0.0.0') + logger.info(f"Запуск Yapfiles Downloader сервиса на {host}:{port}") + app.run(host=host, port=port, debug=False) + diff --git a/yapfiles-downloader/docker-compose.yml b/yapfiles-downloader/docker-compose.yml new file mode 100644 index 0000000..78b6882 --- /dev/null +++ b/yapfiles-downloader/docker-compose.yml @@ -0,0 +1,16 @@ +services: + yapfiles-downloader: + build: . + container_name: yapfiles_downloader_service + restart: unless-stopped + ports: + - "5558:5000" + volumes: + - ./downloads:/app/downloads + networks: + - yapfiles_network + +networks: + yapfiles_network: + driver: bridge + diff --git a/yapfiles-downloader/requirements.txt b/yapfiles-downloader/requirements.txt new file mode 100644 index 0000000..e7abb06 --- /dev/null +++ b/yapfiles-downloader/requirements.txt @@ -0,0 +1,5 @@ +Flask==3.0.0 +flask-cors==4.0.0 +requests==2.31.0 +beautifulsoup4==4.12.2 +