подключил япфайл

2025-12-12 10:32:06 +03:00 · 2025-12-12 10:32:06 +03:00 · cb1458bd93
commit cb1458bd93
parent 377fa3246e
9 changed files with 393 additions and 6 deletions
--- a/.env.example
+++ b/.env.example
@ -13,3 +13,4 @@ VK_DOWNLOADER_URL=http://localhost:5555
 # YOUTUBE_DOWNLOADER_URL=http://youtube-downloader:5000
 # INSTAGRAM_DOWNLOADER_URL=http://instagram-downloader:5000
 # VK_DOWNLOADER_URL=http://vk-downloader:5000
+YAPFILES_DOWNLOADER_URL=http://localhost:5558
--- a/bot.py
+++ b/bot.py
@ -27,6 +27,7 @@ TELEGRAM_BOT_USERNAME = os.getenv('TELEGRAM_BOT_USERNAME', 'vrubelVideoDownload_
 YOUTUBE_DOWNLOADER_URL = os.getenv('YOUTUBE_DOWNLOADER_URL', 'http://localhost:5557')
 INSTAGRAM_DOWNLOADER_URL = os.getenv('INSTAGRAM_DOWNLOADER_URL', 'http://localhost:5556')
 VK_DOWNLOADER_URL = os.getenv('VK_DOWNLOADER_URL', 'http://localhost:5555')
+YAPFILES_DOWNLOADER_URL = os.getenv('YAPFILES_DOWNLOADER_URL', 'http://localhost:5558')

 # Базовая директория проекта (абсолютный путь), чтобы не зависеть от рабочей директории процесса
 BASE_DIR = Path(__file__).resolve().parent
@ -158,6 +159,8 @@ def detect_video_source(url: str) -> str:
        return 'instagram'
    elif 'vk.com' in domain or 'vkontakte.ru' in domain:
        return 'vk'
+    elif 'yapfiles.ru' in domain:
+        return 'yapfiles'
    else:
        return 'unknown'

@ -371,6 +374,62 @@ async def download_vk_video(url: str, chat_id: int, max_retries: int = 3) -> str
    raise last_error or Exception("Неизвестная ошибка при скачивании с VK через внешний сервис")


+async def download_yapfiles_video(url: str, chat_id: int, max_retries: int = 3) -> str:
+    """Скачивает видео с Yapfiles через внешний сервис"""
+    logger.info(f"Yapfiles: отправка запроса на внешний сервис {YAPFILES_DOWNLOADER_URL}")
+    
+    last_error = None
+    for attempt in range(max_retries):
+        try:
+            async with httpx.AsyncClient(timeout=600.0) as client:
+                response = await client.post(
+                    f"{YAPFILES_DOWNLOADER_URL}/download/stream",
+                    json={"url": url},
+                    headers={"Content-Type": "application/json"}
+                )
+                
+                if response.status_code != 200:
+                    error_text = response.text
+                    try:
+                        error_json = response.json()
+                        error_text = error_json.get('error', error_text)
+                    except:
+                        pass
+                    raise Exception(f"Yapfiles сервис вернул ошибку {response.status_code}: {error_text}")
+                
+                video_data = response.content
+                video_ext = 'mp4'
+                
+                content_type = response.headers.get('Content-Type', '')
+                if 'video/' in content_type:
+                    video_ext = content_type.split('/')[-1].split(';')[0]
+                
+                filename = response.headers.get('Content-Disposition', '')
+                if filename and 'filename=' in filename:
+                    video_filename = filename.split('filename=')[1].strip('"\'')
+                else:
+                    video_filename = f'{chat_id}_yapfiles_video.{video_ext}'
+                
+                video_path = DOWNLOADS_DIR / video_filename
+                with open(video_path, 'wb') as f:
+                    f.write(video_data)
+                
+                logger.info(f"Yapfiles: видео скачано через внешний сервис: {video_path}")
+                return str(video_path)
+                
+        except httpx.TimeoutException:
+            last_error = Exception(f"Таймаут при запросе к Yapfiles сервису (попытка {attempt + 1}/{max_retries})")
+            logger.warning(f"Yapfiles: таймаут при запросе к сервису: {last_error}")
+        except Exception as e:
+            last_error = e
+            logger.warning(f"Yapfiles: попытка {attempt + 1}/{max_retries} не удалась: {e}")
+        
+        if attempt < max_retries - 1:
+            await asyncio.sleep((attempt + 1) * 2)
+    
+    raise last_error or Exception("Неизвестная ошибка при скачивании с Yapfiles через внешний сервис")
+
+
 async def download_video(url: str, chat_id: int, max_retries: int = 3) -> str:
    """Главная функция скачивания - вызывает нужную функцию в зависимости от источника"""
    source = detect_video_source(url)
@ -382,6 +441,8 @@ async def download_video(url: str, chat_id: int, max_retries: int = 3) -> str:
        return await download_instagram_video(url, chat_id, max_retries)
    elif source == 'vk':
        return await download_vk_video(url, chat_id, max_retries)
+    elif source == 'yapfiles':
+        return await download_yapfiles_video(url, chat_id, max_retries)
    else:
        raise Exception("Пардон, не умеем работать с этим источником")

@ -410,7 +471,8 @@ async def handle_message(update: Update, context: ContextTypes.DEFAULT_TYPE):
            "Поддерживаемые источники:\n"
            "• YouTube (youtube.com, youtu.be)\n"
            "• Instagram (instagram.com)\n"
-            "• VK (vk.com)\n\n"
+            "• VK (vk.com)\n"
+            "• Yapfiles (yapfiles.ru)\n\n"
            "Для других источников: Пардон, не умеем 😅"
        )
        return
@ -498,7 +560,8 @@ async def start_command(update: Update, context: ContextTypes.DEFAULT_TYPE):
        "Поддерживаемые источники:\n"
        "• YouTube (youtube.com, youtu.be)\n"
        "• Instagram (instagram.com)\n"
-        "• VK (vk.com)\n\n"
+        "• VK (vk.com)\n"
+        "• Yapfiles (yapfiles.ru)\n\n"
        "👥 Работа в группах:\n"
        "Добавь меня в группу и дай права администратора (нужно право на удаление сообщений). "
        "После этого я буду автоматически находить ссылки на видео в сообщениях участников, "
--- a/docker-compose.yml
+++ b/docker-compose.yml
@ -11,6 +11,7 @@ services:
      - YOUTUBE_DOWNLOADER_URL=${YOUTUBE_DOWNLOADER_URL}
      - INSTAGRAM_DOWNLOADER_URL=${INSTAGRAM_DOWNLOADER_URL}
      - VK_DOWNLOADER_URL=${VK_DOWNLOADER_URL}
+      - YAPFILES_DOWNLOADER_URL=${YAPFILES_DOWNLOADER_URL}
    volumes:
      - ./video:/app/video
      - ./data:/app/data:Z
--- a/instagram-downloader/instagram_cookies.txt
+++ b/instagram-downloader/instagram_cookies.txt
@ -38,16 +38,15 @@ rusoska.com	FALSE	/	FALSE	1799795493	userToken	a01e24c3-c94f-4a4e-b11b-751b72046
 .bongacams.com	TRUE	/	FALSE	1796771469	ls01	%7B%22th_type%22%3A%22live%22%2C%22display%22%3A%22medium%22%7D
 .mozilla.org	TRUE	/	FALSE	1799925684	_ga_B9CY1C9VBC	GS2.1.s1765365263$o1$g1$t1765365684$j60$l0$h0
 .mozilla.org	TRUE	/	FALSE	1799925263	_ga	GA1.2.1451822324.1765365263
-.mozilla.org	TRUE	/	FALSE	1765451663	_gid	GA1.2.878207985.1765365263
-.instagram.com	TRUE	/	TRUE	1799964275	csrftoken	CnChQ6nTz8cfm_U7q2ur9w
+.instagram.com	TRUE	/	TRUE	1800019219	csrftoken	CnChQ6nTz8cfm_U7q2ur9w
 .instagram.com	TRUE	/	TRUE	1799925292	datr	LFY5aVDEvvzQRTypNm_NZ0d3
 .instagram.com	TRUE	/	TRUE	1796901312	ig_did	B0879634-89D6-4098-9B3E-958B6BC00183
 .instagram.com	TRUE	/	TRUE	1765970112	dpr	2
 .instagram.com	TRUE	/	TRUE	1799925293	mid	aTlWLAAEAAEBRoS_PfrA_i5UP0w1
 .instagram.com	TRUE	/	TRUE	1766008776	wd	1920x944
 .instagram.com	TRUE	/	TRUE	1796939890	sessionid	42059678244%3AD0GdfKmaFZWqXp%3A10%3AAYgpCODjycI3EWMR6G5Uh6kXjroGZ6pb1IRJmXGX3g
-.instagram.com	TRUE	/	TRUE	1773180275	ds_user_id	42059678244
-.instagram.com	TRUE	/	TRUE	0	rur	"LDC\05442059678244\0541796940275:01fef3bd7d6beb547023be3c45c01ebfd5726050a4cced10a3a4af9ff39a731103df7c88"
+.instagram.com	TRUE	/	TRUE	1773235219	ds_user_id	42059678244
+.instagram.com	TRUE	/	TRUE	0	rur	"LDC\05442059678244\0541796995219:01fe8b73a9546ba340b6cb279ca8ea5bb5292bc185cf380103139926633fc5afa37c707f"
 addons.mozilla.org	FALSE	/	TRUE	0	taarId	4dffa50e49cca797bb48f2f4f11803c251746ad45af1fef3ba1ad37379a24fea
 .facebook.com	TRUE	/	TRUE	1799963979	datr	S-05aRMEAJEaLLwYCMb4y3JM
 .facebook.com	TRUE	/	TRUE	1766008781	wd	1920x944
--- a/yapfiles-downloader/Dockerfile
+++ b/yapfiles-downloader/Dockerfile
@ -0,0 +1,17 @@
+FROM python:3.11-slim
+
+WORKDIR /app
+
+# Установка зависимостей
+COPY requirements.txt .
+RUN pip install --no-cache-dir -r requirements.txt
+
+# Копирование приложения
+COPY app.py .
+
+# Создание директории для загрузок
+RUN mkdir -p downloads
+
+# Запуск приложения
+CMD ["python", "app.py"]
+
--- a/yapfiles-downloader/README.md
+++ b/yapfiles-downloader/README.md
@ -0,0 +1,47 @@
+# Yapfiles Video Downloader
+
+Микросервис для скачивания видео с yapfiles.ru
+
+## Порт
+
+- Внутренний порт: 5000
+- Внешний порт: 5558
+
+## API
+
+### Health Check
+
+```
+GET /health
+```
+
+Ответ:
+```json
+{"status": "ok", "service": "yapfiles-downloader"}
+```
+
+### Скачать видео
+
+```
+POST /download/stream
+Content-Type: application/json
+
+{
+    "url": "https://www.yapfiles.ru/show/3532099/30faa897f5a34bb58c018f909a6f1fae.mp4.html"
+}
+```
+
+Возвращает бинарные данные видео.
+
+## Запуск
+
+```bash
+docker-compose up -d --build
+```
+
+## Логика работы
+
+1. Получает URL страницы видео на yapfiles.ru
+2. Парсит страницу и извлекает прямую ссылку на скачивание
+3. Скачивает видео и возвращает бинарные данные
+
--- a/yapfiles-downloader/app.py
+++ b/yapfiles-downloader/app.py
@ -0,0 +1,238 @@
+"""
+Yapfiles Video Downloader Service
+Отдельный микросервис для скачивания видео с yapfiles.ru
+"""
+import os
+import logging
+import re
+import uuid
+from pathlib import Path
+from flask import Flask, request, jsonify
+from flask_cors import CORS
+import requests
+from bs4 import BeautifulSoup
+
+# Настройка логирования
+logging.basicConfig(
+    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
+    level=logging.INFO
+)
+logger = logging.getLogger(__name__)
+
+app = Flask(__name__)
+CORS(app)
+
+# Директория для временных файлов
+DOWNLOADS_DIR = Path('downloads')
+DOWNLOADS_DIR.mkdir(exist_ok=True)
+
+# User-Agent для запросов
+USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
+
+
+def extract_download_url(page_url: str) -> tuple[str, str]:
+    """
+    Извлекает прямую ссылку на скачивание видео со страницы yapfiles.ru
+    Возвращает tuple (download_url, filename)
+    """
+    headers = {
+        'User-Agent': USER_AGENT,
+        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
+        'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',
+        'Referer': 'https://www.yapfiles.ru/',
+    }
+    
+    logger.info(f"Загружаю страницу: {page_url}")
+    response = requests.get(page_url, headers=headers, timeout=30)
+    response.raise_for_status()
+    
+    soup = BeautifulSoup(response.text, 'html.parser')
+    
+    # Ищем ссылку на скачивание в разных местах
+    download_url = None
+    filename = 'yapfiles_video.mp4'
+    
+    # Способ 1: Ищем прямую ссылку в source тегах видеоплеера
+    video_tag = soup.find('video')
+    if video_tag:
+        source = video_tag.find('source')
+        if source and source.get('src'):
+            download_url = source['src']
+            logger.info(f"Найдена ссылка в video/source: {download_url}")
+    
+    # Способ 2: Ищем ссылку "Скачать файл" или подобную
+    if not download_url:
+        download_links = soup.find_all('a', href=True)
+        for link in download_links:
+            href = link.get('href', '')
+            # Ищем ссылки на /files/ с token
+            if '/files/' in href and 'token=' in href:
+                download_url = href
+                if not download_url.startswith('http'):
+                    download_url = 'https://www.yapfiles.ru' + download_url
+                logger.info(f"Найдена ссылка на скачивание: {download_url}")
+                break
+    
+    # Способ 3: Ищем в JavaScript коде
+    if not download_url:
+        scripts = soup.find_all('script')
+        for script in scripts:
+            script_text = script.string or ''
+            # Ищем паттерны вида /files/...mp4?token=...
+            matches = re.findall(r'(https?://[^\s"\'<>]+/files/[^\s"\'<>]+\.mp4\?token=[^\s"\'<>]+)', script_text)
+            if matches:
+                download_url = matches[0]
+                logger.info(f"Найдена ссылка в скрипте: {download_url}")
+                break
+            
+            # Или относительные пути
+            matches = re.findall(r'["\']?(/files/[^\s"\'<>]+\.mp4\?token=[^\s"\'<>]+)["\']?', script_text)
+            if matches:
+                download_url = 'https://www.yapfiles.ru' + matches[0]
+                logger.info(f"Найдена относительная ссылка в скрипте: {download_url}")
+                break
+    
+    # Способ 4: Формируем ссылку на основе URL страницы
+    # URL страницы: https://www.yapfiles.ru/show/3532099/30faa897f5a34bb58c018f909a6f1fae.mp4.html
+    # URL файла:   https://www.yapfiles.ru/files/3532099/30faa897f5a34bb58c018f909a6f1fae.mp4
+    if not download_url:
+        match = re.search(r'/show/(\d+)/([^/]+)\.html', page_url)
+        if match:
+            file_id = match.group(1)
+            file_name = match.group(2)
+            # Пробуем без токена - иногда работает для публичных файлов
+            download_url = f'https://www.yapfiles.ru/files/{file_id}/{file_name}'
+            logger.info(f"Сформирована ссылка на основе URL: {download_url}")
+    
+    if not download_url:
+        raise Exception("Не удалось найти ссылку на скачивание видео")
+    
+    # Извлекаем имя файла из URL
+    url_path = download_url.split('?')[0]
+    if '/' in url_path:
+        filename = url_path.split('/')[-1]
+        if not filename.endswith(('.mp4', '.webm', '.avi', '.mov')):
+            filename = 'yapfiles_video.mp4'
+    
+    return download_url, filename
+
+
+def download_yapfiles_video(url: str, max_retries: int = 3) -> Path:
+    """Скачивает видео с yapfiles.ru"""
+    last_error = None
+    
+    for attempt in range(max_retries):
+        try:
+            # Получаем прямую ссылку на скачивание
+            download_url, original_filename = extract_download_url(url)
+            
+            headers = {
+                'User-Agent': USER_AGENT,
+                'Accept': '*/*',
+                'Accept-Language': 'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',
+                'Referer': url,
+            }
+            
+            logger.info(f"Yapfiles: скачивание (попытка {attempt + 1}/{max_retries}): {download_url}")
+            
+            response = requests.get(download_url, headers=headers, stream=True, timeout=120)
+            response.raise_for_status()
+            
+            # Проверяем что это действительно видео
+            content_type = response.headers.get('Content-Type', '')
+            if 'text/html' in content_type:
+                raise Exception("Получен HTML вместо видео. Возможно, требуется авторизация или ссылка устарела.")
+            
+            # Определяем расширение
+            ext = '.mp4'
+            if 'video/webm' in content_type:
+                ext = '.webm'
+            elif 'video/x-matroska' in content_type:
+                ext = '.mkv'
+            
+            # Создаем имя файла
+            safe_filename = re.sub(r'[<>:"/\\|?*]', '', original_filename)[:100]
+            if not safe_filename.endswith(ext):
+                safe_filename = safe_filename.rsplit('.', 1)[0] + ext
+            
+            output_file = DOWNLOADS_DIR / f'{uuid.uuid4()}_{safe_filename}'
+            
+            # Сохраняем файл
+            with open(output_file, 'wb') as f:
+                for chunk in response.iter_content(chunk_size=8192):
+                    if chunk:
+                        f.write(chunk)
+            
+            logger.info(f"Yapfiles: видео скачано: {output_file}")
+            return output_file
+            
+        except Exception as e:
+            last_error = e
+            logger.warning(f"Yapfiles: попытка {attempt + 1}/{max_retries} не удалась: {e}")
+            if attempt < max_retries - 1:
+                import time
+                time.sleep((attempt + 1) * 2)
+    
+    raise last_error or Exception("Неизвестная ошибка при скачивании с Yapfiles")
+
+
+@app.route('/health', methods=['GET'])
+def health():
+    """Health check endpoint"""
+    return jsonify({'status': 'ok', 'service': 'yapfiles-downloader'}), 200
+
+
+@app.route('/download/stream', methods=['POST'])
+def download_stream():
+    """Скачивает видео с Yapfiles и возвращает бинарные данные"""
+    try:
+        data = request.get_json()
+        if not data or 'url' not in data:
+            return jsonify({'error': 'URL is required'}), 400
+        
+        url = data['url']
+        logger.info(f"Получен запрос на скачивание (stream): {url}")
+        
+        # Проверяем, что это Yapfiles URL
+        if 'yapfiles.ru' not in url:
+            return jsonify({'error': 'Only Yapfiles URLs are supported'}), 400
+        
+        # Скачиваем видео
+        video_path = download_yapfiles_video(url)
+        logger.info(f"Видео скачано: {video_path}")
+        
+        # Читаем файл и отправляем
+        with open(video_path, 'rb') as f:
+            video_data = f.read()
+        
+        # Безопасное имя файла без кириллицы для заголовка
+        safe_filename = video_path.name.encode('ascii', 'ignore').decode('ascii') or 'yapfiles_video.mp4'
+        if not safe_filename.endswith(('.mp4', '.webm', '.mkv')):
+            safe_filename = 'yapfiles_video.mp4'
+        
+        # Определяем content-type
+        content_type = 'video/mp4'
+        if video_path.suffix == '.webm':
+            content_type = 'video/webm'
+        elif video_path.suffix == '.mkv':
+            content_type = 'video/x-matroska'
+        
+        # Удаляем временный файл
+        video_path.unlink()
+        
+        return video_data, 200, {
+            'Content-Type': content_type,
+            'Content-Disposition': f'attachment; filename="{safe_filename}"'
+        }
+        
+    except Exception as e:
+        logger.error(f"Ошибка при скачивании: {e}")
+        return jsonify({'error': str(e)}), 500
+
+
+if __name__ == '__main__':
+    port = int(os.getenv('PORT', 5000))
+    host = os.getenv('HOST', '0.0.0.0')
+    logger.info(f"Запуск Yapfiles Downloader сервиса на {host}:{port}")
+    app.run(host=host, port=port, debug=False)
+
--- a/yapfiles-downloader/docker-compose.yml
+++ b/yapfiles-downloader/docker-compose.yml
@ -0,0 +1,16 @@
+services:
+  yapfiles-downloader:
+    build: .
+    container_name: yapfiles_downloader_service
+    restart: unless-stopped
+    ports:
+      - "5558:5000"
+    volumes:
+      - ./downloads:/app/downloads
+    networks:
+      - yapfiles_network
+
+networks:
+  yapfiles_network:
+    driver: bridge
+
--- a/yapfiles-downloader/requirements.txt
+++ b/yapfiles-downloader/requirements.txt
@ -0,0 +1,5 @@
+Flask==3.0.0
+flask-cors==4.0.0
+requests==2.31.0
+beautifulsoup4==4.12.2
+