"""Direct tube scrapers. Każdy scraper hit'uje tube bezpośrednio HTTPm — różne tube'y to różne rate limit budgets, więc mogą iść równolegle. Wszystkie feedują sceny do tej samej `Source(name='pornapp')` (legacy nazwa — kept for DB compat) z external_id `f"{sitetag}:{url}"`. Resolver mergeuje idempotentnie po tym kluczu. Search-based ścieżka (per performer name); category browse'ng przez `categoriesUrl` overrides w pornapp connector był specyficzny dla porn-app API i zostanie usunięty. UWAGA — speculative scrapers: większość aggregator + special tubes (xmoviesforyou, watchporn, siska, porn4days, porndish, xxxfreewatch, latestleaks, mypornerleak, porndittcom, perverzija, fpoxxx, ...) ma URL templates + regex'y oparte na typowych WordPress conventions. Wymagają post-deploy verification — gdy któryś nie zwraca wyników, sprawdź real search HTML + popraw template/regex w odpowiednim pliku. """ from app.connectors.direct_scrapers._browse_base import BaseBrowseScraper from app.connectors.direct_scrapers.base import BaseDirectTubeScraper from app.connectors.direct_scrapers.eporner import EpornerScraper from app.connectors.direct_scrapers.fpoxxx import FpoxxxScraper from app.connectors.direct_scrapers.hdporn92 import HDPorn92Scraper # noqa: F401 — kept for backref; disabled from app.connectors.direct_scrapers.hqporner import HQPornerScraper from app.connectors.direct_scrapers.latestleaks import LatestLeaksScraper from app.connectors.direct_scrapers.latestpornvideo import LatestPornVideoScraper from app.connectors.direct_scrapers.mypornerleak import MyPornerLeakScraper from app.connectors.direct_scrapers.perverzija import PerverzijaScraper from app.connectors.direct_scrapers.porn4days import Porn4DaysScraper from app.connectors.direct_scrapers.pornditt import PornDittScraper from app.connectors.direct_scrapers.porndish import PornDishScraper from app.connectors.direct_scrapers.pornhat import PornHatScraper # noqa: F401 — kept for backref; ingest disabled from app.connectors.direct_scrapers.pornhub import PornHubScraper from app.connectors.direct_scrapers.porntrex import PornTrexScraper from app.connectors.direct_scrapers.redtube import RedTubeScraper from app.connectors.direct_scrapers.siska import SiskaScraper from app.connectors.direct_scrapers.sxyland import SxyLandScraper from app.connectors.direct_scrapers.sxyprn import SxyPrnScraper from app.connectors.direct_scrapers.watchporn import WatchPornScraper from app.connectors.direct_scrapers.xhamster import XHamsterScraper from app.connectors.direct_scrapers.xmoviesforyou import XMoviesForYouScraper from app.connectors.direct_scrapers.xnxx import XnxxScraper from app.connectors.direct_scrapers.xvideos import XVideosScraper from app.connectors.direct_scrapers.xxxfreewatch import XxxFreeWatchScraper # noqa: F401 — kept for backref; delisted from app.connectors.direct_scrapers.youporn import YouPornScraper from app.connectors.direct_scrapers.zerodayxx import ZeroDayXXScraper ALL_DIRECT_SCRAPERS: list[type[BaseDirectTubeScraper]] = [ # Existing 4 (verified, in production) HQPornerScraper, # HDPorn92Scraper — wyłączony 2026-05-18. Scene pages to SEO shell: ZERO player iframe # (tylko happyleafmotion ads), JS hijackuje wszystkie kliki → `go.rmishe.com/smartpop/...` # popunder redirect. Mobile WebView page-as-hoster pokazuje ad redirect zamiast video. # 33,598 playback_sources mass-marked dead, 27,374 solo-orphan scenes deleted. SxyLandScraper, # ZeroDayXXScraper — wyłączony 2026-05-12 (source quality report): 25,596 scen, 0.1% canonical # match. Slug-concat tytuły (`bella reese big butt ready to be filled with cum analized`) bez # `[Studio]` lub `Studio - Perf - Title` prefixu (parse rate 3%) → resolver nie ma żadnego # signalu do matchu. Wraps watchporn ale dziedziczy stripped metadata. Solo orphany usunięte # (~21k scen) — plik scrapera + extractor zostają (istniejące playback_sources nadal się # resolvują). # Mainstream (URL templates well-known) # PornHubScraper — wyłączony 2026-05-12 (analiza źródeł): 23,750 scen scrapnietych, # tylko 105 (0.4%) match z TPDB/StashDB. PH hostuje głównie własne shortened # clipy + amateur upload — nigdy nie zmatchują studio canonical content. Plik # zostaje (extractor `pornhubcom` używa go w playback resolve dla istniejących # playback_sources). # RedTubeScraper — wyłączony 2026-05-12 (analiza źródeł): 20,127 scen, 82 match # (0.4%). Same powody co PH (skrócone clipy + amateur upload). XVideosScraper, XnxxScraper, XHamsterScraper, YouPornScraper, PornTrexScraper, EpornerScraper, # Aggregators (WordPress-like ?s= search; speculative — verify post-deploy) # XMoviesForYouScraper — wyłączony 2026-05-12 (post audit fix). 100% scen serwuje # streamtape (DEAD_HOSTER_RE — malware drive-by .reg) + opcjonalnie playmogo/mixdrop. # Mixdrop zrebrandował na m1xdrop.bz, yt-dlp out-of-date, packer/JS extract = fail. # Playmogo = DoodStream CAPTCHA. Porn-app sam olewa xmoviesforyou (brak handlera w # jadx). 1,321 solo-orphan scen. # WatchPornScraper — wyłączony 2026-05-12 (user bug-report). Wszystkie iframes to # DoodStream variants (playmogo/d0000d/dooood/mivalyo) z CAPTCHA gate. WebView na # mobile = black screen (player JS nie inicjalizuje się przez Turnstile). 16% # scen solo (no backup tube), 84% multi-source — user może użyć innego tube. yt-dlp # nie wspiera DoodStream ("Piracy"), własny resolver TBD jeśli warto. # SiskaScraper — wyłączony 2026-05-16 (filemoon shutdown). Każda siska scena # embeduje filemoon iframe; filemoon.to/sx/nl serwują od ~2026-05 placeholder # "Byse Frontend" SPA bez player JS. 14,839 playback_sources mass-marked dead. # Plik scrapera + extractor zostają (mobile spróbuje resolve → DEAD_HOSTER_RE # filemoon blacklist → None → 503 — fine, te scenes są też dead_at-filtered). # SiskaScraper, # Porn4DaysScraper — wyłączony 2026-05-12 (post audit fix). 100% scen na streamtape # only (DEAD_HOSTER_RE blacklist - malware drive-by .reg downloads). SERVER1_URL = # streamtape, brak SERVER2/SERVER3 backup. Porn-app sam olewa porn4days. 10,346 # solo-orphan scen. PornDishScraper, # XxxFreeWatchScraper — wyłączony 2026-05-18. 790 scen, 0% canonical match, 100% solo-orphan. # Cloudflare 403 z VPS IP, mobile WebView teoretycznie działa ale 0/790 scen miało jakikolwiek # match do TPDB/StashDB. Pure orphan factory. Solo scenes deleted, scraper disabled. LatestPornVideoScraper, # LatestLeaksScraper — wyłączony 2026-05-12 (source quality report): 16,438 scen, 0.0% # canonical match. Slug-concat tytuły, brak studio/duration/date signali. Solo orphany # usunięte (~15k scen). MyPornerLeakScraper, # Added 2026-05-12 (theporndude survey): jeden z 14 free tubes na liście który # zwraca consistent search results. KVS engine, slug-aware scene URLs. Mostly # orphan ingest (auto-screenshots, no canonical phash match — sprawdzone), ale # może łapać sceny popularnych performerów których jeszcze nie mamy w TPDB. # PornHatScraper — wyłączony 2026-05-18. 9,799 scen, 0.2% canonical match, 100% solo-orphan. # Pure orphan factory — auto-screenshot thumbs nie matchują phash do canonical, slug tytuły # nie matchują rapidfuzz, brak duration/date signals. KEEP `pornhatcom` extractor i istniejące # playback_sources żywe — mobile może je odtwarzać; disable tylko future ingest. # PornDittScraper — wyłączony 2026-05-12 (bug-report 64356e9b). Każdy link # produkował nową Scene row zamiast matchować do istniejącej kanonicznej # (TPDB/StashDB) bo pornditt ma weak signal: title + cz. performera, brak # fingerprintu/duration/date → composite_score zawsze poniżej auto_merge # threshold (0.92). Plik scrapera + extractor zostają (istniejące playback_sources # nadal się resolvują, _REGISTRY w app/extractors/__init__.py odpala # `porndittcom` → _embed_iframe.extract). Re-enable wymaga albo # "alternative-source mode" w resolverze (match-only, never create new), # albo bogatszej extracji metadanych (duration + fingerprint). # Special SxyPrnScraper, PerverzijaScraper, FpoxxxScraper, ] # Browse-mode scrapers — iterują `latest-vids` listing zamiast search-by-performer. # Phash thumbnail fingerprint (waga 0.40 w composite scoring) auto-mergeuje do # canonical (TPDB/StashDB) gdy tube hot-linkuje studio thumbnail. Schedulowane # raz dziennie, pages 1-5. Patrz `_browse_base.BaseBrowseScraper` + # `app/scheduler/browse_latest.py`. # # **Pilot results (2026-05-12):** # - ShyfapScraper: 0/23 match (0%) — robi własne thumbnails ≠ canonical # (phash Hamming 12-16). Plus rebranduje tytuły. **Wyłączony.** # - FreshpornoScraper: 39/59 match (66%) — hot-linkuje studio thumbnaile # (phash Hamming 0). Oryginalne tytuły + channels=studio 1:1. **Aktywny.** from app.connectors.direct_scrapers.freshporno import FreshpornoScraper # noqa: E402 from app.connectors.direct_scrapers.porn00 import Porn00Scraper # noqa: E402 from app.connectors.direct_scrapers.pornxp import PornXPScraper # noqa: E402 from app.connectors.direct_scrapers.shyfap import ShyfapScraper # noqa: E402, F401 ALL_BROWSE_SCRAPERS: list[type[BaseBrowseScraper]] = [ FreshpornoScraper, # PornXPScraper — pilot 2026-05-17 (20 scen): studio 100%, performer 95%, # release_date 100%, duration 100%, stream_url 100%, phash 100%. Najlepsze # sygnały spośród browse-mode scraperów. Stream direct mp4 (sv.porn-xp.com) # 360/720 quality. Release year z `Released: ` na detail. PornXPScraper, # Porn00Scraper — pilot 2026-05-17 (16 scen): brak studio (0%) + brak release # date (0%) ALE performer 100%, duration 100%, stream_url 100% (KVS video_alt_url # 720p). Tytuł zachowuje studio prefix ("Studio Title - Scene Name") → title # fuzzy match (rapidfuzz token_set_ratio) może załapać canonical. Monitorować. Porn00Scraper, # ShyfapScraper — wyłączony 2026-05-12 (pilot fail, 0% match — orphan factory). # Follow-up: dorobić te tubey i sprawdzić phash distance: # - fullmovies.xxx (channel/network/pornstars/categories, brak duration) # - 4k69.com + hdporn.gg (klony freshporno — prawdopodobnie ten sam phash hit rate) ] __all__ = [ "BaseDirectTubeScraper", "BaseBrowseScraper", "ALL_DIRECT_SCRAPERS", "ALL_BROWSE_SCRAPERS", ]