fix(tags): merge <base>2 numbered-duplicate tags + prevent regeneration

TPDB taxonomy emits numbered-duplicate tags (name "Bubble Butt2"); slugify yields "bubble-butt2" (no separator before digit), so resolve_tag created a separate tag alongside "bubble-butt". Tube scenes inherited the dup via scene-merge → 75 pairs, ~10k scene_tags on the wrong tag. - resolve_tag: canonicalize "<base>2" -> "<base>" when base exists (handles current + future; trailing-"2"+alpha guard leaves milf-30/teen18 intact) - scripts/merge_dup2_tags.py: one-off bulk merge (scene_tags + movie_tags + blacklist) and taxonomy-count refresh Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-06 23:18:44 +02:00 · 2026-06-06 23:18:44 +02:00 · fad72e9cd6
commit fad72e9cd6
parent 3cbfb1d490
2 changed files with 126 additions and 0 deletions
--- a/app/resolve/tag_resolver.py
+++ b/app/resolve/tag_resolver.py
@ -12,6 +12,22 @@ from app.normalize.scenes import NormalizedTag
 from app.normalize.text import slugify
 def _canonical_dup2_slug(session: Session, slug: str) -> str:
    """Kanonizuje numbered-duplicate slug `<base>2` → `<base>`.
    TPDB taxonomy emituje zduplikowane tagi z suffixem `2` (name "Bubble Butt2").
    `slugify` daje `bubble-butt2` (bez separatora przed cyfrą) → bez tego osobny tag
    obok `bubble-butt` z tysiącami scen (dup-tag bug 2026-06-06; backfill
    scripts/merge_dup2_tags.py). Gdy slug kończy się literą+"2" i baza istnieje jako
    tag, używamy bazy. Warunek `[-2].isalpha()` wyklucza legit sufiksy gdzie cyfra jest
    znacząca (milf-30, teen18 — nie kończą się "2"; chroni też przed "...22")."""
    if len(slug) > 1 and slug[-1] == "2" and slug[-2].isalpha():
        base = slug[:-1]
        if session.execute(select(Tag.id).where(Tag.slug == base)).first():
            return base
    return slug
 def resolve_tag(session: Session, *, norm: NormalizedTag) -> Tag | None:
    slug = norm.slug or slugify(norm.name)
    # DB columns: name VARCHAR(128), slug VARCHAR(128). Scraper occasionally
@ -20,6 +36,7 @@ def resolve_tag(session: Session, *, norm: NormalizedTag) -> Tag | None:
    # the whole ingest batch.
    if len(slug) > 120:
        return None
    slug = _canonical_dup2_slug(session, slug)
    tag = session.execute(select(Tag).where(Tag.slug == slug)).scalar_one_or_none()
    if tag is not None:
        return tag
--- a/scripts/merge_dup2_tags.py
+++ b/scripts/merge_dup2_tags.py
@ -0,0 +1,109 @@
 """Bulk-merge numbered-duplicate tagów: `<base>2` → `<base>`.
 Kontekst (2026-06-06): TPDB taxonomy emituje zduplikowane tagi z suffixem `2`
 (np. name "Bubble Butt2"). `slugify` daje `bubble-butt2` (bez separatora przed
 cyfrą), więc `resolve_tag` tworzy OSOBNY tag obok `bubble-butt`. Tubowe sceny
 dziedziczą dup-tag przez scene-merge → 75 par, ~10k scene_tags na złym tagu.
 Ten skrypt scala każdy `<base>2` (gdy `<base>` istnieje jako osobny tag) do bazy:
 scene_tags + movie_tags + blacklisted_tags przepisane (z deduplikacją na PK),
 dup-tag skasowany. Na koniec refresh zdenormalizowanych scene_count.
 Prewencja regeneracji żyje w `app/resolve/tag_resolver.py` (_canonical_dup2_slug).
 Użycie:
  python scripts/merge_dup2_tags.py [--dry-run]
 """
 from __future__ import annotations
 import argparse
 import logging
 from sqlalchemy import text
 from app.db import session_scope
 log = logging.getLogger("merge_dup2_tags")
 # Para = tag o slugu kończącym się literą+"2", którego baza (slug bez ostatniego
 # znaku) istnieje jako inny tag. `[a-z]2$` wyklucza wieloznakowe sufiksy (teen18,
 # milf-30, vr11111111) — tam ostatni znak nie jest "2" albo przedostatni to cyfra.
 _DUP_MAP_SQL = """
 SELECT d.id AS drop_id, d.slug AS drop_slug, d.scene_count AS drop_cnt,
       b.id AS keep_id, b.slug AS keep_slug, b.scene_count AS keep_cnt
 FROM tags d
 JOIN tags b ON b.slug = left(d.slug, length(d.slug) - 1)
 WHERE d.slug ~ '[a-z]2$'
 ORDER BY d.scene_count DESC
 """
 def main() -> None:
    ap = argparse.ArgumentParser()
    ap.add_argument("--dry-run", action="store_true")
    args = ap.parse_args()
    logging.basicConfig(level=logging.INFO, format="%(asctime)s %(levelname)s %(message)s")
    with session_scope() as s:
        pairs = list(s.execute(text(_DUP_MAP_SQL)))
        log.info("found %d dup pairs", len(pairs))
        for p in pairs:
            log.info("  %-32s (%5d) -> %-30s (%5d)", p.drop_slug, p.drop_cnt, p.keep_slug, p.keep_cnt)
        if not pairs:
            return
        # Temp tabela mapująca drop→keep — jeden set-based przebieg na wszystkie pary.
        s.execute(text("CREATE TEMP TABLE _dup_map ON COMMIT DROP AS " + _DUP_MAP_SQL))
        if args.dry_run:
            n = s.execute(text("SELECT count(*) FROM scene_tags st JOIN _dup_map m ON st.tag_id=m.drop_id")).scalar()
            nm = s.execute(text("SELECT count(*) FROM movie_tags mt JOIN _dup_map m ON mt.tag_id=m.drop_id")).scalar()
            log.info("DRY-RUN: would touch %d scene_tags + %d movie_tags across %d pairs", n, nm, len(pairs))
            s.rollback()
            return
        # 1) scene_tags: przepisz drop→keep tam gdzie scena NIE ma już keep (PK collision);
        #    resztę (sceny mające oba tagi) usunie CASCADE przy DELETE FROM tags.
        r1 = s.execute(text("""
            UPDATE scene_tags st SET tag_id = m.keep_id
            FROM _dup_map m
            WHERE st.tag_id = m.drop_id
              AND NOT EXISTS (SELECT 1 FROM scene_tags k
                              WHERE k.scene_id = st.scene_id AND k.tag_id = m.keep_id)
        """))
        log.info("scene_tags migrated: %d", r1.rowcount)
        # 2) movie_tags: analogicznie
        r2 = s.execute(text("""
            UPDATE movie_tags mt SET tag_id = m.keep_id
            FROM _dup_map m
            WHERE mt.tag_id = m.drop_id
              AND NOT EXISTS (SELECT 1 FROM movie_tags k
                              WHERE k.movie_id = mt.movie_id AND k.tag_id = m.keep_id)
        """))
        log.info("movie_tags migrated: %d", r2.rowcount)
        # 3) blacklisted_tags: przenieś blacklist z dup na bazę (gdyby ktoś zbanował dup-tag),
        #    żeby DELETE+CASCADE nie zgubił bana. ON CONFLICT pomija gdy baza już zbanowana.
        r3 = s.execute(text("""
            INSERT INTO blacklisted_tags (tag_id)
            SELECT m.keep_id FROM blacklisted_tags bt JOIN _dup_map m ON bt.tag_id = m.drop_id
            ON CONFLICT DO NOTHING
        """))
        if r3.rowcount:
            log.info("blacklist refs moved: %d", r3.rowcount)
        # 4) Skasuj dup-tagi. CASCADE sprząta pozostałe (kolizyjne) scene_tags/movie_tags/blacklist.
        rd = s.execute(text("DELETE FROM tags WHERE id IN (SELECT drop_id FROM _dup_map)"))
        log.info("dup tags deleted: %d", rd.rowcount)
        s.commit()
    # 5) Refresh zdenormalizowanych scene_count (hot-path /tags czyta gotową kolumnę).
    from app.scheduler.taxonomy_counts import refresh_taxonomy_counts
    changed = refresh_taxonomy_counts()
    log.info("taxonomy counts refreshed: %s", changed)
 if __name__ == "__main__":
    main()