fix: triple nettoyage des liens team dans le script Python

- Pattern 1: Blocs <li> complets avec <Link>
- Pattern 2: Lignes contenant href="/team"
- Pattern 3: Blocs <li> contenant /team sur plusieurs lignes

Cela devrait supprimer tous les formats possibles de liens team
This commit is contained in:
syoul
2025-12-09 12:18:03 +01:00
parent 112ba401d7
commit a4f279480b

View File

@@ -242,10 +242,17 @@ try:
print("🧹 Nettoyage de tous les liens Équipe existants...") print("🧹 Nettoyage de tous les liens Équipe existants...")
# APPROCHE AGRESSIVE: Supprimer tous les blocs <li> contenant un lien vers /team # APPROCHE AGRESSIVE: Supprimer tous les blocs <li> contenant un lien vers /team
# Utiliser une regex multiligne pour détecter et supprimer les blocs complets # Utiliser plusieurs patterns pour capturer tous les cas possibles
# Pattern 1: <li>...<Link href="/team"...>...</Link>...</li>
team_link_block_pattern = r'<li[^>]*>.*?<Link[^>]*href=["\']/?team(/|\.html)?["\'][^>]*>.*?</Link>.*?</li>' team_link_block_pattern = r'<li[^>]*>.*?<Link[^>]*href=["\']/?team(/|\.html)?["\'][^>]*>.*?</Link>.*?</li>'
content_cleaned = re.sub(team_link_block_pattern, '', content, flags=re.DOTALL | re.IGNORECASE) content_cleaned = re.sub(team_link_block_pattern, '', content, flags=re.DOTALL | re.IGNORECASE)
# Pattern 2: Supprimer aussi les lignes contenant href="/team" même si elles ne sont pas dans un <li> complet
content_cleaned = re.sub(r'.*href=["\']/?team(/|\.html)?["\'].*\n', '', content_cleaned, flags=re.IGNORECASE)
# Pattern 3: Supprimer les blocs <li> qui pourraient contenir /team sur plusieurs lignes (format différent)
content_cleaned = re.sub(r'<li[^>]*>.*?/team.*?</li>', '', content_cleaned, flags=re.DOTALL | re.IGNORECASE)
# Compter combien de liens ont été supprimés # Compter combien de liens ont été supprimés
remaining_before = len(re.findall(r'href=["\']/?team(/|\.html)?["\']', content)) remaining_before = len(re.findall(r'href=["\']/?team(/|\.html)?["\']', content))
remaining_after = len(re.findall(r'href=["\']/?team(/|\.html)?["\']', content_cleaned)) remaining_after = len(re.findall(r'href=["\']/?team(/|\.html)?["\']', content_cleaned))