fix: triple nettoyage des liens team dans le script Python
- Pattern 1: Blocs <li> complets avec <Link> - Pattern 2: Lignes contenant href="/team" - Pattern 3: Blocs <li> contenant /team sur plusieurs lignes Cela devrait supprimer tous les formats possibles de liens team
This commit is contained in:
@@ -242,10 +242,17 @@ try:
|
|||||||
print("🧹 Nettoyage de tous les liens Équipe existants...")
|
print("🧹 Nettoyage de tous les liens Équipe existants...")
|
||||||
|
|
||||||
# APPROCHE AGRESSIVE: Supprimer tous les blocs <li> contenant un lien vers /team
|
# APPROCHE AGRESSIVE: Supprimer tous les blocs <li> contenant un lien vers /team
|
||||||
# Utiliser une regex multiligne pour détecter et supprimer les blocs complets
|
# Utiliser plusieurs patterns pour capturer tous les cas possibles
|
||||||
|
# Pattern 1: <li>...<Link href="/team"...>...</Link>...</li>
|
||||||
team_link_block_pattern = r'<li[^>]*>.*?<Link[^>]*href=["\']/?team(/|\.html)?["\'][^>]*>.*?</Link>.*?</li>'
|
team_link_block_pattern = r'<li[^>]*>.*?<Link[^>]*href=["\']/?team(/|\.html)?["\'][^>]*>.*?</Link>.*?</li>'
|
||||||
content_cleaned = re.sub(team_link_block_pattern, '', content, flags=re.DOTALL | re.IGNORECASE)
|
content_cleaned = re.sub(team_link_block_pattern, '', content, flags=re.DOTALL | re.IGNORECASE)
|
||||||
|
|
||||||
|
# Pattern 2: Supprimer aussi les lignes contenant href="/team" même si elles ne sont pas dans un <li> complet
|
||||||
|
content_cleaned = re.sub(r'.*href=["\']/?team(/|\.html)?["\'].*\n', '', content_cleaned, flags=re.IGNORECASE)
|
||||||
|
|
||||||
|
# Pattern 3: Supprimer les blocs <li> qui pourraient contenir /team sur plusieurs lignes (format différent)
|
||||||
|
content_cleaned = re.sub(r'<li[^>]*>.*?/team.*?</li>', '', content_cleaned, flags=re.DOTALL | re.IGNORECASE)
|
||||||
|
|
||||||
# Compter combien de liens ont été supprimés
|
# Compter combien de liens ont été supprimés
|
||||||
remaining_before = len(re.findall(r'href=["\']/?team(/|\.html)?["\']', content))
|
remaining_before = len(re.findall(r'href=["\']/?team(/|\.html)?["\']', content))
|
||||||
remaining_after = len(re.findall(r'href=["\']/?team(/|\.html)?["\']', content_cleaned))
|
remaining_after = len(re.findall(r'href=["\']/?team(/|\.html)?["\']', content_cleaned))
|
||||||
|
|||||||
Reference in New Issue
Block a user