( arpi_esp | 2020. 01. 02., cs – 22:27 )

Szerkesztve: 2020. 01. 03., p – 10:15

mai meglepi:  "Sěcuříty ňøtícě. Søměøňě håvě åccěss tø yøuř systěm."

"Thě fåct ís thåt yøü wěrě ínfěctěd wíth målwårě thrøügh ån ådült sítě thåt yøü vísítěd."

tehat elkezdtek intenziven hasznalni a vizualisan hasonlo karakterek (unicode confusables) trukkot spam-ekben is.

ugy tunik, hogy az unicodedata.normalize() nem kezeli le rendesen, pl. az athuzott 'o' betu (0xF8) eltunik a konverzio soran :(

osszedobtam egy sajat karakter konverzios tablat, reszben a confusables.txt, reszben a normalize() eredmenyei alapjan, helyenkent kezzel korrigalva/kiegeszitve:

http://thot.banki.hu/deepspam/unicode/

a kovetkezo verzioban mar ezt fogom hasznalni a normalize() helyett...

es ez annyira "szep":  ss="".join(confusables.get(ord(x),"?") if ord(x)>=128 else x for x in s)