felraktam a v0.5 betajat:
http://thot.banki.hu/deepspam/milter-v0.5-dev/
changelog:
- sajat html parser (nem dependel tobbet a html2text-re)
- sajat xml es html entity dekoder (kiderult hogy python3-ban bugzik a gyari)
- a txt2tok tool es az eml2token mar megy python2-vel is, es pypy-vel is. lehet, hogy a tobbi is, de azt meg nem teszteltem :)
keszul az uj word2vec is, kb 90 giganyi szovegbol! ha meglesz, es jo lesz, akkor azzal tanitok egy uj modelt is.