( arpi_esp | 2019. 12. 15., v – 18:10 )

felraktam a v0.5 betajat:   

http://thot.banki.hu/deepspam/milter-v0.5-dev/

changelog:

- sajat html parser (nem dependel tobbet a html2text-re)
- sajat xml es html entity dekoder (kiderult hogy python3-ban bugzik a gyari)
- a txt2tok tool es az eml2token mar megy python2-vel is, es pypy-vel is.  lehet, hogy a tobbi is, de azt meg nem teszteltem :)

keszul az uj word2vec is, kb 90 giganyi szovegbol! ha meglesz, es jo lesz, akkor azzal tanitok egy uj modelt is.