( arpi_esp | 2019. 12. 21., szo – 16:32 )

felraktam egy uj modelt:
http://thot.banki.hu/deepspam/model_big_v4/

- uj word2vec-re epul, amit novemberben szamolt kb 1 honapig a gep. ebben sokkal tobb a szoveg (magyar is!) a korabbinal, es mas nyelvek is belekerultek kisebb mertekben (de,fr,it,es)

- mivel az uj w2v sokkal jobb minosegu lett, le lehetett csokkenteni a model meretet kb a felere, igy is hozza ugyanazokat a szamokat :)  -> kevesebb RAM kell.

- ez meg a szeptemberi spam/ham datasetre (v3) epul, de abbol is keszul az uj, csak meg nem volt idom befejezni, talan majd az unnepek alatt / januar...

- keszult egy meg ujabb word2vec is decemberben ~90GB szovegbol es mas parameterekkel (cbow modszerrel skipgram helyett, es kisebb dimenzioval) de sajnos ez 1%-al rosszabb lett, igy ez ment a kukaba. ujraszamoltatom sg-vel de az megint 1 honap lesz, vagy inkabb 2... :)  (eredetileg ezt akartam az uj modelhez hasznalni, de igy elovettem az elozo sg-s verziot)