Fórumok
Sziasztok.
Nagyobb szóhalmazokból gyűjtött értelmes szöveg szétszedését szeretném megvalósítani oly módon, hogy minden szót leszótövezek, majd sorbarendezem, a duplikáltakat törlöm. (Utóbbi kettő csípőből megy, de az első lépés nem.)
Régen erre valahol olvastam egy nagyon remek leírást, de elfelejtettem, mi volt a recept. Annyit tudok, hogy a script a hunspellt használta.
Hozzászólások
elnézést a fentiért, már meg is találtam.
10-féle lény van:
-- aki ismeri a bináris számrendszert,
-- és amelyik nem.
...de ez sajnos az igéket meghagyja ragozott alakban.
10-féle lény van:
-- aki ismeri a bináris számrendszert,
-- és amelyik nem.
Pl. magyarlanc3?
Az igék szótövezésével van már csak a problémám, elképzelésem sincs, hogyan lehetne.
10-féle lény van:
-- aki ismeri a bináris számrendszert,
-- és amelyik nem.
Arról senkinek nincs elképzelése. Mert ilyen a magyar nyelv. Ez nem angol, ahol csak 1-2 végződést, meg szó végi 1-2 extra mássalhangzót kell észrevenni. A magyarban komplett változó tövek meg magánhangzó-harmonizáció van, többszörös rag/jel-halmozódás, itt nem olyan egyszerű szótövezni. Legalábbis nem automatán. Sose lesz tökéletes, kézzel mindig bele kell nyúlni.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
eszik, enne, egyél, ehet, ...
Nem olyan egyszerű ez, talán 130 csoport jött össze az igékhez még a kilencvenes évek elején, és akkor nyelvészek próbálták összeállítani a véges automatákat, mely leírta a szavak, képzők, jelek és ragok kapcsolatát, ahonnan majd el lehetett indulni visszafele. Reménytelen, hogy ráakadjak a Pascal forrásra. A módszer talán a II. Magyar Alkalmazott Nyelvészeti Konferencia, 1992 (Hungarian Edition): Magyar Alkalmazott Nyelvészeti Konferencia: 9789637332296: Amazon.com: Books kötetben elérhető.
AL
Az említett igéket úgy látom a magyarlanc jól kezeli:
https://rgai.inf.u-szeged.hu/magyarlanc-service/index.jsp
Ez nagyon jó!
De ezen pl. elbukik: megszentségteleníthetetlenségeskedéseitekért
Higgyétek el, nem olyan könnyű ez.
cukor-cukrot ló-lovat inni-iszik-megitta... hát, ez sima mintakereséssel nem fog menni.
-fs-
Az olyan tárgyakat, amik képesek az mc futtatására, munkaeszköznek nevezzük.
A követ minden követ követ.
Na ezt szótövezze egy algoritmus :-) Egy főnév alanyesetben, egy főnév tárgyesetben, és egy ige. Ha a mondat egészét nem érti az algoritmus, sosem fogja tudni helyesen megállapítani, melyik az a "követ", amelyiknek nem ez a szótöve.
Kezdem felfogni.
Bár ez az eset egy rendhagyó példa. Ilyenekre az algoritmus kérheti a humanoid beavatkozását.
10-féle lény van:
-- aki ismeri a bináris számrendszert,
-- és amelyik nem.
Még mindig nem egészen érted: az algoritmus honnan fogja tudni, hogy mikor szükséges emberi beavatkozás? Pont ez az, hogy a fenti példamondatban mindhárom „követ” szót azonosan kezeli, egy szóként tekintve rá, és még gyanakodni se fog, hogy itt valami másról lesz szó.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
Néhány példa:
csapvíz
nyúlfarknyit
zártcsap
jó-reggelt a pálinka
halfog
A morfológiai elemző ilyenkor minden felbontást meg tud találni (nagyjából ugyanaz, mint a lexikai elemző fordítóprogramoknál, értelmezőknél). Az eggyel magasabb szinten kell kiválogatni, hogy melyik kombinációk tekinthetőek helyes mondatoknak.
Ha csak szótövek kellenek, akkor max. lesz pár felesleges/téves találat. Mivel most sem tudjuk, hogy mi az egész haszna, lehet, hogy nem jelent problémát.
AL
Javasolnám a magyar nyelvi korpuszt (Magyar Nemzeti Szövegtár). Hátha ezen már el lehet indulni.
http://mnsz.nytud.hu/
"Share what you know. Learn what you don't."
Szerintem ez a legjobb: https://github.com/nytud/emtsv (lásd még: http://e-magyar.hu/hu/textmodules/emlem )
Ez kevésbé teljesít jól, viszont egyszerűbb bánni vele, mint rendszerrel: https://github.com/oroszgy/spacy-hungarian-models
Ha nemcsak magyar, hanem más nyelvek is érdekelnek, akkor pl.: https://spacy.io/usage/models
Sub
sub