Az összeset biztosan nem fogod megkapni viszont amit tehetsz
1. Veszel egy min 120GB SSD-t.
2. Letöltöd a Wikipédiát (
Index of /huwiki/)
3. Letöltesz annyi más szöveget amennyit csak tudsz. Irodalmi művek, Fórumok (főleg a trágár szavak miatt), Twitter stb. Csak UFT8 al foglakozz a többivel nagyon nagy a szívás.
4. Építesz egy nagy egyedi szó listát, amiben minden szó 1x szerepel.
5. Hunspell-lel elemezel minden szót és kigyűjtöd az igéket.
Pl: echo "építesz" | hunspell -d hu_HU -m
építesz st:épít po:vrb ts:PRES_INDIC_INDEF_SG_3 is:PRES_INDIC_INDEF_SG_2
De ha már amúgy is megvan az a sok szöveg akkor mindent csoportosíthatsz.
Ami gondot tud okozni az igéknél az a feltételes "ha .... volna'
Pl:
echo "ha megette volna" | hunspell -d hu_HU -m
ha st:ha po:noun ts:NOM al:ha-rá al:ha-ral al:ha-os al:ha-
ha st:ha po:con al:ha-rá al:ha-ral al:ha-os al:ha-
megette ip:PREF sp:meg st:eszik po:vrb is:PAST_INDIC_DEF_SG_3
volna st:van po:vrb is:PRES_COND_INDEF_SG_3
echo "ha megeszi volna" | hunspell -d hu_HU -m
ha st:ha po:noun ts:NOM al:ha-rá al:ha-ral al:ha-os al:ha-
ha st:ha po:con al:ha-rá al:ha-ral al:ha-os al:ha-
megeszi ip:PREF sp:meg st:eszi po:vrb is:PRES_INDIC_DEF_SG_3
volna st:van po:vrb is:PRES_COND_INDEF_SG_3
Könyvjelzők