Natuurlike Taalverwerking (NLP) is rekenaarlinguistiek vir kunsmatige intelligensie toepassings.

Stemmers, of in die geval die Snowball stemmer, is 'n belangrike boublok wat woordstamme vind in die soektog na mening in teks.

Ek het begin met die ontwikkeling van 'n Afrikaanse stemmer wat julle hier kan uitprobeer:

SnowballStemmer

Dinge wat hierdie stemmer gestruktureer het.

Afrikaanse stemmer riglyne:

  • Poog om die stemkerne van woorde geskik te maak vir verdere prosessering. Ek dink hier aan die opbreek van saamgestelde woorde.
  • Stem woorde na die verkorte vorm. Waar daar nie een kortvorm bestaan nie neig ek na die werkwoordvorm. Waar woorde Latynse oorsprong het, word hulle dikwels gereduseer na die Latynse kortvorm.

Ek moes 'n hele metodologie ontwikkel vir die skep van 'n matriks regex teksverwerkings.

Publikasie van die Stemmer vir algemene gebruik

Ek benodig toetsdata (stelle woorde wat almal dieselfde stem behoort te hê). Wanneer die stemmer in 'n goeie staat is sal ek die beskikbaar maak vir die NLTK oopbron sagteware.

Ek benodig omvattende toetsdata van stelle woorde ,- waar elke stel reduseer na dieselfde stamwoord. Twee voorbeelde van stelle toetsdata:

  • dupliseer duplikaat duplikasie duplikasies duplikate duplikator duplikators duplisering gedupliseer gedupliseerde geredupliseer reduplikasie reduplikasies redupliseer
  • substituut gesubstitueer substitueer substituerende substitusie substitusies substitute

Kris van der Merwe

krisvan 2023-02-13 07h53

PuzzleFoundry
PuzzleMan