Changes between Initial Version and Version 1 of Documentatie/Beheerder/HowTos/Stopwoorden


Ignore:
Timestamp:
11/04/16 10:33:12 (9 years ago)
Author:
adriaan
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • Documentatie/Beheerder/HowTos/Stopwoorden

    v1 v1  
     1[[TOC(heading=Stopwoorden)]] 
     2[[TOC(heading=HOWTO, sectionindex, compact, depth=3, allactive, Documentatie/Beheerder/HowTos/)]] 
     3[[TOC(heading=Beheerder, sectionindex, compact, depth=2, allactive, indirect=Documentatie/Beheerder/TOC)]] 
     4[[TOC(heading=Documentatie, sectionindex, compact, depth=1, allactive, Documentatie/)]] 
     5 
     6== Stopwoorden == 
     7 
     8OpenAC ondersteunt op veel plaatsen een zoekfunctionaliteit. Bij het zoeken, wordt gezocht naar een woord (of begin van een woord) ergens in een record in OpenAC. OpenAC bouwt zoekindexes op om deze zoekfunctionaliteit te ondersteunen. Bij tabel ''X_data'' (zeg, ''patient_data'') hoort een zoekindex ''X_index'' (zeg, ''patient_index''). 
     9 
     10Een zoekindex turft hoe vaak een bepaald woordt voorkomt, bij een bepaalde record in de tabel. Om te zien welke zoektermen allemaal bij een gegeven patiënt horen, kan je deze query uitvoeren: 
     11 
     12{{{ 
     13SELECT woord, patient_key, teller 
     14FROM patient_index 
     15WHERE patient_key = '{{key}}' 
     16}}} 
     17 
     18Hetzelfde geldt voor andere tabellen met een zoekindex (maar niet elke tabel heeft een zoekindex). 
     19 
     20=== Lijsten === 
     21 
     22OpenAC kent verschillende stopwoordenlijsten. Een daarvan is vast geprogrammeerd op basis van tekst-frequentie analyse; de lijst staat in de broncode en is te vinden in `include/encoding.py`. 
     23 
     24Een andere stopwoordenlijst is die van de tussenvoegsels. OpenAC kent een vaste lijst tussenvoegsels voor (achter)namen, en indexeert die ook niet. Er is soms overlap tussen namen en tussenvoegsels: ''Onder'' is zowel tussenvoegsel, als een achternaam op zich. 
     25 
     26Als er patiënten zijn met een achternaam die in een stopwoordenlijst voorkomt, dan zijn die patiënten niet gemakkelijk op te zoeken op naam. In dergelijke gevallen kan het nuttig zijn om de lijsten aan te passen. 
     27 
     28=== Stopwoorden Verwijderen === 
     29 
     30Stopwoordenlijsten worden voorgesteld in OpenAC als een Python dictionary. Er zijn twee stopwoordenlijsten: 
     31 - `include.encoding.basislijst_stopwoorden` 
     32 - `kern.d020_naw.stopwoordenlijst_voorvoegsels` 
     33Om een stopwoord te verwijderen uit de lijsten, verwijder de het woord als key (kleine letters) uit de bijbehorende lijst. Dat kan programmamatisch gedaan worden in de `finish()` van de adaptatie.