Korpuste tükeldamine: rakendusi silpide ning allkeeltega

Keelekorpustes sisalduvat materjali on võimalik erineval moel tükeldada, andes sellega võimaluse uurida keele erinevaid tahkusid. Artiklis uurime kahte oma omadustelt väga erinevat tükeldust: teksti tükeldamist silpideks statistilise keelemudeli leidmise eesmärgil ning keele tükeldamist erin... Ausführliche Beschreibung

1. Person: Leo Võhandu verfasserin
Weitere Personen: Kairit Sirts verfasserin
Quelle: In Eesti Rakenduslingvistika Ühingu Aastaraamat (01.05.2009)
Weitere Artikel
Format: Online-Artikel
Sprache: English
Estonian
Veröffentlicht: 2009
Beschreibung: Online-Ressource
Online Zugang: Online
Online
Online
Online
Volltext
Tags: Hinzufügen
Keine Tags. Fügen Sie den ersten Tag hinzu!
  Creative Commons License Source: Directory of Open Access Journals (DOAJ).
LEADER 02766nma a2200289 c 4500
001 DOAJ024554707
003 DE-601
005 20190330072631.0
007 cr uuu---uuuuu
008 171226s2009 000 0 eng d
024 7 |a 10.5128/ERYa5.17  |2 doi 
035 |a (DE-599)DOAJ1f432ebc0e684b8ba979df0432dc9da2 
040 |b ger  |c GBVCP 
041 0 |a eng  |a est 
100 0 |a Leo Võhandu  |e verfasserin  |4 aut 
245 1 0 |a Korpuste tükeldamine: rakendusi silpide ning allkeeltega  |h Elektronische Ressource 
300 |a Online-Ressource 
520 |a Keelekorpustes sisalduvat materjali on võimalik erineval moel tükeldada, andes sellega võimaluse uurida keele erinevaid tahkusid. Artiklis uurime kahte oma omadustelt väga erinevat tükeldust: teksti tükeldamist silpideks statistilise keelemudeli leidmise eesmärgil ning keele tükeldamist erinevateks allkeelteks eesmärgiga leida eesti keele põhisõnavara. Silpidel baseeruv statistiline keelemudel hõlmab endas 500 kõige sagedamini esinenud silpi ning on kolmetasandiline, koosnedes silpide, silbipaaride ja silbikolmikute järgnevuse sagedustabelitest. Sagedustabel on oma olemuselt maatriks, mille ridadeks on kas silbid, silbipaarid või silbikolmikud ning veergudeks silbid. Ridade ja veergude ristumispunktides on arv, mis näitab, mitu korda vastav veeru silp esines tekstikorpuses vastava reaelemendi järel. Eesti pseudokeele generaator on silpidel baseeruva statistilise keelemudeli rakendus. Eesti pseudokeele generaatorit kasutades on võimalik genereerida teksti, mis ei ole küll päris eesti keel, aga kahtlemata kõlab eesti keelena. Silpide kategoriseerimise eesmärgiks on rühmitada silbid vastavalt nende võimalikele asukohtadele sõnas. Pakume välja algoritmi silpide automaatseks rühmitamiseks kasutades silpide sagedustabelit. Näitame eksperimentaalselt kümne silbi abil, kuidas silbid jagunevad algus-, lõpu- ja kesksilpideks. Keelt võib tükeldada n-ö põhisõnavara sisaldavaks üldkeeleks ning erinevateks allkeelteks, mis sisaldavad vastavat oskussõnavara. Käesolevas artiklis arutleme, kas ja kuidas on käesoleval ajal defineeritud üldkeel. Ühtlasi pakume välja algoritmi sellise põhisõnavara üheseks määratlemiseks arvuti abil.DOI: http://dx.doi.org/10.5128/ERYa5.17 
700 0 |a Kairit Sirts  |e verfasserin  |4 aut 
773 0 8 |i In  |t Eesti Rakenduslingvistika Ühingu Aastaraamat  |g  (01.05.2009)  |w (DE-601)DOAJ000054399  |x 1736-2563 
856 4 0 |u http://dx.doi.org/10.5128/ERYa5.17 
856 4 0 |y DOAJ  |u https://doaj.org/article/1f432ebc0e684b8ba979df0432dc9da2 
856 4 0 |u http://www.rakenduslingvistika.ee/ajakirjad/index.php/aastaraamat/article/view/106 
856 4 0 |u https://doaj.org/toc/1736-2563 
912 |a GBV_DOAJ 
951 |a AR 
952 |j 2009  |b 01  |c 05 

Ähnliche Einträge

Keine ähnlichen Titel gefunden

Privacy Notice Ask a Librarian New Acquisitions