Az előző posztban végig vettük Leech maximáit, melyek segítenek minket abban hogy használható korpuszt készítsünk. Mivel egy korpusz általában szöveges (de nem szükségszerűen, hiszen már vannak audio korpuszok is) szükségünk van arra hogy a szöveget alkotó karaktereket is egységesen kezeljük, ez teszi lehetővé hogy igény szerinti formában jelenítsük meg, vagy hasonlítsuk össze az egyes korpuszokat. Ez nem csak az eredmények és adatok megosztását, de feldolgozását is megkönnyíti. Sajnos azonban ez nem mindig volt magától értetődő elv, szerencsénkre azonban a dolog változik és a Unicode szabvány terjedőben van. A posztban nem törekszünk arra hogy bemutassuk teljesen magát a szabvány, csupán a mögötte rejlő elveket vesszük sorra és egy kis eligazítást adunk hol tanulhat többet az érdeklődő olvasó (aki kényes a pontos megfogalmazásra és szeretne komolyabban elmerülni a témában, az inkább csak az ajánlott irodalmat fussa át).
A következő címkéjű bejegyzések mutatása: unicode. Összes bejegyzés megjelenítése
A következő címkéjű bejegyzések mutatása: unicode. Összes bejegyzés megjelenítése
2011. augusztus 3.
2011. június 27.
Korpusznyelvészet - a korpuszkészítés alapjai 1.
Posted by
Unknown
Az előző korpusznyelvészeti posztban láthattuk hogy milyen elméleti megfontolásokat kell figyelembe vennünk mielőtt korpuszt használunk. Ezeket figyelembe véve érdemes tudnunk hogy milyen elvek mellett épül fel egy jó korpusz. Most a legalapvetőbb vezérelevekt és ajánlásokat vesszük sorra.
Feliratkozás:
Bejegyzések (Atom)