2011. június 27.

Korpusznyelvészet - a korpuszkészítés alapjai 1.

Az előző korpusznyelvészeti posztban láthattuk hogy milyen elméleti megfontolásokat kell figyelembe vennünk mielőtt korpuszt használunk. Ezeket figyelembe véve érdemes tudnunk hogy milyen elvek mellett épül fel egy jó korpusz. Most a legalapvetőbb vezérelevekt és ajánlásokat vesszük sorra.

 

Leech maximái

A korpusznyelvészek körében Leech maximáit nagy tisztelet övezi, mivel betartásuk maximalizálja az adott korpusz használhatóságát és megoszthatóságát. Vegyük sorra ezeket:
  1. az annotáció legyen eltávolítható úgy hogy visszakaphassuk a nyers szöveget
  2. az annotáció legyen kinyerhető és külön tárolható a szövegtől
  3. az annotáció alapelvei legyenek hozzáférhetőek
  4. legyen világos hogy kik és hogyan végezték az annotációt
  5. a felhasználó számára legyen világos hogy az adott annotáció nem megfellebbezhetetlen hanem gyakorlati szempontokat követ hogy egy használható korpuszt kapjon
  6. az annotáció alapelvei legyenek elmélet semlegesek amennyire ez csak lehetséges
  7. nincs kitüntetett, standard annotáció
Ezek az alapelvek nem meglepőek, a legtöbb tapasztalati tudomány kívánatosnak tartja hogy az adatok begyűjtésének és rendszerezésének elvei nyilvánosak legyenek, hogy a kísérletek megismételhetőek legyenek mások által is. Ehhez kapcsolódik a lehető legsemlegesebb annotációs séma választásának maximája, hiszen eleve zavart okozhat ha valamely elmélet befolyása alatt rendszerezzük adatainkat. Egy semleges séma a különböző iskolák képviselőinek egyaránt megfelel. Az adatok megoszthatóságának elve sajnos gyakran csak el, de szép dolog, hiszen milyen jó lenne ha mindenki akár otthon is elemezhetne egy-egy korpuszt, azonban a szerzői jogok és a tudományos vaskalaposság gyakran közbeszól. (A Science Commons egy nagyon jó lehetséges megoldása lehet a problémának)

A legfontosabb standardok és alapelvek

Jelenleg a három nagy standard alakult ki, melyek betartása szinte kötelező minden új korpusz esetében. Ezek egymásra épülnek és kölcsönösen kiegészítik egymást. Megegyeznek abban hogy az XML (Extensible Markup Language) szabványra épülnek. Dióhéjban az XML lehetővé teszi hogy "mini-nyelveket" határozzunk meg a segítségével, így az annotációs sémánkat is leírhatjuk segítségével. Ennek nagy előnye hogy a tartalom (azaz a nyers szöveg) és az annotáció (vagy markup/jelölés) egyértelműen elkülönül mégpedig szabályosan így a Leech-i maximákat teljesen betarthatjuk. A három legfontosabb standard nem más mint annak meghatározása hogy miképp építsük fel "mini-nyelveinket". Ezek közül a legfontosabbak:
  • TEI - Text Endocing Initiative, a legátfogóbb standardok és ajánlások gyűjteménye, az oldalon található tutorialt mindenkinek ajánlom
  • EAGLES - Expert Advisory Groups on Language Engineering Standards, egy EUs projekt, a korpuszok, lexikonok, formális grammatikák és nyelvtechnológiai eszközök kiértékelésének alapelveit határozza meg. A dokumentumok átbogarászása alap ha EUs projektben veszel részt vagy olyan adatot használsz amit EUs projekt keretében fejlesztettek ki.
  • CES - Corpus Encoding Standard. A TEI és az EAGLES ajánlásain alapuló standard.
A jó hír az hogy minden EAGLES és/vagy CES alapú formátum megfelel a TEI ajánlásoknak (de fordítva nem feltétlenül áll fent a megfeleltetés!!!).

Karakterkódolás

Habár manapság a Unicode szabvány kezd elterjedni sokszor futhatunk bele olyan adatokba melyek nem szabványos karakterkódolással készültek. Érdemes áttekinteni a Wikipedia Character encoding szócikkét hogy megismerkedjünk a különböző kódolásokkal.

A Unicode alapjait a vontakozó Wikipedia szócikk nagyon jól bemutatja, a részletekért érdemes a The Unicode Consortium honlapján böngészni. Habár már nyolc éve írodott Joel Spolosky The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) posztja mindenkinek kötelező aki egy kicsit programozgatna is korpusz piszkálás közben (magyarán megkerülhetetlen).

Folyt.köv.

Az XML és a Unicode magában is megérdemel egy-egy posztot, így a sorozatban valamikor bővebben s fogunk foglalkozni a témával.

Nincsenek megjegyzések: