EMA Nyílt Beszédarchívum bemutatása

(A katalógus itt érhető el)
Az EMA Nyílt Beszédarchívum (Open Speech Archive, EMA-OSA) célja kettős:
egyrészt az embertudományi kutatások (antropológia, folklorisztika,
néprajz, nyelvészet, szociológia, szociográfia, történettudomány,
zenetudomány) támogatása a hanganyagok megőrzésével és nyilvánossá
tételével, másrészt nyilt szoftveren alapuló beszédtechnológiai
infrastruktúra létrehozása. A nagyközönseg számára is nyitva áll, de
közvetlen hasznát elsősorban a fenti területek kutatói, illetve az
ezekről tanuló diákok látják.

Az EMA-OSA elsődleges fókusza a magyar és magyarországi kisebbségi
(pl. lovári, beás, stb.)  hanganyagok, de támogatjuk a környező országok
nemzeti és kisebbségi nyelveit, nyelvjárásait is. Elsődleges forrásaink
ennek megfelelően Magyarország, Románia (Erdély, Bukarest), Szlovákia
(Felvidék), Ukrajna (Kárpátalja), Szerbia (Vajdaság), Szlovénia, Ausztria
(Burgenland), és az amerikai (USA, stb) diaszpóra körében végzett
kutatások, illetve ezen országok nyiltan letölthető, szerzői jogvédelem
alatt nem álló műsoros anyagai. A copyright-visszaélések elkerülése
érdekében kerüljük a zenés anyagokat (kivétel a kutatásban rögzi2tett
népdalok), és a műsoroknak csak a hang-anyagát tároljuk, a videót nem.
A magyaron kívül a rendszerben jelenleg a következő nyelveken van anyag:
román, cigány, beás, szlovák, szerb, horvát, szlovén, ukrán, német, angol
spanyol.

Az EMA-OSA önálló kutatást, hangrögzítést nem végez, de integrálja
ilyenek anyagát: a már meglevő archívumok közül a TK (adatgazdák
Kovács Éva, Gárdos Judit), a frissen nyilvánosságra kerülők közül a
volt 56-os Intézet anyagait (Kozák Gyula, Donáth Ferenc) emeljük
ki. Ezeken kívül a katalógus fő hazai elemei lesznek (zárójelben az
adatgazdák):

1. OSzK (Somlai Katalin, Kőrösi Zsuzsa)

2. MTA Kisebbségkutató (Feischmidt Margit, Kállai Ernő, Máté Dezső, Papp
Z. Attila, Mouraszki András)

3. MTA Szociológai Intézet (Neményi Mária, Kóczé Angéla, Janky Béla, Szalay
Júlia, Kovács Éva)

4. Más hazai intézetek (Havas Gábor, Lengyel Gabriella, Németh Szilvia, Zolnay
János, Virág Tünde stb.)

Románia (Erdély, Bukarest)

6. Kisebbségkutató Kolozsvár (Fosztó László, Kiss Tamás, Vitos Katalin,
Lőrincz József)

7. Molnár Gusztáv hatalmas interjú anyaga (magyarul, románul)

8. Sapientia (Marosvásárhely): Gagyi József (interjúk)

9. Kriza Társaság (Kolozsvár): Szabó Töhötöm Babes-Bolyai Egyetem: Tánczos
Vilmos, Pozsony Ferenc

10. Kolozsvári, Marosvásárhelyi Rádió anyagai (Maksay Ágnes, Tibád Zoltán,
adatgazdák):

1. OSzK (Somlai Katalin, Kőrösi Zsuzsa)

2. MTA Kisebbségkutató (Feischmidt Margit, Kállai Ernő, Máté Dezső, Papp
Z. Attila, Mouraszki András)

3. MTA Szociológai Intézet (Neményi Mária, Kóczé Angéla, Janky Béla, Szalay
Júlia, Kovács Éva)

4. Más hazai intézetek (Havas Gábor, Lengyel Gabriella, Németh Szilvia, Zolnay
János, Virág Tünde stb.)

Románia (Erdély, Bukarest)

6. Kisebbségkutató Kolozsvár (Fosztó László, Kiss Tamás, Vitos Katalin,
Lőrincz József)

7. Molnár Gusztáv hatalmas interjú anyaga (magyarul, románul)

8. Sapientia (Marosvásárhely): Gagyi József (interjúk)

9. Kriza Társaság (Kolozsvár): Szabó Töhötöm Babes-Bolyai Egyetem: Tánczos
Vilmos, Pozsony Ferenc

10. Kolozsvári, Marosvásárhelyi Rádió anyagai (Maksay Ágnes, Tibád Zoltán,
Gáspár Sándor)

Az embertudományi kutatások mellett egyenrangúan fontos a magyar
számítógépes beszédtechnológia fejlesztése különösen abban a
tekintetben, hogy nyílt forráskódú eszközök váljanak mind a
beszédtechnológusok, mind a beszéd számitógépes feldolgozására
készülő de beszédtechnológiában járatlan felhasználók számára.

A főbb eszközcsaládok a következők:

1. Automatikus formátum-felismerés és konverzió az egyes formátumok
(pl. flac, ogg, avi, mp3, wav) között.

2. Beszéd-aktivitás felismerése. Tartalmaz-e a felvétel egy adott szakasza
beszédet, vagy csak zenét, zajokat, vagy egyéb nem-nyelvi
megnyilvánulásokat (pl. krákogás, köhögés, nevetés).

3. A beszélt nyelv beazonosítása

4. Az egyes beszéők elkülönítése (pl. interjúknál a kérdező és a
válaszadó), naplókészítés (diarizáció) másodperces pontossággal.

5. Hosszú távon célunknak tekintjük a beszédfelismerés, és az ezen
alapuló technológiák (automikus leirat-készítés, hangalapú keresés)
feljesztését is, de az EMA-OSA erre ma még nem vállalkozik.