Česky | English
7F14047 HaBiT - Získávání velkých textových dat pro jazyky s nedostatečným množstvím jazykových zdrojů
Začátek projektu: 1.10.2014
Konec projektu: 30.4.2017
O projektu
Hlavním cílem projektu Habit je jednak shromáždit velká textová data (korpusy) z Webu pro jazyky s nedostatečnými zdroji včetně norštiny a částečně češtiny a také hlavní etiopské jazyky - amharštinu, afaan oromštinu, tingrinštinu, somálštinu a jednak vytvořit aplikace pro jejich mělké zpracování. Získaná data budou zpracována tak, aby mohla být použita v řadě jazykových aplikací, jako je extrakce informací a strojový překlad. V průběhu budování korpusových dat budou dále vyvíjeny a zlepšovány existující nástroje pro získávání webových textových zdrojů, protože etiopské jazyky se výrazně liší od od většiny evropských jazyků. Aplikace pro zmíněné jazyky budou budovány tak, aby dovolily zkoumat a vyčleňovat víceznačnost slovních významů.
Cíle projektu
- Vytvoření repozitáře pro zkoumané jazyky a zveřejnění jej veřejnosti pro další výzkum (zejména v Etiopii a Norsku).
- Prezentování výsledků vytvořených v Projektu výzkumné komunitě a šířit je pomocí webové stránky Projektu HaBiT.
- Dostupnost výsledků pomůže posunout výzkum v oblasti s nedostatečným množstvím zdrojů a dále přispěje k šíření znalostí o daných jazycích v dlouhodobém měřítku.
- Výsledky projektu budou nápomocny při získávání informačních technologií v méně rozvinutých zemí a přispějí k jejich kulturnímu rozvoji.
Partneři projektu
- MU: Masarykova univerzita, Brno
- NTNU: Norges teknisk-naturvitenskapelige universitet, Trondheim
v kooperaci s UIO: The University of Oslo, Oslo (The Text Lab),
AAU: Addis Ababa University and
HU: Hawassa University
Projektový tým
MU tým
Centrum zpracování přirozeného jazyka (CZPJ) je součástí Fakulty informatiky Masarykovy univerzity v Brně a tvoří jej K. Pala, A. Horák, P. Rychlý a Ph.D. studenti: V. Suchomel, V. Baisa, M. Jakubíček, a výzkumní pracovníci: V. Kovář, Z. Nevěřilová, A. Rambousek. Mezi hlavní výzkumní aktivity patří korpusová lingvistika a zpracování velmi velkých textových dat (které jsou klíčové v rámci projektu HaBiT), sémantický web a vizuální lexikony, vytváření lexikálních databází a softwarových nástrojů pro ně, dále i strojový překlad. Nástroje vytvořené v CZPJ se používají ve výzkumných institucích po celém světě a také i ve velkých vydavatelstvích v Anglii (OUP, Cambridge University Press, MacMillan). V rámci této činnosti spolupracuje CZPJ s firmou Lexical Computing Ltd.
NTNU tým
Tým zabývající se zpracováním jazyka na NTNU spadá pod Artificial Intelligence division of the Department of Computer and Information Science. Norský tým v projektu HaBiT zahrnuje Björn Gambäck (Professor of Language Technology, NTNU), Janne Bondi Johannessen (Professor at the Text Laboratory, University of Oslo), PhD studenta (bude doplněno) a výzkumných pracovníků: L. Bungum, H. Moen, kteří spolu vytváří silný tým pro jazykové tehcnologie a reprezentaci znalostí, a v rámci vytváření jazykových zdrojů, jak pro norštinu, tak i pro etiopštinu. V projektu HaBiT se bude tým zaměřovat a vést výzkumné aktivity spojené s vytvářením korpusů, anotacemi a zpracováním norštiny a etiopštiny. NTNU také spolupracuje s University in Oslo a univerzitami v Addis Ababa and Hawassa v Etiopii v rámci projektu pro podporu vytváření lingvistických zdrojů v Etiopii, který je podpořen Norad v programu NORHED.
Veřejné výstupy (doplňováno) / anglicky
Podpora
Výzkum, který vedl k těmto výsledkům, získal finanční prostředky z Norského finančního mechanismu na období 2009-2014 a Ministerstvem školství, mládeže a tělovýchovy v rámci Rozhodnutí MSMT-28477/2014.
Kontakt
- Informace: info@habit-project.eu
- Koordinátor: pala@fi.muni.cz
Attachments (2)
- no_grant.jpg (38.2 KB) - added by 9 years ago.
- msmt_grant.jpg (84.5 KB) - added by 9 years ago.
Download all attachments as: .zip