wiki:WikiStartCZ

Česky | English

7F14047 HaBiT - Získávání velkých textových dat pro jazyky s nedostatečným množstvím jazykových zdrojů

Začátek projektu: 1.10.2014
Konec projektu: 30.4.2017

O projektu

Hlavním cílem projektu Habit je jednak shromáždit velká textová data (korpusy) z Webu pro jazyky s nedostatečnými zdroji včetně norštiny a částečně češtiny a také hlavní etiopské jazyky - amharštinu, afaan oromštinu, tingrinštinu, somálštinu a jednak vytvořit aplikace pro jejich mělké zpracování. Získaná data budou zpracována tak, aby mohla být použita v řadě jazykových aplikací, jako je extrakce informací a strojový překlad. V průběhu budování korpusových dat budou dále vyvíjeny a zlepšovány existující nástroje pro získávání webových textových zdrojů, protože etiopské jazyky se výrazně liší od od většiny evropských jazyků. Aplikace pro zmíněné jazyky budou budovány tak, aby dovolily zkoumat a vyčleňovat víceznačnost slovních významů.

Cíle projektu

  1. Vytvoření repozitáře pro zkoumané jazyky a zveřejnění jej veřejnosti pro další výzkum (zejména v Etiopii a Norsku).
  2. Prezentování výsledků vytvořených v Projektu výzkumné komunitě a šířit je pomocí webové stránky Projektu HaBiT.
  3. Dostupnost výsledků pomůže posunout výzkum v oblasti s nedostatečným množstvím zdrojů a dále přispěje k šíření znalostí o daných jazycích v dlouhodobém měřítku.
  4. Výsledky projektu budou nápomocny při získávání informačních technologií v méně rozvinutých zemí a přispějí k jejich kulturnímu rozvoji.

Partneři projektu

Projektový tým

MU tým

Centrum zpracování přirozeného jazyka (CZPJ) je součástí Fakulty informatiky Masarykovy univerzity v Brně a tvoří jej K. Pala, A. Horák, P. Rychlý a Ph.D. studenti: V. Suchomel, V. Baisa, M. Jakubíček, a výzkumní pracovníci: V. Kovář, Z. Nevěřilová, A. Rambousek. Mezi hlavní výzkumní aktivity patří korpusová lingvistika a zpracování velmi velkých textových dat (které jsou klíčové v rámci projektu HaBiT), sémantický web a vizuální lexikony, vytváření lexikálních databází a softwarových nástrojů pro ně, dále i strojový překlad. Nástroje vytvořené v CZPJ se používají ve výzkumných institucích po celém světě a také i ve velkých vydavatelstvích v Anglii (OUP, Cambridge University Press, MacMillan). V rámci této činnosti spolupracuje CZPJ s firmou Lexical Computing Ltd.

NTNU tým

Tým zabývající se zpracováním jazyka na NTNU spadá pod Artificial Intelligence division of the Department of Computer and Information Science. Norský tým v projektu HaBiT zahrnuje Björn Gambäck (Professor of Language Technology, NTNU), Janne Bondi Johannessen (Professor at the Text Laboratory, University of Oslo), PhD studenta (bude doplněno) a výzkumných pracovníků: L. Bungum, H. Moen, kteří spolu vytváří silný tým pro jazykové tehcnologie a reprezentaci znalostí, a v rámci vytváření jazykových zdrojů, jak pro norštinu, tak i pro etiopštinu. V projektu HaBiT se bude tým zaměřovat a vést výzkumné aktivity spojené s vytvářením korpusů, anotacemi a zpracováním norštiny a etiopštiny. NTNU také spolupracuje s University in Oslo a univerzitami v Addis Ababa and Hawassa v Etiopii v rámci projektu pro podporu vytváření lingvistických zdrojů v Etiopii, který je podpořen Norad v programu NORHED.

Veřejné výstupy (doplňováno) / anglicky

Podpora

Norské fondy

Ministerstvo školství, mládeže a tělovýchovy

Výzkum, který vedl k těmto výsledkům, získal finanční prostředky z Norského finančního mechanismu na období 2009-2014 a Ministerstvem školství, mládeže a tělovýchovy v rámci Rozhodnutí MSMT-28477/2014.

Kontakt


Interní Wiki

Last modified 2 years ago Last modified on Jan 7, 2016 11:24:52 AM

Attachments (2)

Download all attachments as: .zip