wiki:WikiStartCZ

Version 3 (modified by xkocinc, 8 years ago) (diff)

--

Česky | English

7F14047 HaBiT - Získávání velkých textových dat pro jazyky s nedostatečným množstvím jazykových zdrojů

Začátek projektu: 1.10.2014
Konec projektu: 30.4.2017

O projektu

Hlavním cílem projektu Habit je jednak shromáždit velká textová data (korpusy) z Webu pro jazyky s nedostatečnými zdroji včetně norštiny a částečně češtiny a také hlavní etiopské jazyky - amharštinu, afaan oromštinu, tingrinštinu, somálštinu a jednak vytvořit aplikace pro jejich mělké zpracování. Získaná data budou zpracována tak, aby mohla být použita v řadě jazykových aplikací, jako je extrakce informací a strojový překlad. V průběhu budování korpusových dat budou dále vyvíjeny a zlepšovány existující nástroje pro získávání webových textových zdrojů, protože etiopské jazyky se výrazně liší od od většiny evropských jazyků. Aplikace pro zmíněné jazyky budou budovány tak, aby dovolily zkoumat a vyčleňovat víceznačnost slovních významů.

Cíle projektu

  1. Vytvoření repozitáře pro zkoumané jazyky a zveřejnění jej veřejnosti pro další výzkum (zejména v Etiopii a Norsku).
  2. Prezentování výsledků vytvořených v Projektu výzkumné komunitě a šířit je pomocí webové stránky Projektu HaBiT.
  3. Dostupnost výsledků pomůže posunout výzkum v oblasti s nedostatečným množstvím zdrojů a dále přispěje k šíření znalostí o daných jazycích v dlouhodobém měřítku.
  4. Výsledky projektu budou nápomocny při získávání informačních technologií v méně rozvinutých zemí a přispějí k jejich kulturnímu rozvoji.

Partneři projektu

Projektový tým

MU tým

Centrum zpracování přirozeného jazyka (CZPJ) je součástí Fakulty informatiky Masarykovy univerzity v Brně a tvoří jej K. Pala, A. Horák, P. Rychlý a Ph.D. studenti: V. Suchomel, V. Baisa, M. Jakubíček, a výzkumní pracovníci: V. Kovář, Z. Nevěřilová, A. Rambousek. Mezi hlavní výzkumní aktivity patří korpusová lingvistika a zpracování velmi velkých textových dat (které jsou klíčové v rámci projektu HaBiT), sémantický web a vizuální lexikony, vytváření lexikálních databází a softwarových nástrojů pro ně, dále i strojový překlad. Nástroje vytvořené v CZPJ se používají ve výzkumných institucích po celém světě a také i ve velkých vydavatelstvích v Anglii (OUP, Cambridge University Press, MacMillan). V rámci této činnosti spolupracuje CZPJ s firmou Lexical Computing Ltd.

NTNU tým

The language processing team at NTNU belongs to the Artificial Intelligence division of the Department of Computer and Information Science. The Norwegian team in HaBiT will consist of Björn Gambäck (Professor of Language Technology, NTNU), Janne Bondi Johannessen (Professor at the Text Laboratory, University of Oslo), PhD student (to be appointed) and researchers: L. Bungum, H. Moen, together providing a strong background in language technology and knowledge representation, and in language resource building, both for Norwegian and for Ethiopian languages. Within the HaBiT project, the team will participate in and lead the research activities related to corpora building, annotation and processing for Norwegian and for the Ethiopian languages. Furthermore, NTNU is collaborating with University of Oslo and the universities in Addis Ababa and Hawassa in Ethiopia in a project to support linguistic capacity building in Ethiopia funded by Norad through the NORHED programme.

Veřejné výstupy (doplňováno) / anglicky

Podpora

Norské fondy

Ministerstvo školství, mládeže a tělovýchovy

Výzkum, který vedl k těmto výsledkům, získal finanční prostředky z Norského finančního mechanismu na období 2009-2014 a Ministerstvem školství, mládeže a tělovýchovy v rámci Rozhodnutí MSMT-28477/2014.

Kontakt


Interní Wiki

Attachments (2)

Download all attachments as: .zip