=== [[WikiStartCZ|Česky]] | [[WikiStart|English]] === #languages = 7F14047 HaBiT - Získávání velkých textových dat pro jazyky s nedostatečným množstvím jazykových zdrojů = Začátek projektu: 1.10.2014 [[BR]] Konec projektu: 30.4.2017 == O projektu == [[Image(WikiStart:amharic.jpg, width=30%, right)]] Hlavním cílem projektu Habit je jednak shromáždit velká textová data (korpusy) z Webu pro jazyky s nedostatečnými zdroji včetně norštiny a částečně češtiny a také hlavní etiopské jazyky - amharštinu, afaan oromštinu, tingrinštinu, somálštinu a jednak vytvořit aplikace pro jejich mělké zpracování. Získaná data budou zpracována tak, aby mohla být použita v řadě jazykových aplikací, jako je extrakce informací a strojový překlad. V průběhu budování korpusových dat budou dále vyvíjeny a zlepšovány existující nástroje pro získávání webových textových zdrojů, protože etiopské jazyky se výrazně liší od od většiny evropských jazyků. Aplikace pro zmíněné jazyky budou budovány tak, aby dovolily zkoumat a vyčleňovat víceznačnost slovních významů. == Cíle projektu == 1. Vytvoření repozitáře pro zkoumané jazyky a zveřejnění jej veřejnosti pro další výzkum (zejména v Etiopii a Norsku). 1. Prezentování výsledků vytvořených v Projektu výzkumné komunitě a šířit je pomocí webové stránky Projektu HaBiT. 1. Dostupnost výsledků pomůže posunout výzkum v oblasti s nedostatečným množstvím zdrojů a dále přispěje k šíření znalostí o daných jazycích v dlouhodobém měřítku. 1. Výsledky projektu budou nápomocny při získávání informačních technologií v méně rozvinutých zemí a přispějí k jejich kulturnímu rozvoji. == Partneři projektu == * MU: [http://www.fi.muni.cz/index.xhtml.en Masarykova univerzita], [http://www.google.com/maps/place/Botanická+68a,+Brno Brno] * NTNU: [http://www.ntnu.edu/ Norges teknisk-naturvitenskapelige universitet], [http://www.google.com/maps/place/Sem+Sælands+vei+7-9,+Trondheim,+Norway Trondheim] [[BR]] v kooperaci s UIO: [http://www.uio.no/english/ The University of Oslo], [https://www.google.com/maps/place/Niels+Henrik+Abels+vei+36,+Oslo,+Norway Oslo] ([http://www.hf.uio.no/iln/english/about/organization/text-laboratory/ The Text Lab]), [[BR]] AAU: Addis Ababa University and [[BR]] HU: Hawassa University == Projektový tým == === MU tým === Centrum zpracování přirozeného jazyka (CZPJ) je součástí Fakulty informatiky Masarykovy univerzity v Brně a tvoří jej K. Pala, A. Horák, P. Rychlý a Ph.D. studenti: V. Suchomel, V. Baisa, M. Jakubíček, a výzkumní pracovníci: V. Kovář, Z. Nevěřilová, A. Rambousek. Mezi hlavní výzkumní aktivity patří korpusová lingvistika a zpracování velmi velkých textových dat (které jsou klíčové v rámci projektu HaBiT), sémantický web a vizuální lexikony, vytváření lexikálních databází a softwarových nástrojů pro ně, dále i strojový překlad. Nástroje vytvořené v CZPJ se používají ve výzkumných institucích po celém světě a také i ve velkých vydavatelstvích v Anglii (OUP, Cambridge University Press, !MacMillan). V rámci této činnosti spolupracuje CZPJ s firmou Lexical Computing Ltd. === NTNU tým === Tým zabývající se zpracováním jazyka na NTNU spadá pod ''Artificial Intelligence division of the Department of Computer and Information Science''. Norský tým v projektu HaBiT zahrnuje Björn Gambäck (Professor of Language Technology, NTNU), Janne Bondi Johannessen (Professor at the Text Laboratory, University of Oslo), PhD studenta (bude doplněno) a výzkumných pracovníků: L. Bungum, H. Moen, kteří spolu vytváří silný tým pro jazykové tehcnologie a reprezentaci znalostí, a v rámci vytváření jazykových zdrojů, jak pro norštinu, tak i pro etiopštinu. V projektu HaBiT se bude tým zaměřovat a vést výzkumné aktivity spojené s vytvářením korpusů, anotacemi a zpracováním norštiny a etiopštiny. NTNU také spolupracuje s ''University in Oslo'' a univerzitami v Addis Ababa and Hawassa v Etiopii v rámci projektu pro podporu vytváření lingvistických zdrojů v Etiopii, který je podpořen Norad v programu NORHED. == Veřejné výstupy (doplňováno) / anglicky == * LanguageProperties * InformationEvents == Podpora == {{{ #!table style="border:none;text-align:center" {{{#!tr ==================================== {{{#!td style="border: none" [[Image(no_grant.jpg, width=150px,valign=middle)]] }}} {{{#!td style="border: none" [[Image(msmt_grant.jpg, width=150px,valign=middle)]] }}} }}} {{{#!tr ==================================== {{{#!td style="border: none" [http://www.norwaygrants.org Norské fondy] }}} {{{#!td style="border: none" [http://www.msmt.cz/index.php?lang=2 Ministerstvo školství, mládeže a tělovýchovy] }}} }}} }}} Výzkum, který vedl k těmto výsledkům, získal finanční prostředky z Norského finančního mechanismu na období 2009-2014 a Ministerstvem školství, mládeže a tělovýchovy v rámci Rozhodnutí MSMT-28477/2014. == Kontakt == * Informace: info@habit-project.eu * Koordinátor: pala@fi.muni.cz ---- [wiki:int/InternalWikiStart Interní Wiki]