11 | 12 | Hlavním cílem projektu Habit je jednak shromáždit velká textová data (korpusy) z Webu pro jazyky s nedostatečnými zdroji včetně norštiny a částečně češtiny a také hlavní etiopské jazyky - amharštinu, afaan oromštinu, tingrinštinu, somálštinu a jednak vytvořit aplikace pro jejich mělké zpracování. Získaná data budou zpracována tak, aby mohla být použita v řadě jazykových aplikací, jako je extrakce informací a strojový překlad. V průběhu budování korpusových dat budou dále vyvíjeny a zlepšovány existující nástroje pro získávání webových textových zdrojů, protože etiopské jazyky se výrazně liší od od většiny evropských jazyků. Aplikace pro zmíněné jazyky budou budovány tak, aby dovolily zkoumat a vyčleňovat víceznačnost slovních významů. |