= D2.4: Parallel Czech-Norwegian corpus, size 10 million tokens = == Source == The source for this corpus was taken from !OpenSubtitles corpus made available within [[http://opus.lingfil.uu.se/OpenSubtitles2016.php|OPUS2 parallel corpus]]. == Statistics == Czech part: 32,345,496 tokens, 24,101,302 words, 4,235,111 segments (utterances, sentences). Norwegian part: 32,549,746 tokens, 25,503,941 words. == Examples == === Norwegian words with more than 100,000 occurrences === {{{ er 821,781 det 589,721 du 554,116 Jeg 547,501 ikke 506,186 jeg 418,217 en 360,871 i 341,400 har 315,050 Det 310,092 på 307,877 å 296,603 og 293,047 til 271,992 deg 259,043 meg 245,155 med 242,594 for 213,835 Du 211,802 at 204,376 som 203,379 vi 171,073 var 165,487 kan 162,222 av 160,980 om 149,962 den 148,767 vil 147,605 så 147,174 Vi 145,267 et 138,850 han 126,251 skal 119,570 Hva 110,797 de 110,202 Han 107,929 må 101,278 }}} === Czech words with more than 100,000 occurrences === {{{ to 656,606 se 560,332 je 422,521 že 345,153 na 327,317 jsem 309,133 a 297,950 si 231,641 v 201,975 co 172,431 To 160,908 s 152,526 A 149,175 mi 142,779 mě 132,047 tak 121,439 jsi 118,647 do 113,030 o 112,856 Je 106,979 }}} === Example parallel segments === ||=Norwegian=||=Czech=|| ||Om jeg hadde $ 300, kunne jeg kommet meg til Tyskland.||Ne, ale kdybych měl 300$, dostal bych se do Německa.|| ||Aldri i livet!||Až naprší a uschne.|| ||Jeg vil bli her... og fiske, slik Manuel gjorde.||Chci zůstat tady... a jezdit na ryby, jako Manuel.|| ||Transilvania.||Transylvánie.|| ||"Polka-Dot banditten og gjengen beskyldt for å utføre røveriet"||"Podezření padá na banditu Polka-Dot ."|| ||Fortsette som før?||Jako dřív?|| ||Nå har vi rikelig med sol for smilefjeset.||Teď svítí sluníčko pro pana Šťastného.|| ||Det minner meg om de ødelagte forsvarsverker på mitt eget slått i Transilvania.||Připomíná mi to zchátralé cimbuří mého vlastního hradu v Transylvánii.|| ||Ikke minn meg på det.||Nepřipomínej mi to.|| ||Følge etter?||- Sledovat?||