| 2 | |
| 3 | == Source == |
| 4 | |
| 5 | The source for this corpus was taken from !OpenSubtitles corpus made available within [[http://opus.lingfil.uu.se/OpenSubtitles2016.php|OPUS2 parallel corpus]]. |
| 6 | |
| 7 | == Statistics == |
| 8 | |
| 9 | Czech part: 32,345,496 tokens, 24,101,302 words, 4,235,111 segments (utterances, sentences). |
| 10 | Norwegian part: 32,549,746 tokens, 25,503,941 words. |
| 11 | |
| 12 | == Examples == |
| 13 | |
| 14 | === Norwegian words with more than 100,000 occurrences === |
| 15 | |
| 16 | {{{ |
| 17 | er 821,781 |
| 18 | det 589,721 |
| 19 | du 554,116 |
| 20 | Jeg 547,501 |
| 21 | ikke 506,186 |
| 22 | jeg 418,217 |
| 23 | en 360,871 |
| 24 | i 341,400 |
| 25 | har 315,050 |
| 26 | Det 310,092 |
| 27 | på 307,877 |
| 28 | å 296,603 |
| 29 | og 293,047 |
| 30 | til 271,992 |
| 31 | deg 259,043 |
| 32 | meg 245,155 |
| 33 | med 242,594 |
| 34 | for 213,835 |
| 35 | Du 211,802 |
| 36 | at 204,376 |
| 37 | som 203,379 |
| 38 | vi 171,073 |
| 39 | var 165,487 |
| 40 | kan 162,222 |
| 41 | av 160,980 |
| 42 | om 149,962 |
| 43 | den 148,767 |
| 44 | vil 147,605 |
| 45 | så 147,174 |
| 46 | Vi 145,267 |
| 47 | et 138,850 |
| 48 | han 126,251 |
| 49 | skal 119,570 |
| 50 | Hva 110,797 |
| 51 | de 110,202 |
| 52 | Han 107,929 |
| 53 | må 101,278 |
| 54 | }}} |
| 55 | |
| 56 | === Czech words with more than 100,000 occurrences === |
| 57 | |
| 58 | {{{ |
| 59 | to 656,606 |
| 60 | se 560,332 |
| 61 | je 422,521 |
| 62 | že 345,153 |
| 63 | na 327,317 |
| 64 | jsem 309,133 |
| 65 | a 297,950 |
| 66 | si 231,641 |
| 67 | v 201,975 |
| 68 | co 172,431 |
| 69 | To 160,908 |
| 70 | s 152,526 |
| 71 | A 149,175 |
| 72 | mi 142,779 |
| 73 | mě 132,047 |
| 74 | tak 121,439 |
| 75 | jsi 118,647 |
| 76 | do 113,030 |
| 77 | o 112,856 |
| 78 | Je 106,979 |
| 79 | }}} |
| 80 | |
| 81 | === Example parallel segments === |
| 82 | |
| 83 | {{{ |
| 84 | Om jeg hadde $ 300, kunne jeg kommet meg til Tyskland. <==> Ne, ale kdybych měl 300$, dostal bych se do Německa. |
| 85 | Aldri i livet! <==> Až naprší a uschne. |
| 86 | Jeg vil bli her... og fiske, slik Manuel gjorde. <==> Chci zůstat tady... a jezdit na ryby, jako Manuel. |
| 87 | Transilvania. <==> Transylvánie. |
| 88 | "Polka-Dot banditten og gjengen beskyldt for å utføre røveriet" <==> "Podezření padá na banditu Polka-Dot ." |
| 89 | Fortsette som før? <==> Jako dřív? |
| 90 | Nå har vi rikelig med sol for smilefjeset. <==> Tedˇ svítí sluníčko pro pana Štˇastného. |
| 91 | Det minner meg om de ødelagte forsvarsverker på mitt eget slått i Transilvania. <==> Připomíná mi to zchátralé cimbuří mého vlastního hradu v Transylvánii. |
| 92 | Ikke minn meg på det. <==> Nepřipomínej mi to. |
| 93 | Følge etter? <==> - Sledovat? |
| 94 | }}} |