Changes between Version 1 and Version 2 of ParallelCzechNorwegian


Ignore:
Timestamp:
Jan 16, 2017, 4:04:49 PM (8 years ago)
Author:
xbaisa
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • ParallelCzechNorwegian

    v1 v2  
    11= D2.4: Parallel Czech-Norwegian corpus, size 10 million tokens =
     2
     3== Source ==
     4
     5The source for this corpus was taken from !OpenSubtitles corpus made available within [[http://opus.lingfil.uu.se/OpenSubtitles2016.php|OPUS2 parallel corpus]].
     6
     7== Statistics ==
     8
     9Czech part: 32,345,496 tokens, 24,101,302 words, 4,235,111 segments (utterances, sentences).
     10Norwegian part: 32,549,746 tokens, 25,503,941 words.
     11
     12== Examples ==
     13
     14=== Norwegian words with more than 100,000 occurrences ===
     15
     16{{{
     17er      821,781
     18det     589,721
     19du      554,116
     20Jeg     547,501
     21ikke    506,186
     22jeg     418,217
     23en      360,871
     24i       341,400
     25har     315,050
     26Det     310,092
     27på      307,877
     28å       296,603
     29og      293,047
     30til     271,992
     31deg     259,043
     32meg     245,155
     33med     242,594
     34for     213,835
     35Du      211,802
     36at      204,376
     37som     203,379
     38vi      171,073
     39var     165,487
     40kan     162,222
     41av      160,980
     42om      149,962
     43den     148,767
     44vil     147,605
     45så      147,174
     46Vi      145,267
     47et      138,850
     48han     126,251
     49skal    119,570
     50Hva     110,797
     51de      110,202
     52Han     107,929
     53må      101,278
     54}}}
     55
     56=== Czech words with more than 100,000 occurrences ===
     57
     58{{{
     59to      656,606
     60se      560,332
     61je      422,521
     62že      345,153
     63na      327,317
     64jsem    309,133
     65a       297,950
     66si      231,641
     67v       201,975
     68co      172,431
     69To      160,908
     70s       152,526
     71A       149,175
     72mi      142,779
     73mě      132,047
     74tak     121,439
     75jsi     118,647
     76do      113,030
     77o       112,856
     78Je      106,979
     79}}}
     80
     81=== Example parallel segments ===
     82
     83{{{
     84Om jeg hadde $ 300, kunne jeg kommet meg til Tyskland.  <==>  Ne, ale kdybych měl 300$, dostal bych se do Německa.
     85Aldri i livet!  <==>  Až naprší a uschne.
     86Jeg vil bli her... og fiske, slik Manuel gjorde.  <==>  Chci zůstat tady... a jezdit na ryby, jako Manuel.
     87Transilvania.  <==>  Transylvánie.
     88"Polka-Dot banditten og gjengen beskyldt for å utføre røveriet"  <==>  "Podezření padá na banditu Polka-Dot ."
     89Fortsette som før?  <==>  Jako dřív?
     90Nå har vi rikelig med sol for smilefjeset.  <==>  Tedˇ svítí sluníčko pro pana Štˇastného.
     91Det minner meg om de ødelagte forsvarsverker på mitt eget slått i Transilvania.  <==>  Připomíná mi to zchátralé cimbuří mého vlastního hradu v Transylvánii.
     92Ikke minn meg på det.  <==>  Nepřipomínej mi to.
     93Følge etter?  <==>  - Sledovat?
     94}}}