Δευτέρα 8 Σεπτεμβρίου 2014

Διαδικτυακό Κείμενο - οι κυρίαρχοι όροι και οι κυρίαρχες λέξεις(2) - google index


Είδαμε ότι δεν υπάρχει και πολύ μεγάλη ταύτιση ελληνικού και αγγλικού Διαδικτυακού Κειμένου (ΔΚ), όταν συγκρίνουμε τα αποτελέσματα για τον μεικτό δείκτη glwkaz index για τους /τις 74 όρους/λέξεις του δείγματος (google index (δημοφιλία του/της όρου/λέξης)+wiki index (τάση του/της όρου/λέξης για δικτυακή λημματογράφηση)+amazon index (books) (τάση του/της όρου/λέξης για κάθε είδους δημοσιευμένης σε βιβλία "αφήγησης") (στο ελληνικό ΔΚ αντί για τον amazon index (books) χρησιμοποίησα τον biblionet index).

Στο αγγλικό ΔΚ κυριαρχεί η music ακολουθούμενη από low και love ενώ στο ελληνικό ΔΚ κυρίαρχος είναι ο πόλεμος ακολουθούμενος από παρελθόν και μουσική. Η ταύτιση των δυό ΔΚ είναι μόλις 13% (2/15, μουσική και σεξ).

Αν δούμε τους δείκτες ξεχωριστά, έχουμε:

google index (gi) (τα νούμερα είναι % στο δείγμα)

Top-15



Εδώ η ταύτιση πιάνει το 53% (8/15)

16-20

Εδώ πέφτει στο 27% (4/15)

31-45


Καταρρέει στο 7% στην 3η 15άδα


46-50


Για να επανέλθει στο 27%

61-74



Για να απογειωθεί στο 47% (7/15) στην τελευταία 14άδα

Η διαφορά στην κατανομή είναι ξεκάθαρη: ενώ 3 μόνο όροι/λέξεις (πολιτική, ιστορία, αριθμός) πιάνουν το 93% του συνόλου στο ελληνικό ΔΚ, στο αγγλικό ΔΚ οι όροι κατανέμονται πολύ πιο ομαλά (το 93% του συνόλου περιλαμβάνει 42 όρους λέξεις)




(συνεχίζεται)















Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου