Είδαμε ότι δεν υπάρχει και πολύ μεγάλη ταύτιση ελληνικού και αγγλικού Διαδικτυακού Κειμένου (ΔΚ), όταν συγκρίνουμε τα αποτελέσματα για τον μεικτό δείκτη glwkaz index για τους /τις 74 όρους/λέξεις του δείγματος (google index (δημοφιλία του/της όρου/λέξης)+wiki index (τάση του/της όρου/λέξης για δικτυακή λημματογράφηση)+amazon index (books) (τάση του/της όρου/λέξης για κάθε είδους δημοσιευμένης σε βιβλία "αφήγησης") (στο ελληνικό ΔΚ αντί για τον amazon index (books) χρησιμοποίησα τον biblionet index).
Στο αγγλικό ΔΚ κυριαρχεί η music ακολουθούμενη από low και love ενώ στο ελληνικό ΔΚ κυρίαρχος είναι ο πόλεμος ακολουθούμενος από παρελθόν και μουσική. Η ταύτιση των δυό ΔΚ είναι μόλις 13% (2/15, μουσική και σεξ).
Αν δούμε τους δείκτες ξεχωριστά, έχουμε:
google index (gi) (τα νούμερα είναι % στο δείγμα)
Top-15
Εδώ η ταύτιση πιάνει το 53% (8/15)
16-20
31-45
46-50
Για να επανέλθει στο 27%
Για να απογειωθεί στο 47% (7/15) στην τελευταία 14άδα
Η διαφορά στην κατανομή είναι ξεκάθαρη: ενώ 3 μόνο όροι/λέξεις (πολιτική, ιστορία, αριθμός) πιάνουν το 93% του συνόλου στο ελληνικό ΔΚ, στο αγγλικό ΔΚ οι όροι κατανέμονται πολύ πιο ομαλά (το 93% του συνόλου περιλαμβάνει 42 όρους λέξεις)
(συνεχίζεται)
Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου