Stopień podobieństwa dwóch wyrazów

Znaczenia wyrazów w semantyce dystrybucyjnej są reprezentowane przez wektory liczbowe. Odległość między wektorami będziemy interpretować jako stopień podobieństwa reprezentowanych przez nie wyrazów. Najpopularniejszą miarą odległości dla reprezentacji wektorowej jest miara kosinusowa. Wyrazy podobne, tzn. takie, które opisują ściśle związane ze sobą pojęcia, powinny odpowiadać wektorom leżącym blisko siebie, co oznacza, że kąt pomiędzy nimi powinien być jak najmniejszy, a co za tym idzie, kosinus tego kąta powinien być bliski 1. Wyrazy, które nie są ze sobą powiązane semantycznie powinny być reprezentowane przez wektory ortogonalne, a więc kosinus kąta pomiędzy nimi powinien być bliski 0.

Do obliczeń wybrane zostały dwa modele: nkjp+wiki-forms-all-300-skipg-hs-50 (w przypadku form) oraz nkjp+wiki-lemmas-all-300-cbow-ns-50 (w przypadku lematów).

.