Stopień podobieństwa dwóch wyrazów
Znaczenia wyrazów w semantyce dystrybucyjnej
są reprezentowane przez wektory liczbowe. Odległość między wektorami będziemy interpretować jako stopień
podobieństwa reprezentowanych przez nie wyrazów. Najpopularniejszą miarą odległości dla reprezentacji wektorowej
jest miara kosinusowa. Wyrazy podobne, tzn.
takie, które opisują ściśle związane ze sobą pojęcia, powinny odpowiadać wektorom leżącym blisko siebie,
co oznacza, że kąt pomiędzy nimi powinien być jak najmniejszy, a co za tym idzie, kosinus tego kąta powinien
być bliski 1. Wyrazy, które nie są ze sobą powiązane semantycznie powinny być reprezentowane przez wektory
ortogonalne, a więc kosinus kąta pomiędzy nimi powinien być bliski 0.
Do obliczeń wybrane zostały dwa modele: nkjp+wiki-forms-all-300-skipg-hs-50 (w przypadku form) oraz
nkjp+wiki-lemmas-all-300-cbow-ns-50 (w przypadku lematów).