Category: лингвистика

Category was added automatically. Read all entries about "лингвистика".

Алгоритм SuperMemo-2

Методика запоминания больших объемов информации была разработана польским студентом Петром Возняком. История начинается еще с 1982 года, когда Петр, учась на молекулярно-биологическом факультете Университета Адама Мицкевича в Познани, задумался над простым и одновременно сложным вопросом: «Почему я активно готовясь к экзамену, успешно его сдав, через некоторое время понимаю, что так хорошо усвоенная информация, забыта?»

Возняк начал активно заниматься вопросом усвоения и запоминания информации.  Началось все с того, что Петр Возняк представил достаточно большой объем информации по интересующей его тематике (молекулярной биологии) в виде отдельных, небольших фрагментов, записав их на карточках. Таких карточек оказалось больше тысячи. Систематически просматривая информацию на этих карточках, периодически возвращаясь назад к началу (повторяя информацию) студент таким образом пытался найти секреты запоминания

Читать дальше

Дистрибутивная семантика

Дистрибутивная семантика — это область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их дистрибуционных признаков в больших массивах лингвистических данных.

Она утверждает, что значение слова — это в каком-то смысле просто сумма всех тех контекстов, в рамках которых мы его слышали или видели.  Следовательно, если мы хотим научить компьютер (искусственный интеллект) "понимать" семантику, нам нужно построить некую модель этих контекстов на достаточно большом текстовом корпусе. В пределе, если у двух слов в таком корпусе всегда одни и те же соседи — то эти слова означают ровно одно и то же.

Традиционно дистрибутивной семантике каждая лексическая единица описывается вектором, где в качестве измерений или компонентов выступают другие слова лексикона, а в качестве значений этих компонентов — частота совместной встречаемости интересующей нас единицы с этими словами на данном корпусе (обычно взвешенная тем или иным образом).  Векторы разных слов можно сравнивать (например, при помощи косинусного расстояния) и тем самым определять степень семантической близости этих слов. Однако размер векторов получается весьма большим (в общем случае равным числу слов в лексиконе корпуса)

При применении дистрибутивно-семантических моделей в реальных приложениях возникает проблема слишком большой размерности векторов, соответствующей огромному числу контекстов, представленных в текстовом корпусе. Возникает необходимость в применении специальных методов, которые позволяют уменьшить размерность и разреженность векторного пространства и при этом сохранить как можно больше информации из исходного векторного пространства. Получающие в результате сжатые векторные представления слов в англоязычной терминологии носят название word embeddings.


Читать далее