ПредишенСледващото

Как търсачките определят словоформи

Нашият велик и могъщ български език е не само красива, но и много сложна. Често, дори и интуитивна представа за носители на езика е в противоречие с формалните. Например, един от нас ще се помни, че, формално, "най-добрата" - форма на думата "добро", защото е суперлатива на прилагателното? В същото време, "красивите" и "глоба" - те са различни думи, тъй като те принадлежат към различни части на речта, "красива" - прилагателното "красива" - наречие.

Резултатите от анализа на машината все още е много различен от нашия интуитивен идея. В тази статия, ние ще обсъдим как да се види Yandex словоформи и как това се отразява на резултатите от търсенето.

Различията машини словоформи

В нашия език, стотици хиляди думи, всяка от които има десет, а понякога и повече от един, словоформи. Всяка дума, от своя страна, има няколко свойства (случай, пол, брой, наклон и т.н.). Ако приемате някое прилагателно, може да е в падеж седем, краткосрочни формата, две цифри, три раждания, два градуса, за да анимирате или неодушевен. По този начин, всеки прилагателно има 129 словоформи. Повече от половината от тях ще бъдат различни окончания.

Някои морфологични речници за да спестите място в края на думи са групирани в определени морфологични групи. Например, прилагателни "пълзи" и "мощен" имат същото затварянето на една и съща дума форми. Тези думи се обединяват, и те са посочени само общи за всички форми на думите основа, а броят на морфологични групи: "могъщия, могъщ * Група №21».

Повечето електронни бази данни работят по подобен принцип. Ако запазите всички словоформи индивидуално, трябва да бъдат заделени около 500MB памет, докато групата ще са достатъчни 10. Разбира се, голяма 500MB за сървъра - не е много, но ние трябва да се отбележи, че работата по морфологията Yandex, проведено преди около 10 години, а след закупуване на стотици сървъри с повече памет е скъпо удоволствие. Оттогава правилата на българския език не се променя, и поради това не е било необходимо да се пренапише морфологията - още повече, че всяка промяна в системата щеше да доведе до необходимостта да се пренапише други части на кода.

Синоними и словоформи

В резултатите от търсенето, словоформи са с удебелен шрифт. Въпреки това, като синоними. Ето защо не можем да кажем със сигурност дали думите за търсене в системата на фрагмент счита искането и като форма на думи или синоними? За да изключите осветлението на синоними и да оставите само формите на думата Yandex можете да използвате оператора "+".

Повечето съвременни морфологични бази данни се основават на речника Zalizniak, в която да се спести място на страниците на морфологични групи са въведени. Въпреки това, поради факта, че Zaliznyak и колегите му са работили на речника на преди повече от 40 години, тя страда от някои от "архаизмите." Например, глаголи, причастия и сегашни деятелни причастия тях (пишат / пише) се считат за близки варианти, а глаголите са идеални и несъвършена форма (запис / запис) - не.

Как търсачките определят словоформи

Проверки в Yandex до такива архаизмите (те могат да бъдат намерени в базата данни AOT.ru), ще откриете, че в него са почти с пълна сила. Все пак, струва си да се има предвид, че Yandex използва базата данни "синоними" и една от целите е именно да определи разликата на възприемане на словоформи на хора и машини. Например, ако искането да "димка" в удебелен шрифт, а думата "марка", а след това, ако добавите "+" пред думата "да", подсветката на думата "марка" изчезне.

Как да разберем формулярите за Google дума

Английският език не е толкова сложно, тъй като българската. Не толкова богати, че и морфология: думи имат само няколко форми на думата. Ето защо не възниква необходимостта от група от думи, за да се оптимизира паметта. Може би, в името на всеобщност код руски и английски версии на Google морфология не използва групата, и следователно без своите недостатъци Яндекс.

Ако изпишете в заявката за търсене на двигателя "прави", то няма да се търси думата "марка", както Yandex. Можете да наберете в Yandex и Google фразата "как да направи торта" в името на експеримента. Почти винаги, Google ще подчертае в смели само словоформи, но забраните открояването на думата "марка", когато търсите да "прави" в търсачката няма да работи. Така се оказва, че в Google ", за да се направи" и "правя" - словоформи, а в Яндекс - синоними.

Странното е, че руската морфология на Google прилага правилно, отколкото в Яндекс. Още по-парадоксално факт, че такава система - това е следствие от факта, че Google е дошъл при нас от Америка. Въпреки това, той винаги е "правилно" означава "по-добре." Издаването на който и да е от значение за търсене система - много спорен въпрос. Както е фактът, че той е машина за търсене е да се предостави в отговор на запитването, "Как да си направим торта."

Разликата в резултатите от класирането

Фактът, че Yandex акценти или dosvechivaet форми на думата, като знак плюс показва, че формите на думата на морфологията определят веднага, други - като синоними. Може да се окаже, че Yandex не прави разлика в класацията за най-морфологични и sinonimalnyh словоформи.

Днес, не е метод за оценка на разликата на издаване или софтуер за изчисляването му. Ръчно анализира издаване на няколко стотици заявки са много трудно. По този начин, за да се докаже, че има някаква разлика в класирането на различните видове форми на думи, не е възможно. Единственият начин - да се намери косвени доказателства.

Ако попитате форми машина дума за търсене на двигателя, броя на страниците намерени ще се различава с не повече от 1%. Но по искане на словоформи, синоними разлика е много по-значимо, от 10 до 30%:

  • "Направете Google своя начална страница" - 5 милиона
  • "Google направи начална страница" - 5 милиона
  • "Направете Google своя начална страница" - 7 млн
  • "Знаете Google Начална страница" - 7 млн

Интересно е да се сравни и промяна в доставката между Google и Yandex. В първата система за търсене на разликата между заявките "как да направи торта" и "как да направи торта", на практика няма. В първия десет Yandex заявката мач само 2 от всеки десет, и тези позиции ще се различават значително.

Има и една група от думи, които са с удебелен шрифт за един много странен принцип. Например, ако сте написали думата "купува", който ще бъде осветен и словоформи на несъвършена форма (например, "Купуване"), дори и да сложите "+". Работата е там, че Yandex въведе изключение на думата, въпреки че wordstat "купува" и "купува" и остана в различни думи. Ако синоними и словоформи на въпрос, са същите, тогава няма причина да се направи изключение за тази дума няма да бъде.

"Купи" е много популярен поискване (WordStat показва, че той повече от 40 милиона импресии на месец), са взети, така че допълнителни стъпки за подобряване на ранга му. Може да подобри резултатите от издаване на въвеждането на пряка връзка между "купува" и "купува" и не е ясно, но разработчиците и оценители знаят по-добре. Има и друг пример, в който подобряването на източване може да се отрече.

Ние говорим за думи "готвене" и "готвене". Според wordstat "Готварство" има един милион хитове, "готвене" - около 100 хиляди. Въпреки това, ако статията не е отметнато, SEO-експерти, а след това ще се нарича "Пивоварна Кафе", а не "Как се прави кафе." Ползата от това изключение да се класира там.

Както се казва, изключения само потвърждават правилото. Ние се основават на изследването може да се каже, че морфологичните форми на думи се класират по-високи от словоформи, синоними.

запитвания висока честота

Изолацията синоними на мазнини на разстояние не само чрез добавяне на "+". Забележка: Ако "хотели в Москва", лентата за търсене на "хотел" дума не свети. Но ако сте написали "Москва в центъра на града" или "хотел в Киев", осветлението ще се включи отново. Така че има определен праг, който, както изглежда, зависи от броя на страниците в индекса, или значението на първите обекти, но не и от честотата на искането. След този праг се преодолява, синоними не са включени в този въпрос, за да не се влоши резултатите.

Общата словоформи правила за разпознаване

Перфектен и несъвършена форма на глагола - синоними и думата не форми

  • вярно само за Yandex
  • ≠ се задоволим
  • изключения: Купува / купуват, издърпайте / извадя, да изпращате / пост

Глаголи, причастия и сегашни деятелни причастия са словоформи

  • вярно само за Yandex
  • направя = направено = направено = направи и т.н.

тъй като общение постно на брой, пол и така, тъй като прилагателни, и обезпечение, тъй като глаголи, глаголът за всеки Yandex повече от 100 словоформи. И думата "купува", която е изключение, те са дори повече. Причастие може да се използва за подобряване на класирането на глаголи (например, "купил", "купил" за думата "купува").

Различните части на речта, словоформи не са взаимно

  • вярно само за Yandex
  • ≠ ≠ закупуване купувач Купува
  • ≠ красиво Синг Синг красиво
  • ≠ силен спортист
  • изключения: за готвене / приготвяне на храна, както и всички глаголи, причастията и сегашни деятелни причастия

Всички словоформи на съществителните имена имат един пол

  • вярно за Yandex и Google за
  • ≠ красив красота
  • ≠ учител учител

Превъзходно прилагателно е дума форми

  • вярно само за Yandex
  • добри = най-добрите
  • Добро = Добре дошли Добре дошли = = = Добре дошли Добре дошли
  • = Красива красива и т.н.
  • Забележка: ≠ красиви красиви (тези думи са синоними)

Сравнителен прилагателно е един от неговите словоформи

  • вярно за Yandex и Google за
  • Добро = детска
  • красив = красива
  • Забележка: Google добро ≠ по-добре, тъй като тази дума форма на търсачката се отнася до превъзходна степен.

Асоциацията на Google дума става на интуитивно тяхната прилика, а не на официалните правила на българския език, които могат да се видят много добре по примера на "добър" - "по-добре". Останалата част от сравнителни прилагателни в обичайния ход и не страхотна форма.

Както споменах по-горе, най-вероятно в значението на търсачката на словоформи, синоними по-ниски от тези на морфологични форми на думите. Ето защо, ако се оптимизира една страница, е по-добре използвайте формата за дума в работата на двигателя. От особено значение този съвет, ако си сложиш популярна спецификация в шаблона за ресурс, защото по този начин промените до няколко хиляди страници.

Нашата специализация - работа с различни обеми и теми. Уебсайтове, визитни картички, портали, онлайн пазаруване.

Ние успешно са изпълнени повече от 113 проекти.

Свързани статии

Подкрепете проекта - споделете линка, благодаря!