informace ze zákulisí vývoje

Doporučování obsahu na signály.cz

6. 12. 2014 22:30
Rubrika: Aktuálně | Štítky: recsys , doporucovani , blogy

Naprogramoval jsem si dalši doporučovač na datech od signály.cz.


 V rámci předmětu Recommender System (poprvé vyučovaného), který mám letos na podzim zapsaný, bylo za úkol implementovat něco z toho, co jsme se naučili. Pro naší trojičku jsem vytáhl data z databáze signálů, nad kterými jsme naprogramovali základní algoritmy.

Aktuálně jsou zde nasazeny dva základní algoritmy:

  • V A/B testování pod blogy je doporučovač na základě podobnosti článků - tj. jejich obsahu - text rozparsujeme a hledáme články s podobnými slovy. (zjednodušené).
  • Na přehledu společenství je seznam blogů, které by se měli uživateli na základě jeho lajků líbit. Akorát přesně nevím, jak je toto implementováno.

Já jsem teď doprogramoval další systém. Není ještě nasazený, nevím jestli bude, ale výsledky jsou z něj velmi zajímavé. Co dělá?

Na základě lajků se najde blog, který je jinému blogu podobný. Bohužel, výpočet trvá 1:20 sekund. To je pro množství blogů docela dost. Spočítal jsem data pro dva blogy. Což ja vlastně dúvod, proč píšu tento článek, výsledky se mi velmi líbí. Publikuji zde prvních 9 podobných blogů, výsledky jsou řazeny od nejpodobnějšího.

Podobné blogy pro blog vyvoj.signaly.cz:

  1. tym.signaly.cz
  2. redakce.signaly.cz
  3. life.signaly.cz
  4. hejti.signaly.cz
  5. kuchi.signaly.cz
  6. signaly2011.signaly.cz
  7. zapojse.signaly.cz
  8. vakci.signaly.cz
  9. vojtec.signaly.cz

Blog zapojse nemá moc článků, proto se mu povedlo dostat tak nahoru, byl totiž aplikován poměr lajků na procento článků, aby i blogy s málo články měli šanci se někam dostat.

Abych ověřil, že se nahoru nedostávají jen provařené blogy (HejTiho např. :P), zkusil jsem najít podobné blogy pro blog s trochu jinčí tématikou - od Zdendy. Kdopak je jí podobný - tedy v tom, že má stejné "lajkery"?

Podobné blogy pro blog zdendanda.signaly.cz:

  1. terre-eau.signaly.cz
  2. sanitan.signaly.cz
  3. marjankan.signaly.cz
  4. tob.signaly.cz
  5. paluska.signaly.cz
  6. pavel.signaly.cz
  7. kecka.signaly.cz
  8. lucie007.signaly.cz
  9. katulda.signaly.cz

 

Tak co, myslíte si, že ty data dávají nějaký význam? :-)

Jinak co se týka už nasazených doporučovačů - nebojte, data měříme a brzy vyhodnotíme, jestli dávají nějaký význam.

Sdílet

Komentáře

růžetrnitá To přišlo od toho pravého ;) aneb, co není podle "mistra", je špatně

Katka Doleželová (Katulda) mně osobně poslední dobou více vadí, kolik je v textech redakce/programátorů gramatických chyb... :(

Pro přidání komentáře se musíš přihlásit nebo registrovat na signály.cz.

Autor blogu Grafická šablona Ondřej Válka