informace ze zákulisí vývoje

Doporučování obsahu na signály.cz

6. 12. 2014 22:30
Rubrika: Aktuálně | Štítky: recsys , doporucovani , blogy

Naprogramoval jsem si dalši doporučovač na datech od signály.cz.


 V rámci předmětu Recommender System (poprvé vyučovaného), který mám letos na podzim zapsaný, bylo za úkol implementovat něco z toho, co jsme se naučili. Pro naší trojičku jsem vytáhl data z databáze signálů, nad kterými jsme naprogramovali základní algoritmy.

Aktuálně jsou zde nasazeny dva základní algoritmy:

  • V A/B testování pod blogy je doporučovač na základě podobnosti článků - tj. jejich obsahu - text rozparsujeme a hledáme články s podobnými slovy. (zjednodušené).
  • Na přehledu společenství je seznam blogů, které by se měli uživateli na základě jeho lajků líbit. Akorát přesně nevím, jak je toto implementováno.

Já jsem teď doprogramoval další systém. Není ještě nasazený, nevím jestli bude, ale výsledky jsou z něj velmi zajímavé. Co dělá?

Na základě lajků se najde blog, který je jinému blogu podobný. Bohužel, výpočet trvá 1:20 sekund. To je pro množství blogů docela dost. Spočítal jsem data pro dva blogy. Což ja vlastně dúvod, proč píšu tento článek, výsledky se mi velmi líbí. Publikuji zde prvních 9 podobných blogů, výsledky jsou řazeny od nejpodobnějšího.

Podobné blogy pro blog vyvoj.signaly.cz:

  1. tym.signaly.cz
  2. redakce.signaly.cz
  3. life.signaly.cz
  4. hejti.signaly.cz
  5. kuchi.signaly.cz
  6. signaly2011.signaly.cz
  7. zapojse.signaly.cz
  8. vakci.signaly.cz
  9. vojtec.signaly.cz

Blog zapojse nemá moc článků, proto se mu povedlo dostat tak nahoru, byl totiž aplikován poměr lajků na procento článků, aby i blogy s málo články měli šanci se někam dostat.

Abych ověřil, že se nahoru nedostávají jen provařené blogy (HejTiho např. :P), zkusil jsem najít podobné blogy pro blog s trochu jinčí tématikou - od Zdendy. Kdopak je jí podobný - tedy v tom, že má stejné "lajkery"?

Podobné blogy pro blog zdendanda.signaly.cz:

  1. terre-eau.signaly.cz
  2. sanitan.signaly.cz
  3. marjankan.signaly.cz
  4. tob.signaly.cz
  5. paluska.signaly.cz
  6. pavel.signaly.cz
  7. kecka.signaly.cz
  8. lucie007.signaly.cz
  9. katulda.signaly.cz

 

Tak co, myslíte si, že ty data dávají nějaký význam? :-)

Jinak co se týka už nasazených doporučovačů - nebojte, data měříme a brzy vyhodnotíme, jestli dávají nějaký význam.

Zobrazeno 1553×

Komentáře

Zdendanda

Cože? Ty zneužíváš můj blog na testování bez mého vědomí? :-D
No, asi se tím cítím poctěna, že se mi dostalo takového vyznamenání a myslím, že výsledek není překvapivý ani úplně mimo:)

Václav Plíhal

Na podobnost blogů bych se chtěl podívat optikou vícerozměrné statistiky (nějaká data jsem si, bez dovolení, škaredě stáhl: https://plihalik.signaly.cz/1407/a-psali-a-psali , ale ještě jsem se jim víc nevěnoval)

Jan Škrášek

V rámci projektu využíváme jen veřejná data, neboj :D ... no a prostě si byla poctěna :-)

Jan Škrášek

Jasny, spocitat similaritu pro dalsi rozmery by slo, pak to secit a povazit, nicmene uz to zacne pak byt asi dost komplikovany (casove, etc.). V ramci diplomky to budu resit v grafovych db, tj. tam se bude jednat v podstate jen o unarni data, tak jsem zvedavej, jaky vysledky se dozvim(e).

vojtec

Tak že tomuto příspěvku je podobný příspěvek "Polský luterský biskup zahynul při autonehodě; jel z pohřbu prezidenta" mě docela pobavilo. Srovnání celých blogů už je lepší.

Honyczek

Hm, zdá se, že Signály rozšíří zajímavá technologie :-) Teď už to vypadá líp, než při prvním veřejném pokusu. Díky @hrach u!

růžetrnitá

Nelíbí se mi nově připojované "podobné příspěvky" Jde asi o nějakou automatickou akci, protože to většinou s aktuálním příspěvkem nemá nic společného. Pro někoho možná sradna, jinak dost matoucí.
Palec dolů

růžetrnitá

Odtud jsem se třeba dostala na krásný článek šeřík a baobaby, který s tímhle nemá nic společného.

Nebo má? A co vlastně Hrachu?

Jan Škrášek

Probihalo A/B testovani: http://cs.wikipedia.org/wiki/A/B_testov%C3%A1n%C3%AD
polovina uzivatelu mela nahodna doporuceni, polovina "vypocitana", tj. asi si patrila do spatne skupiny. budeme to menit.

růžetrnitá

Nelíbí se mi být pokusným králíkem bez předchozího oznámení - minimálně.

růžetrnitá

Já si to u svých příspěvků nepřeji

Jan Škrášek

prestan byt protivna ;)

růžetrnitá

To přišlo od toho pravého ;) aneb, co není podle "mistra", je špatně

Katka Doleželová (Katulda)

mně osobně poslední dobou více vadí, kolik je v textech redakce/programátorů gramatických chyb... :(

Zobrazit 14 komentářů »

Pro přidání komentáře se musíš přihlásit nebo registrovat na signály.cz.

Autor blogu Grafická šablona Ondřej Válka