Naprogramoval jsem si dalši doporučovač na datech od signály.cz.
V rámci předmětu Recommender System (poprvé vyučovaného), který mám letos na podzim zapsaný, bylo za úkol implementovat něco z toho, co jsme se naučili. Pro naší trojičku jsem vytáhl data z databáze signálů, nad kterými jsme naprogramovali základní algoritmy.
Aktuálně jsou zde nasazeny dva základní algoritmy:
Já jsem teď doprogramoval další systém. Není ještě nasazený, nevím jestli bude, ale výsledky jsou z něj velmi zajímavé. Co dělá?
Na základě lajků se najde blog, který je jinému blogu podobný. Bohužel, výpočet trvá 1:20 sekund. To je pro množství blogů docela dost. Spočítal jsem data pro dva blogy. Což ja vlastně dúvod, proč píšu tento článek, výsledky se mi velmi líbí. Publikuji zde prvních 9 podobných blogů, výsledky jsou řazeny od nejpodobnějšího.
Podobné blogy pro blog vyvoj.signaly.cz:
Blog zapojse nemá moc článků, proto se mu povedlo dostat tak nahoru, byl totiž aplikován poměr lajků na procento článků, aby i blogy s málo články měli šanci se někam dostat.
Abych ověřil, že se nahoru nedostávají jen provařené blogy (HejTiho např. :P), zkusil jsem najít podobné blogy pro blog s trochu jinčí tématikou - od Zdendy. Kdopak je jí podobný - tedy v tom, že má stejné "lajkery"?
Podobné blogy pro blog zdendanda.signaly.cz:
Tak co, myslíte si, že ty data dávají nějaký význam? :-)
Jinak co se týka už nasazených doporučovačů - nebojte, data měříme a brzy vyhodnotíme, jestli dávají nějaký význam.
Cože? Ty zneužíváš můj blog na testování bez mého vědomí? :-D
No, asi se tím cítím poctěna, že se mi dostalo takového vyznamenání a myslím, že výsledek není překvapivý ani úplně mimo:)
Na podobnost blogů bych se chtěl podívat optikou vícerozměrné statistiky (nějaká data jsem si, bez dovolení, škaredě stáhl: https://plihalik.signaly.cz/1407/a-psali-a-psali , ale ještě jsem se jim víc nevěnoval)
V rámci projektu využíváme jen veřejná data, neboj :D ... no a prostě si byla poctěna :-)
Jasny, spocitat similaritu pro dalsi rozmery by slo, pak to secit a povazit, nicmene uz to zacne pak byt asi dost komplikovany (casove, etc.). V ramci diplomky to budu resit v grafovych db, tj. tam se bude jednat v podstate jen o unarni data, tak jsem zvedavej, jaky vysledky se dozvim(e).
Tak že tomuto příspěvku je podobný příspěvek "Polský luterský biskup zahynul při autonehodě; jel z pohřbu prezidenta" mě docela pobavilo. Srovnání celých blogů už je lepší.
Hm, zdá se, že Signály rozšíří zajímavá technologie :-) Teď už to vypadá líp, než při prvním veřejném pokusu. Díky @hrach u!
Nelíbí se mi nově připojované "podobné příspěvky" Jde asi o nějakou automatickou akci, protože to většinou s aktuálním příspěvkem nemá nic společného. Pro někoho možná sradna, jinak dost matoucí.
Palec dolů
Odtud jsem se třeba dostala na krásný článek šeřík a baobaby, který s tímhle nemá nic společného.
Nebo má? A co vlastně Hrachu?
Probihalo A/B testovani: http://cs.wikipedia.org/wiki/A/B_testov%C3%A1n%C3%AD
polovina uzivatelu mela nahodna doporuceni, polovina "vypocitana", tj. asi si patrila do spatne skupiny. budeme to menit.
Nelíbí se mi být pokusným králíkem bez předchozího oznámení - minimálně.
Já si to u svých příspěvků nepřeji
prestan byt protivna ;)
To přišlo od toho pravého ;) aneb, co není podle "mistra", je špatně
mně osobně poslední dobou více vadí, kolik je v textech redakce/programátorů gramatických chyb... :(
Pro přidání komentáře se musíš přihlásit nebo registrovat na signály.cz.