sobota 18. května 2013

Which classifiers can deal with useless attributes

One of preprocessing steps in data mining is feature selection. Let's perform a simple test to identify  classifiers, which benefit from feature selection. The test is performed on Wisconsin Breast Cancer dataset with a subset of attributes (this dataset is too easy to classify with all the attributes).


Classifier    Just data         With useless attributes          Relative difference
Naïve Bayes 94% 69% 37%
k-nn  94% 93% 1%
Classification Tree 85% 82% 5%
Random Forest 93% 64% 46%
Perceptron 86% 85% 1%
SVM 94% 90% 5%

Based on the test Naive Bayes and Random Forest are sensitive to the feature selection. While Perceptron, k-nn, Classification Tree and SVM are resistant to adding irrelevant attributes.

Honestly, I am surprised that Random Forest performed so poorly in the comparison. But in this case it is because 100 trees were used to classify over 500 attributes. And that is too small ratio. When 300 trees were used, the relative difference dropped to 12%.

neděle 31. března 2013

Archetypes in relationship

There are two archetypes in a relationship. One is a boss-and-his-secretary and the second archetype is craftsman-and-his-saleswoman. Both these archetypes are based on a difference between an average man and woman. Men like to think in big and women prefer to think in small. For an illustration ask students at an elementary school what they would like to change if they could change anything. Boys would be likely answering things they want world peace or a cure for cancer. While girls would answer something like no pet excrement on pavements or building a shelter for local homeless. Or in another words, women are practical while men are theoretical. Women takes care about their family and neighborhood, while men discuss politics. And that's all right because the sexes perfectly complement - the boss deals with big deals, but is incompetent when it comes to finding his misplaced keys. And here comes his secretary-hero and says: "in your left pocket", saving his day.

Another difference between a typical man and woman is that women are averagely better in talking than men because men are hunters and women stayed at home. And while men didn't have anyone to talk during the hunting, women were always accompanied by children and other women. Hence women's fitness was improving by high communication skills while men's fitness didn't really increase because they didn't have time to benefit from their good communication skills. Hence a craftsman and his saleswoman is a good combination. He makes products somewhere hidden in the cellar while she stars by communicating with clients.

Of course you can disagree by saying that your experience is different. That the most talkative person you know is a man, not a woman. But that's all right, because there is more extremes among men than among women. And averagely, men are still less talkative that women.

sobota 9. března 2013

Google Redirect Notice

Do you get Google Redirect Notice regardless on the page you want to visit?

If you are using Firefox then the help is simple. Just use Redirect Cleaner addon and the problem is gone.

pondělí 18. února 2013

Recenze 50 odstínů šedi

Hned na úvod trochu kritiky. Jedny a ty samé popisy sexu se v 50 odstínech šedi neustále opakují. Tím se stávají natolik nudnými, že jsem nemohl jinak a přeskakoval je. Přitom pasáže o sexu se dají napsat zajímavě. Například v Justýně od Markýze de Sade bylo potěšením je číst - každý akt přinášel novou pikantnost, navíc popsanou unikátními jazykovými prostředky bez použití jediného vulgárního slůvka. Hold, autorka asi neměla příliš barevný sexuální život ani básnické střevo, jinak si tu neduchaplnost nedokáži vysvětlit.

Nicméně, kniha obsahuje přepěkná schémata: v sexu sběhlý muž se vzdá všech svých žen pro svoji vyvolenou, muž se nechá svojí milou převychovávat, muž je neuvěřitelně atraktivní - mocný, pohledný, inteligentní,... A vyvolená je přitom naprosto průměrná. Nu, prostě sen každé ženy, které byly čteny pohádky o Popelce.

Krom toho část knihy je psána jako román v dopisech. A právě v tom autorka exceluje. Britský humor z dopisů čiší a vynáší tím knihu o několik řádů výš.

Můžu tedy s klidným svědomím říct, že kniha je až na nudné popisy sexu vynikající? Tak to rozhodně není. Kniha je poplatná času svého vzniku a přirovnal bych ji dílům Jane Austenové - ve své době neuvěřitelně populární autorka, ale o století později jsou její díla beznadějně zastaralá. A zdá se, že vydavatelé si jsou této podobnosti vědomi. Kniha, navzdory své tloušťce, je prodávána za velmi nízkou cenu, díky velmi levné vazbě, která knihu předurčuje k rychlé konzumaci - přečíst, maximálně třikrát půjčit a navždy utopit v knihovně. 

pondělí 28. ledna 2013

Vsázka

Predikuji, že do dvaceti let Američané začnou používat šťávy. Už teď používají džusy z koncentrátů a colu z post-mixů. A při vzrůstající averzi Američanů k neekologickému chování jsou šťávy logickým vyústěním. Zbaví se tím jak plastových láhví, tak nákladů na jejich převoz.

Proč anglická Wikipedia stagnuje

Počet přibývajících článků na anglické Wikipedii má podobu klasické nasycovací S-křivky a totéž platí o počtu oprav. A Kaggle vyhlásilo soutěž na zjištění příčiny.


Dovolil bych si ale odhadnout příčinu a její možné řešení i bez nahlédnutí do dat. Stávající obsah dat nebo její forma reprezentace se nasytili. Wikipedia je založena na textovém obsahu. Jakmile ale článek nakyne do obézní velikosti, lidi přestanou být motivováni ho rozšiřovat. Naopak by ho raději viděli kratší. Pokud jste se ale někdy pokoušeli zkrátit 100 stránkovou studii na stránku, abyste ji mohli publikovat, víte, že zkracování článku je obtížný problém. A tak lidi raději nechávají články tak, jak jsou.

V případě multimediálního obsahu ale Wikipedia nenabyla nasycení. Problémem je spíše pracnost vložení multimediálního obsahu. Jak například přidám obrázek do pravého horního rohu. Jistě je na to šablona, ale kde ji najdu? Jak ji použiji? A už to začíná být složité. Jako řešení bych viděl přidání placeholderu do článků bez jediné fotografie, který by říkal: "Buďte první, kdo přidá fotografii". Po kliknutí by se objevil dialog pro nahrání fotografie z disku. Po nahrání by se ještě objevil formulář pro vyplnění důležitých metainformací, jako zda jste majitel. A Wikipedia by měla novou fotografii.

Věřím, že tenhle přístup by měl úspěch. Když člověk vidí, že článek není kompletní, je motivován ho doplnit, když může. Nahrání fotografie je jednoduché. To zná z facebooku. A doplnění metainformací? Když už se dostal až sem, tak se nevzdá na nějakém formuláři a vyplní ho. Navíc díky tomu, že se umožní jen nahrávání z počítače, tak lidi budou motivováni nahrávat jen originální fotografie, protože nahrání fotografie z internetu by bylo obtížné. Najít fotografii na Googlu, stáhnout, nahrát a nakonec ještě vyplnit formulář. Pochopitelně by byla potřeba kontrolovat, že data opravdu nejsou z internetu. Na to ale stačí automatický dotaz na Google. Když Google najde na internetu hodně podobných fotografií a nahrávač nevyplnil podrobné informace o autorství, pravděpodobně se jedná o pro Wikipedii nepoužitelnou fotografii.

U audia by byl postup podobný. Je daný článek o hudbě? Tak šup tam s audio placeholderem, ať lidi nahrávají. U skladeb starších 150 let a vlastních interpretací by to neměl být problém. Obdobně u videa nebo ontologických tagů. Zobrazte, že tam nějaká informace chybí, a někdo ji vyplní.

Z jiného soudku: občas se mi na Wikipedii stane, že pochybuji o správnosti uvedené informace. Ale nedaří se mi nikde najít informace potvrzující nebo vyvracející moji hypotézu. A tak to nechám být. Přitom bych se ale strašně rád podělil o mých pochybnostech. Psaní komentáře je složité a ponižující. Kdo by se taky veřejně hlásil k tomu, že je debil, že nechápe tak evidentní věc? Místo toho navrhuji implementovat obdobu funkcionality na Brittanice. Člověk pochybující o zobrazené informaci by ji probarvil, objevila by se kontextová nabídka a uživatel by zaškrtl: "navrhnout k revizi". A pilní wikipedisté by potom procházeli nejčastěji označovaná místa a opravovali je. Ať už opravou chyby, změnou formulace, přidáním vysvětlení nebo reference.

Jinak řečeno. Až uživatelům dáte prostor k vylepšování Wikipedie, rádi pomůžou, jako již dříve pomohli.

Update: v prosinci 2013 jsem zaznamenal, že na http://cs.wikipedia.org/wiki už začaly používat obrázkový placeholder:

pondělí 7. ledna 2013

3 mé výhody a nevýhody

  1. Mojí nevýhodou je nerozhodnost. Když se mne zeptáte, zda chci k snídani kakao nebo čaj, zaseknu se na půl minuty, než si to rozmyslím. Na druhou stranu mne ale tahle nedokonalost motivuje ke studiu rozhodování - machine learningu. Schválně až někdy půjdete k doktorovi, všímejte si, že očaři nosívají brýle a ušaři bývávají nedoslýchavý. Já jsem nerozhodný a studuji machine learning.
  2. Další nevýhodou je, že jsem detailista. Nad některými věcmi zbytečně strávím věčnost, jiné k mé škodě přehlížím. Na druhou stranu jsem díky této vlastnosti schopen vyřešit i zapeklité problémy, které ostatní vzdají.
  3. Jsem zapomnětlivý. Takže musím být organizovaný.