{"id":68,"date":"2007-11-06T13:51:08","date_gmt":"2007-11-06T12:51:08","guid":{"rendered":"http:\/\/florianhaas.net\/blog\/2007\/11\/06\/blog-corpus-crawlerreader\/"},"modified":"2007-11-06T14:49:10","modified_gmt":"2007-11-06T13:49:10","slug":"blog-corpus-crawlerreader","status":"publish","type":"post","link":"https:\/\/floriantischner.net\/blog\/2007\/11\/06\/blog-corpus-crawlerreader\/","title":{"rendered":"Blog-Corpus Crawler\/Reader"},"content":{"rendered":"<p>In meinen logfiles fanden sich folgende merkw\u00fcrdige Eintr\u00e4ge:<\/p>\n<blockquote><p>139.18.2.211 &#8211; &#8211; [31\/Oct\/2007:12:04:43 +0100] &#8220;GET \/blog\/feed\/ HTTP\/1.1&#8221; 200 4533 &#8220;-&#8221; &#8220;Mozilla 5.0 (BlogCorpusReader 1.4142)&#8221;<\/p>\n<p>139.18.2.211 &#8211; &#8211; [03\/Nov\/2007:00:20:08 +0100] &#8220;GET \/blog\/2007\/11\/01\/bin-unterwegs\/ HTTP\/1.1&#8221; 200 17476 &#8220;-&#8221; &#8220;BlogCorpusCrawler 1.414213 &lt;http:\/\/wortschatz.uni-leipzig.de\/~mrichter\/BCC\/&gt;&#8221;<\/p><\/blockquote>\n<p>Die dazu passende Seite ist leider extrem <a href=\"http:\/\/wortschatz.uni-leipzig.de\/~mrichter\/BCC\/\">inhaltsleer<\/a>. Ich bin <a href=\"http:\/\/www.besitzstandswahrer.de\/blog\/eintrag\/437-BlogCorpusCrawler-1.414213.html\">nicht<\/a> der <a href=\"http:\/\/blog.helmschrott.de\/sonstiges\/badbehaviour-blogcorpusreader\">Einzige<\/a> der sich dar\u00fcber wundert.<\/p>\n<p>Der Crawler bzw. Reader h\u00e4lt sich nicht an die Grundregel f\u00fcr freundliche Crawler: Er ignoriert komplett die robots.txt, eine Datei in der man einstellen kann welcher Crawler was crawlen d\u00fcrfen soll. Die zum Crawler passende Seite bietet keinerlei M\u00f6glichkeit zu verhindern dass der eigene Blog f\u00fcr ein nicht n\u00e4her definiertes Forschungsziel(was von besserer Massen-Propaganda bis zur statistischen Analyse von Rechtschreibfehlern sein k\u00f6nnte) missbraucht wird.<\/p>\n<p>Um mehr zu erfahren habe ich dem Verantwortlichem <a href=\"http:\/\/www.asv.informatik.uni-leipzig.de\/opencms\/opencms\/asv\/de\/Mitarbeiter\/Matthias_Richter.html\">Mathias Richter<\/a> eine (ich gebe zu: unh\u00f6fliche) Mail geschrieben.<\/p>\n<p>Seine Antworten (in meinen eigenen Worten zusammengefasst um keinen wie auch immer gearteten Unterlassungsanspruch zu generieren):<\/p>\n<ul>\n<li>Wer ist Mathias Richter?\n<ul>\n<li>Keine weiteren Informationen als die auf der <a href=\"http:\/\/www.asv.informatik.uni-leipzig.de\/opencms\/opencms\/asv\/de\/Mitarbeiter\/Matthias_Richter.html\">Uni-Seite<\/a>.<\/li>\n<\/ul>\n<\/li>\n<li>Was speichert der BlogCorpusCrawler\/BlogCorpusReader?\n<ul>\n<li>Worth\u00e4ufigkeiten, signifikant auff\u00e4llig miteinander auftretende Begriffe und den Netzwerkgraphen.<\/li>\n<\/ul>\n<\/li>\n<li>Wie lange werden die Daten gespeichert?\n<ul>\n<li>Prinzipiell<em> sehr<\/em> lange; praktisch undendlich<\/li>\n<\/ul>\n<\/li>\n<li>Warum ignoriert der Crawler die robots.txt ?\n<ul>\n<li>Das ist ein Feature das eingebaut wird wenn Herr Richter wieder Zeit hat<\/li>\n<\/ul>\n<\/li>\n<li>Wie kann man Ihn dazu bringen den Blog nicht zu crawlen?\n<ul>\n<li>Ausschlie\u00dflich indem man Ihm eine Mail an mrichter@informatik.uni-leipzig.de sendet<\/li>\n<\/ul>\n<\/li>\n<li>Was ist der Forschungsgegenstand?\n<ul>\n<li>Wortverwendungen, Sprachgebrauch und dessen Ver\u00e4nderung; Themenentwicklungen in News vs. Blogs<\/li>\n<\/ul>\n<\/li>\n<li>Wer bezahlt das Ganze?\n<ul>\n<li>Diese spezielle niemand; generell bekommt Herr Richter Geld von der Medienstiftung der Leipziger Sparkasse<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p>Der Mangel an Informationen und die Nicht-Bekanntmachung des Opt-outs kombiniert mit dem Ignorieren der robots.txt st\u00f6\u00dft mir sauer auf. In der jetzigen Form unterscheidet sich das Vorgehen von Herr Richter in meinen Augen nur in Details von Firmen die illegalerweise komplette Datenbest\u00e4nde aller Blogs zwecks Marketinganalysen anfertigen. Ich kann jedem nur raten seine logs zu kontrollieren und beim Auftreten des Crawlers Herrn Richter dazu zu veranlassen den Blog in Ruhe zu lassen.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>In meinen logfiles fanden sich folgende merkw\u00fcrdige Eintr\u00e4ge: 139.18.2.211 &#8211; &#8211; [31\/Oct\/2007:12:04:43 +0100] &#8220;GET \/blog\/feed\/ HTTP\/1.1&#8221; 200 4533 &#8220;-&#8221; &#8220;Mozilla 5.0 (BlogCorpusReader 1.4142)&#8221; 139.18.2.211 &#8211; &#8211; [03\/Nov\/2007:00:20:08 +0100] &#8220;GET \/blog\/2007\/11\/01\/bin-unterwegs\/ HTTP\/1.1&#8221; 200 17476 &#8220;-&#8221; &#8220;BlogCorpusCrawler 1.414213 &lt;http:\/\/wortschatz.uni-leipzig.de\/~mrichter\/BCC\/&gt;&#8221; Die dazu passende Seite ist leider extrem inhaltsleer. Ich bin nicht der Einzige der sich dar\u00fcber wundert. Der [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-68","post","type-post","status-publish","format-standard","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/floriantischner.net\/blog\/wp-json\/wp\/v2\/posts\/68","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/floriantischner.net\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/floriantischner.net\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/floriantischner.net\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/floriantischner.net\/blog\/wp-json\/wp\/v2\/comments?post=68"}],"version-history":[{"count":0,"href":"https:\/\/floriantischner.net\/blog\/wp-json\/wp\/v2\/posts\/68\/revisions"}],"wp:attachment":[{"href":"https:\/\/floriantischner.net\/blog\/wp-json\/wp\/v2\/media?parent=68"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/floriantischner.net\/blog\/wp-json\/wp\/v2\/categories?post=68"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/floriantischner.net\/blog\/wp-json\/wp\/v2\/tags?post=68"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}