nise – Page 16 – nise81.com

Darf der BND alle Verbindungsdaten überwachen?

23/07/201323/07/2013 nise 1 Comment

Es wird immer wieder angeführt, dass der BND keine totale Überwachung der Internetkommunikation zwischen der BRD und dem Ausland vornehmen darf. Die Befugnisse des BND seien damit im Vergleich zum us-amerikaischen NSA weit mehr eingeschränkt und mit unseren Grundrechten vereinbar. Im so genannen G10-Gesetz steht in §10, Absatz 4:

In den Fällen der §§ 5 und 8 sind die Suchbegriffe in der Anordnung zu benennen. Ferner sind das Gebiet, über das Informationen gesammelt werden sollen, und die Übertragungswege, die der Beschränkung unterliegen, zu bezeichnen. Weiterhin ist festzulegen, welcher Anteil der auf diesen Übertragungswegen zur Verfügung stehenden Übertragungskapazität überwacht werden darf. In den Fällen des § 5 darf dieser Anteil höchstens 20 vom Hundert betragen.

Zur Sammlung von Informationen darf der Anteil der zur Verfügung stehenden Übertragungskapazität höchstens 20% betragen. Unter Kapazität versteht man im Kontext von Datenübertragung die maximal mögliche Rate der Daten, die fehlerfrei über einen Kanal übertragen werden kann. Diese Datenübertragungsrate bezeichnet die Menge an Daten je Zeiteinheit. Der BND darf also maximal 20% der Daten sammeln, die je Zeiteinheit übertragen werden.

Schaut man sich nun einmal an, wie sich die über das Internet übertragenen Daten zusammensetzen, stellt man zunächst fest, dass ein Großteil durch die Übertragung von Multimediaangeboten (Video on Demand, Videokonferenzen) und File-Sharing zustande kommt. Man kann also annehmen, dass ein Großteil der Daten ohnehin nicht gespeichert werden muss, weil er im Netz verfügbar ist, d.h. unabhängig von einer Überwachungsmaßnahme abrufbar ist. Nicht zuletzt aufgrund effektiven Verschlüsselungsmethoden, konzentrieren sich Geheimdienste auf Verbindungsdaten. Diese eigenen sich beispielsweise zur Erstellung von Bewegungs- und Kommunikationsprofilen und werden aus den Headern der IP-Pakete entnommen, ohne die wesentlich größeren Inhalte der Pakete analysieren zu müssen. IP-Pakete sind die kleinste Einheit von Daten, die im Internet zirkuliert. IPv4-Header sind zwischen 20 und 60bytes (160-480Bits) groß, IPv6-Header sind ungefähr doppelt so groß. Ein IP-Paket inkl. Header kann bis zu 65,535 bytes groß sein.
Wenn der BND also auch nur 5% der übertragenen Daten sammelt und auswertet, dann ist der Datenbestand immer noch ausreichend groß, um alle Verbindungsdaten von E-Mails, Video-Telefonate und Seitenaufrufe im WWW, etc. zu protokollieren. Man muss natürlich bedenken, dass die über Deutschland gerouteten Daten nur einen kleinen Teil des gesamten Datenaufkommens im WWW ausmachen.
In puncto Überwachung des auswärtigen Internetverkehrs wurden dem BND in Deutschland ähnliche Freiheiten eingeräumt, wie der NSA in den USA. Das Ausmaß der Überwachung ist aufgrund des hiesigen Traffics zwar geringer, doch kann die Datenerfassung laut Gesetz ebenso effizient erfolgen wie in den USA. Das würde erklären, warum die Bundesregierung schier regungslos den öffentlichen Forderung zur Aufklärung der NSA-Ausspähungen gegenüber steht. Wer im Glashaus des Panoptikums sitzt, wird nicht mit Steinen werfen.

MOOCrastination / SOOCrastination

15/07/201315/07/2013 nise 1 Comment

Wenn man massiv, vor allen Leuten im Netz sein Ding macht, anstatt wichtigen Arbeiten nachzugehen, ist man unter Umständen der MOOCrastination erlegen. Falls die Ursache dessen in Sachsen zu verorten ist, ist man vielleicht sogar der SOOCrastinantion anheim gefallen.

Wortspiel bei Seite. Ich Frage mich ernsthaft, warum ich in den letzten Wochen der ~~Versoocung~~ Versuchung erlegen bin, so oft beim SOOC13 vorbei zu schauen, anstatt zu programmieren oder an Aufsätzen zu schreiben. Im Fachjargon der klinischen Psychologie nennt man Arbeitsstörungen dieser Art Prokrastination:

Procrastination is a prevalent and pernicious form of self-regulatory failure that is not entirely understood. […] Strong and consistent predictors of procrastination were task aversiveness, task delay, self-efficacy, and impulsiveness, as well as conscientiousness and its facets of self-control, distractibility, organization, and achievement motivation. Quelle.

Manch Arbeitgeber aus dem Industriezeitalter würde vielleicht klagen, wenn sein Mitarbeiter ihr Soll nicht erfüllen und Zeit für scheinbar Nebensächliches aufwenden. Die fortschreitenden Vermischung von Arbeits- und Freizeit kratzt an alten Strukturmerkmalen der hierarchischen und geteilten Arbeit. Telearbeit und eine wachsende Kreativbranche sind Ausdruck dieser technischen und organisatorischen Veränderungen. Eine Arbeitsorganisation wie in einer Fabrik, in der acht Stunden Leistung gefordert sind, ist kaum noch mit dem Alltag der Wissensarbeit vereinbar. Es ist nicht so, dass effektiv weniger gearbeitet wird. Die Rate der wöchentliche Arbeitszeit von Vollzeitbeschäftigten liegt in Deutschland seit 1991 etwa konstant bei 41,9 Stunden, bei Führungskräften und Selbstständigen ist sie auf 48 Stunden angewachsen. Die Art der Arbeit hat sich jedoch gewandelt. Statt körperlicher Erholung sucht man jetzt vielleicht eher nach geistige Entspannung? Entspannung muss nicht so trivial sein wie Kühe klicken, SPON lesen oder belanglose Statusmeldungen abgeben. Abwechslung kann auch entspannen, wenn man dabei etwas lernen kann. Wenn die Abwechslung dann noch dazu beiträgt den notwendigen Arbeitsdruck aufzubauen, ist ja alles bestens.

Specifically, the authors differentiated two types of procrastinators: passive procrastinators versus active procrastinators. Passive procrastinators are procrastinators in the traditional sense. They are paralyzed by their indecision to act and fail to complete tasks on time. In contrast, active procrastinators are a “positive” type of procrastinator. They prefer to work under pressure, and they make deliberate decisions to procrastinate. Quelle

In meinem Fall bot mir der SOOC eine teils geliebte, teils bedauerte Abwechslung. Manchmal war ich erfreut etwas neues aufgefasst zu haben, andermal ärgerte ich mich kostbare Zeit beim schreiben eines Blogbeitrags verschenkt zu haben – schließlich kann man nicht unendlich viel sinnvolles an einem Tag schreiben. Apropros, genug der Worte – der SOOC ist ja auch bald vorüber.

Friedensnobelpreis für Eduard Snowden

30/06/201330/06/2013 nise 1 Comment

Seit Bekanntwerden des Überwachungsprogramms PRISM durch die NSA (National Security Agency / No such agency) wurden wir wieder daran erinnert, dass E-Mail, Google-Dienste, Facebook und Skype keinen sicheren Datenaustausch ermöglichen. Es ist in sofern auch nicht neu, dass amerikanische Geheimdienste die Kommunikation von Ausländern mithören. Ein Minderheit wird sich noch an die ECHOLON-Debatten (Abhörung der Satellitenkommunikation Fax, E-Mail, ect.) in Deutschland und der EU und den Vorwürfen der Menschenrechtsverletzung erinnern.
Neu ist hingegen der Umfang der Überwachungsmaßnahmen angesichts der gegenüber 2001 gewachsenen gesellschaftlichen und wirtschaftlichen Bedeutung von IKT, Internet und speziell dem Social Web.

Die mediale Berichterstattung konzentriert sich leider zu sehr auf einzelnen Überwachungsskandale, anstatt die historische Entwicklung staatlicher IKT-Überwachung in den Blick zu nehmen. Man täte gut daran die vermeintlich kleinen zivilisatorischen Brüche im Zusammenhang zu sehen und damit scheinbar nicht zusammenhängende totalitäre Tendenzen zu erkennen. Auch der Projektkontext von PRISM im Rahmen von Stellar Wind ist noch nicht aufgearbeitet. Gleichwohl ungeklärt sind Bezüge bzw. Parallelen zum europäischen Forschungsprojekt INDECT.

Fest steht jedoch, dass die jetzigen und kommenden Debatten zu PRISM und vergleichbaren Diensten nicht ohne den Mut und den zivilen Ungehorsam von Eduard Snowden in Gang gekommen wären. Ich kann mich deshalb nur der Forderung anschließen, Eduard Josef Snowden (im Kontrast zu Barack Obama) den Friedensnobelpreis zu verleihen. Snownden hat außerordentlichen Mut bewiesen Verstöße gegen Bürger- und Menschenrechte anzuprangern, wie sie im Zeitalter der digitalen Vernetzung und Kommunikation typisch sind und sein werden. Eine Ehrung mit dem Nobelpreis würde Snowden vielleicht einen überstaatlichen Schutz vor übermäßiger Bestrafung (u.U. Todesstrafe) gewähren.

Mendeley Analytics – part 1: Data Visualization for collected Publications in Mendeley

27/06/201330/01/2014 nise 1 Comment

Mendeley is valuable tool to organize and annotate scientific literature. As power user you can get lost in paper space because Mendeley does not offer any tools keep track with all the collected metadata. Having more then 500 articles, book chapters and books in your collection makes it quiet difficult to overview relationships between authors/co-authors, publishers and keywords.
Luckily Mendeley does not protect its local database on desktop computers. So its theoreticly possible to build an alternative to Mendeley but for the mentioned disadvantage its fare enough to collect some resonable data for meaningful visualisations.
As a first example I will present some source code and visualization that gives you an overview about the quantity of authors and co-authors. Especially co-authors do not get that much attention while they play an important role, e.g. as senior scientist that tie generations of young researchers together.

Screenshot from 2013-06-27 22:23:39 — A snapshot of my Mendeley Database produced these bubbles representing authors of my collected publications.

Surprisingly I discovered some new names that seem to play a bigger role in my research filed as expected.

Technically the visualization is based on a simple bubble chart from the D3.js examples. The SQLite-Database can easily viewed with tools like “SQLite Database Browser”, available for Linux. The conversion of the data could be done with the script language of your choice. I put in php to generate some json code for D3:
< ?php header('Content-Type: application/json'); if ($db = new SQLite3('your-mendeley-sqlite-file')) { $result = $db->query('SELECT lastName, firstNames FROM DocumentContributors'); $row = array(); $i = 0; while($res = $result->fetchArray(SQLITE3_ASSOC)){ $row[$res['lastName']] ++; $i++; } $data = array('name' => "flare"); $authors = array(); foreach($row as $key => $val){ array_push($authors, array('name' => $key, 'size' => $val);); } $data['children'] = $authors; echo json_encode($data); } else { die($err); } ?>

8 Tipps um ein Paper zu schreiben, was Leser via Google Scholar & Co finden können

26/06/201326/06/2013 nise Leave a comment

Elektronische Publikationen gelangen zumeist durch Suchanfragen an ihre Leser. Die Suchmaschinen von Literaturdatenbanken wie auch Google Scholar folgen bestimmten Algorithmen, die anhand Parametern und Metriken die Suchtreffer in eine Rangfolge bringen. Diese Mechanismen als Autor zu ignorieren hieße, anderen den Zugang zu seinen Forschungsergebnissen zu erschweren und sich von der Community zu distanzieren. Andererseits sollte man sich in Bezug auf den Inhalt einer Forschungsarbeit nicht dem Diktat der Suchalgorithmen unterwerfen oder versuchen illegitimen Nutzen daraus zu ziehen. Academic search engine optimization (ASEO) zielt daher auf die Beachtung technischer Rahmenbedingung und die Entscheidungsfindung bei der Publikation elektronischen Forschungsarbeiten. In diesem Beitrag habe ich drei wissenschaftliche Artikel zum Thema ASEO in acht Handlungsempfehlungen zusammengefasst:

#1: Kurzer Titel
Google Scholar bevorzugt kurze Titel, wobei diese auch Keywords enthalten sollte.

#2: Keywords
Wähle die richtigen Keywords durch Suchanfragen in Literaturdatenbanken oder unter Zuhilfenahme folgender Werkzeuge:

Die verwendeten Schlüsselworte sollten zwar gebräuchlich und verbreitet sein, nicht jedoch zu übermäßig vielen konkurrierenden Treffern führen. Neben dem Titel integriert man die Schlüsselworte insbesondere in den Abstract und fernen in den Text.

#3: Text
Alle Schlüsselworte solltest du einschließlich der relevanten Synonyme in den Textkorpus integrieren. Die Struktur des Textes sollte sich am bekannten Muster introduction, related work, method, result, discussion anlehnen, damit die Artikel auch als wissenschaftliche Papiere erkannt werden können.

#4: Zitationen
Datenbanken wie Scopus oder Web of Science ordnen Treffer einer Suchanfrage allein anhand der eingehenden Referenzen. Je öfter ein Artikel in anderen Papieren zitiert wurde, desto höher rangiert er im Suchergebnis. Google Scholar scheint dabei nicht zwischen Fremd- und Eigenzitaten zu unterscheiden. Der Pange Rank Algorithmus von Google berücksichtigt jedoch auch andere Quellen im WWW, die auf ein Papier verweisen. Insbesondere die Reputation von Autoren und Verlagen / Journals wird miteinbezogen (siehe #6).

In Bezug auf Literaturangaben ist Sorgfalt bei der Schreibweise von Namen, insbesondere unter Berücksichtigung anderer Alphabete, angebracht. Es ist zudem wichtig Verweise auf die Bezugsquellen der referenzierten Quellen anzugeben. Eine URL, ISSN, ISBN oder DOI erfüllt diesen Zweck.

#5: Grafiken und Tabellen
Im Gegensatz zu Text in Tabellen und Bitmap-Grafiken (BMP, JPEG, PNG, GIF, TIFF, etc.), werden lediglich Texte in vektorbasierte Grafiken (z.B. SVG nach PDF exportiert) durch Google Scholar indiziert.

#6: Wahl des Journals bzw. Publikationskanals
Artikel rangieren auch dann weit oben in der Trefferliste, wenn lediglich nach einem Namen oder einem Publikationsnamen (z.B. Titel des Journals oder der Buchreihe) gesucht wird. Dabei spielt es keine Rolle, ob der Suchbegriff im Titel oder Text des Papiers vorkommt. Die Wahl der Zeitschrift hat also einen Einfluss auf das Ranking. Insbesondere Beiträge in Open Access Journals lassen sich im Gegensatz zu kostenpflichtigen Angeboten leichter zitieren und abrufen. Alternativ kann man einen pre-print (Green Open Access) ins Netz stellen oder im dem Verlag eine Recht auf eine spätere Veröffentlichung auf einem eigenen Server vereinbaren. ISI-Journals genießen auch bei Google Scholar einen besseren Ruf und werden höher eingeordnet.

#7: Metadaten
Neben den Schlüsselwort, die sich auf den Inhalt einer Arbeit beziehen, sind auch die mit dem Dokument also solches verbundenen Metadaten von Relevanz. Wenngleich Verlage diese Metadaten vor der Veröffentlichung im Netz vereinheitlichen, muss man als Autor bei der Veröffentlichung auf einer eigenen Webpräsenz allein dafür Sorge tragen. Ob PDF oder Textdokument, ein nachvollziehbarer Dateinamen sowie die korrekte und vollständige Angabe der Metadaten (Titel, Autor, Subjekt) machen das Dokument maschinenlesbar und somit für Suchmaschinen besser indizierbar. (In Tex leistet das Paket hyperref mit dem Kommando hypersetup gute Dienste.)

Will man ein Papier auf einer Webseite präsentieren ist die Angabe von HTML-Metatags notwendig. Bei Arlitsch et al. (2012) findet man genaue Angaben, wie sich Bepress Metadaten auf Dublin Core Sets abbilden lassen, um bei Google Scholar überhaupt erst einmal gelistet zu werden. Hier nur ein HTML-Code-Schnipsel als Beispiel:

<meta name=”bepress_citation_author” content=”Max Müller” />
<meta name=”bepress_citation_author” content=”Maxi Müllerin” />
<meta name=”bepress_citation_title” content=”ASEO at its best” />
<meta name=”bepress_citation_pdf_url” content=”http://www.nise81.com/archives/1046″ />
…

#8: Dateiquellen
Wenn ein Artikel nicht nur in einer Zeitschriftendatenbank, sondern auch auf einer privaten oder institutionellen Webseite abrufbar ist, gruppiert Google Scholar die Quellen in der Rangliste. Alternativ können Artikel auch bei Web-Diensten wie Mendeley oder ResearchGate eingestellt werden. Oder, in einem Satz gesagt: Je mehr (vertrauenswürdige) Quellen es für eine Dokument gibt, desto größer ist die Wahrscheinlichkeit, dass eine Suchmaschine darauf stößt.

Literatur:

Jöran Beel, Bela Gipp, Erik Wilde (2011): Academic Search Engine Optimization (ASEO). Journal of Scholarly Publishing, Volume 41/2. S. 176 – 190. DOI 10.3138/jsp.41.2.176. http://utpjournals.metapress.com/content/1G745112502611PQ
Kenning Arlitsch, Patrick S. O’Brien, (2012) “Invisible institutional repositories: Addressing the low indexing ratios of IRs in Google Scholar”, Library Hi Tech, Vol. 30 Iss: 1, pp.60 – 81. DOI 10.1108/07378831211213210. http://www.emeraldinsight.com/journals.htm?issn=0737-8831&volume=30&issue=1&articleid=17020806&show=html&PHPSESSID=9lnvik0qjfnpp8ndo7biksf1m7

Jan van Aalst. Using Google Scholar to Estimate the Impact of Journal Articles in Education. Educational Researcher June/July 2010 39: 387-400, doi:10.3102/0013189X1037112. http://edr.sagepub.com/content/39/5/387.full

http://blog.mendeley.com/tag/academic-seo/

Hilfe, mein Prof ist ein Medienfuzzi

15/06/201315/06/2013 nise Leave a comment

Etwas „aufgedueckt“, aber ein faszinierender Vorschlag, um zwei Probleme am Print- und Hochschulmarkt zu lösen (?)

Universitäten werden nicht umhinkommen, eine Fakultät zu kürzen und zehn Prozent der Professoren zu kündigen und sie durch Medien- und Filmleute zu ersetzen. Journalisten können helfen, das Wissen der Welt als Vorlesungen neu aufzubereiten – Professoren können das womöglich gar nicht. Das wäre doch chic, wenn man aus diesem Wissen richtige Videofilme macht und wenn man Qualitätsjournalisten darauf ansetzt, Literatur- und Politikvorlesungen noch einmal richtig schön und zeitgemäß zu gestalten. Da ist unendlich viel Arbeit.

Günter Dueck in DER STANDARD via jrobbe.