Verdatung und Klassifizierung international

Gerade geht mein erster Tag beim Workshop Values in Computer Information Systems Design an der Santa Clara University vorbei. Nachdem wir den halben Tag über Klassifizierung, Datenbanken und Identität diskutiert haben und dazu extrem spannenden Input von Geoffrey Bowker, Helen Nissenbaum und Susan Leigh Star bekommen haben, hat unser Team gerade unsere Ideen zum Projektthema “data bodies” vorgestellt. Umso erstaunlicher, festzustellen, dass genau zu dieser Zeit ein Workshop in Wien fast dieselben Fragen aufwirft:

  • Welche Rolle spielt der Körper im Zusammenhang mit Identifizierungstechniken?
  • Wie wird der Mensch/der menschliche Körper zum Objekt der Wissenschaften?
  • Durch welche (technischen) Verfahren wird ein Körper in “Datensätze” transformiert? (Datensätze verstehen wir als Komplexitätsreduktion, als Abstraktion, das heißt von der rein sprachlichen Beschreibung bis hin zu Logarithmen.)
  • Gibt es im Kontext der Identifizierungstechniken einen “nicht verdateten Körper”? Was wäre der “vor”-verdatete Körper?

Die Seite zum Workshop “Verdaten. Klassifizieren. Archivieren.Identifizierung von Personen aus kulturwissenschaftlicher Perspektive” enthält interessante Abstracts. Hoffentlich bekommt man nach dem Workshop noch mehr zu lesen. Noch besser wäre wahrscheinlich eine Live-Schaltung zwischen Wien und Santa Clara gewesen, aber hier wird sonntags nicht gearbeitet: morgen steht erst einmal ein Wander-Trip in die kalifornischen Berge auf dem Programm.

Technorati Tags: , , ,

Tracking, Prediction and the Assemblage

Jordan Crandall recently posted some interesting notes on nettime from his presentation at the “Everyday Life of Surveillance” seminar in Durham.

Crandall talks about the “tracking apparatus” – new methods of data collection, analysis and prediction which the canonical concepts of the panopticon and the carceral fail to comprehend. Instead, he develops his concept of the assemblage, which encompasses a new modality of power:

It is not “control” as such:  When a degree of stabilization is reached (as enacted in practice), or a certain materialization threshold crossed, effects can be produced.  In this way actors can become functional, operational.  But not necessarily.  To act as an agent of control, there is a balance to be achieved between stabilization and destabilization. A certain degree of reliability, but not rigidity.  It is a fine line, a precarious zone.

Crandall develops some interesting thoughts on the nature of tracking and prediction and on the way these phenomena can be understood – not merely in terms of surveillance but also as a way to “guide disorder” by means of “statistical inclinations”. In my view, the text offers a range of viable options for surveillance studies to move forward into more organisational, dispersed and networked conceptual frameworks.

One thing that left me wondering, though, is if he actually endorses Chris Anderson’s view that scientific method has become obsolete. (Which has been thoroughly and rightfully criticised by Bernhard Rieder.) On the one hand, he affirmatively quotes Anderson on data mining: “We can analyze the data without hypotheses about what it might show.  We can throw the numbers into the biggest computing clusters the world has ever seen and let statistical algorithms find patterns where science cannot.” On the other hand he says: “When we track — when we study how something or someone is moving in order to predict its future location or orientation — we subject everything to the classifying schemes available to us.  We fasten our objects (and subjects) onto a classifying grid or database-driven identity assessment.”

Interesting read, in any case.

Technorati Tags: , , , , ,

„Menschliche Prozessoren“

Ein Team der Carnegie Mellon’s School of Computer Science hat vor kurzem vier neue Spiele vorgestellt, die dazu beitragen sollen, Indizierung und Ranking multimedialer Inhalte bei Suchmaschinen zu verbessern. Der Leiter des Teams, Luis von Ahn, hatte vor einiger Zeit das unter dem Namen „Google Image Labeler“ bekannt gewordene Spiel ESP Game entwickelt. Ziel der neuen „Games with a purpose“ (Gwap) ist es, Aufgaben, die bisher noch nicht von Computern erledigt werden können, an Menschen auszulagern.

Für Suchmaschinen stellen multimediale Inhalte ein Problem dar, da sie oftmals unzureichend gekennzeichnet sind. Da die inhaltliche Erfassung von Bild- und Tondokumenten immer noch sehr aufwendig ist, gestaltet sich der Abgleich mit einer textuellen Suchanfrage schwierig. Bisher wurde dieses Problem dadurch gelöst, dass bei der Bildersuche der Titel des Bilds und der umgebende Text berücksichtigt werden. Diese Methode bringt jedoch nicht immer ideale Resultate und für ein sinnvolles Ranking stehen oftmals nicht genügend Metadaten zur Verfügung.

Das „ESP Game“ löst dieses Problem sehr geschickt: Indem zwei Spieler Tags für ein Bild vergeben und Punkte für Übereinstimmungen erhalten, wird eine große Zahl von Bildern mit Metadaten versehen und somit besser für die Suche aufbereitet. Durch die Übereinstimmung zwischen zwei unabhängigen Spielern gibt es zudem eine Kontrollfunktion, die bei einem einzelnen menschlichen Tagger nicht gegeben wäre. Da das Ganze auch noch Spaß macht, gibt es außerdem eine Motivation für die Spieler, diese Aufgaben auch ohne Entlohnung zu erfüllen.

Die vier neuen Spiele verfahren nach demselben Prinzip. Auch hier spielen jeweils zwei Spieler miteinander, Punkte gibt es für Übereinstimmungen. Bei „Matchin“ entscheiden die Spieler, welches Bild von einer Auswahl ihnen am besten gefällt und schaffen so die Grundlage für ein verbessertes Ranking. Bei „Tag a Tune“ werden, ähnlich wie beim Image Labeler, Tags vergeben, hier allerdings für Lieder. Bei „Squigl“ werden die Ränder eines Objekts in einem Bild nachgezeichnet, wodurch sich Entwickler erhoffen, in Zukunft die Objekterkennung verbessern zu können. „Verbosity“ hat einen weniger direkten Bezug zur Online-Suche: Die hier erzeugten Begriffsumschreibungen sollen als Grundlage künftiger Anwendungen im Bereich der künstlichen Intelligenz genutzt werden.

Luis von Ahn beschreibt seine Spiele als „Algorithmen, die statt auf einem Computerprozessor auf einem Prozessor laufen, der aus Menschen besteht, die über das Internet mit Computern interagieren“ (pdf). Nicholas Carr bezeichnet dies als einen „Transfer menschlicher Intelligenz in Maschinenintelligenz“, der durch das Internet ermöglicht werde. Abgesehen von der Tragweite solcher Begriffsvermischungen ist es interessant zu beobachten, welche neuen Beziehungen zwischen Mensch und Computer hier entstehen. Amazons Mechanical Turk verfolgt explizit das Konzept, eine Schnittstelle zu schaffen, über die menschliche Arbeitskraft so in Software eingebaut werden kann, dass Aufgaben, zu denen der Computer nicht imstande ist, mitprozessiert werden können.

Der Bereich der Suchmaschinen ist für diese Entwicklung besonders aufschlussreich, weil das Ranking letztlich auf der mathematischen Modellierung menschlicher Relevanzbewertungen beruht. Carr bezeichnet daher Googles PageRank als eine Methode, die menschliche Intelligenz zu aggregieren, die in das Setzen von Links eingeflossen ist. (Auch hier sei die Frage dahingestellt, ob die Terminologie adäquat gewählt ist.) Den Suchmaschinenbetreibern ist somit daran gelegen, ihre Algorithmen letztlich so weit menschlichen Relevanzentscheidungen anzunähern, dass für die Nutzer kein Unterschied mehr erkennbar ist. Reichen die Computer-Kapazitäten selbst nicht aus für diese Aufgabe, so muss eben, wie mit den Gwaps, auf menschliche „Prozessorkraft“ zurückgegriffen werden.

Interessant ist aber, dass sich für (Spam-)Suchmaschinenoptimierer genau dasselbe Problem von der anderen Seite stellt: Sie müssen möglichst billig (also möglichst automatisiert) Inhalte und Links generieren, die von den Suchmaschinen als Produkte menschlicher „Intelligenz“ wahrgenommen werden. Sind automatisierte Verfahren nicht mehr in der Lage, diesen Anschein aufrechtzuerhalten, z.B. wenn Google eine Link-Farm oder automatisch generierten Text als solche identifiziert und die entsprechenden Seiten ausschließt, wird auch hier auf billige menschliche Arbeitskraft zurückgegriffen. Die Schnittstellen sind in diesem Fall weniger glatt, das Prinzip ist aber dasselbe: In SEO-Foren wie Abakus häufen sich die Angebote der Texter, Submitter und Linkbuilder, die für geringe Entlohnung Inhalte generieren, die den Turing-Test der Suchmaschinencrawler gerade eben noch bestehen.

Technorati Tags: , , , , ,

The Search Race

Alt Search Engines ist schon seit langem eine der besten Adressen für Informationen über vielversprechende Google-Alternativen. Jetzt ist die Bewertung der alternativen Suchmaschinen interaktiv geworden: Unter www.thesearchrace.com kann man (nach Registrierung) über verschiedene Suchmaschinen abstimmen und noch nicht erfasste Suchmöglichkeiten hinzufügen. Neben der aktuellen Platzierung ist in der Liste auch jeweils eine kurze Beschreibung der verschiedenen Suchvarianten angegeben. Bleibt zu hoffen, dass sich die Liste schnell füllt und dass es im Laufe des Rennens zur “Search Engine of the Year” interessante neue Ansätze zu entdecken geben wird.

Technorati Tags: , ,

Band zum acatech-Symposium

Zum acatech Symposium „Mehr als Stichworte. Wie arbeiten die Suchmaschinen von morgen?“, das letztes Jahr in Berlin stattfand (mein Bericht hier), ist jetzt der Tagungsband erschienen. Er enthält u.a. Beiträge von Marcel Machill, Rainer Kuhlen und Rudi Schmiede und kann als PDF heruntergeladen werden. Damit ist auch der Überblick über die Suchmaschinenforschung von Machill/Beiler/Zenker aus dem Band „Die Macht der Suchmaschinen“ gratis verfügbar, was vor allem für Einsteiger in die Thematik interessant sein dürfte.

[via @-web]

Technorati Tags: , , , ,

“the most annoying thing since email chain letters …”

…and Joris made me part of it. But since it’s the first time I’ve been tagged for a blog meme, I thought I might just as well pass it along. So here’s the deal: pick sentence 6-8 on page 123 of the nearest book, write them down and pass the game on to 5 other bloggers. Or else…

My sentences come from Stewart Clegg’s Frameworks of Power:

“The stability of the relationship between the nature of a thing and the appropriate conditions for the realization of that nature is highly problematic for social phenomena, precisely because the causal relationship is mediated by judgement, choice, will (subjectivity) rather than being unmediated by reflection. Of course, the range is variable: in perhaps 90 percent of cases, one may say that drivers in such and such a city, at a specific intersection (observed for a specific period) and at a recurrent time, always stop at a red light. However, it is still knowledge of the highway code which enables them to stop: they know what a red light means and have reasons for almost never running a red light at this particular intersection.”

It would be interesting if someone put together all these bits of text at some stage, but I don’t see how they would find them. Anyway, now it’s your turn:

Bernhard Rieder at thepoliticsofsystems.net

Jan Schmidt at schmidtmitdete.de

Tina Guenther at sozlog.de

Klaus Schönberger at Kulturwissenschaftliche Technikforschung

Sebastian Erlhofer at Netzwerkkommunikation

24 Seiten Google

Endlich einmal ein wirklich empfehlenswerter journalistischer Beitrag zum Thema Suchmaschinen: Die Schweizer Wochenzeitung hat eine 24-Seiten-Beilage mit dem Titel “Dein großer Bruder” herausgebracht. Vom Datenschutz bis zu alternativen Suchmöglichkeiten deckt die Beilage so ziemlich alle Aspekte der Suchmaschinenproblematik ab. Mit dabei ist auch ein Interview mit dem Soziologen Rudi Schmiede und ein von Klaus Patzwald verfasster Einblick in die Geschichte der Suchmaschinen. Die Beilage kann gratis als Klassensatz für die Schule bestellt werden, was der Medienkompetenz in Sachen Suchmaschinen sicher gut tun wird.

Technorati Tags: , ,

Später Start ins Jahr

So langsam wird es ja doch mal Zeit, den Blog aus dem Winterschlaf zu reißen und zum einjährigen Bestehen gibt es dann auch direkt mal ein neues Design.

Die zwei wesentlichen Nachrichten aus der Suchmaschinenwelt waren in der letzten Zeit sicherlich der Grazer Google-Bericht (pdf) und der Start von Wikia Search. Der Google-Bericht von Hermann Maurer und anderen hat kurz vor Weihnachten noch mal so richtig Leben in die Mailinglisten gebracht, hoch her ging es z.B. auf InetBib, wo Stefan Weber, einer der Autoren der Studie, u.a. mit Mathias Schindler von Wikimedia diskutiert und sich schließlich von den Teilen des Berichts distanziert, an denen er nicht beteiligt war. Eigentlich hätte ich gedacht, dass Hermann Maurer nach dem furchtbar schlecht recherchierten Artikel im Informatik Spektrum (pdf) in Google-Belangen nicht mehr als Experte herangezogen werden würde, aber in der aktuellen Technology Review kommt er doch noch einmal zu Wort.

Die Alpha-Version von Wikia Search ist seit dem 7. Januar online. Die Euphorie hält sich insgesamt eher in Grenzen und es wird immer wieder beteuert, dass alles ja erst in den Anfängen steckt. Interessant an dem Start fand ich eigentlich weniger die Suchergebnisse oder die technischen Details (auch der Suma-Blog entdeckt hier bisher wenig Neues), als die Diskussionen hinter den Kulissen, die man auf der Search Wikia-Mailingliste verfolgen konnte. Im Moment ist die Liste wieder fast völlig verstummt, aber für eine Weile fand dort unter den Akronymen POV/NPOV/MPOV eine interessante Diskussion zum Thema Relevanz statt. POV steht für point-of-view, die beiden Extreme für die Relevanzbewertung von Suchergebnissen wären demnach neutral point-of-view (NPOV) oder my-point-of-view (MPOV). Während sich einige Teilnehmer der Liste für den MPOV aussprechen (wie ihn ja Google Coop, Eurekster, Rollyo usw. schon anbieten), ist Wales strikt dagegen: „Wikia will not be a niche search engine, and I think as a key part of the infrastructure, we want to strive to be neutral, neutral, neutral.“

Neutrale Suchergebnisse? Da gefiel mir die Antwort von Alex Halavais schon wesentlich besser:

So, any search engine is inherently a selection (biasing) system. The hope is that the way in which those biases are constructed are – and this is of primary importance – transparent to the user. I want to know how the search engine has decided to make a given result its top-ranked choice. Communicating that can be extraordinarily difficult, of course, but the perspective of full disclosure is a good start.

Auf die Gleichung Transparenz = Nachvollziehbarkeit = höchste erreichbare Neutralität kann die Liste sich schließlich auch einigen. Wobei man allerdings wieder bei dem Problem landet, auf das Richard Rogers beim Quaero Forum in Maastricht in Bezug auf das niederländische Projekt Open Search auch schon hingewiesen hat: Was macht man mit den Spammern, für die die Transparenz der Algorithmen das Einfallstor in die Suchergebnisse ist? Man bräuchte schon eine Community von Wikipedia-Ausmaßen, um solchen Mißbrauch manuell zu verhindern. Dies könnte allerdings von daher schwierig werden, weil die Ausgestaltung von abstrakten Suchalgorithmen wesentlich weniger Identifikationspotenzial bereithält als die Mitarbeit an einem Wikipedia-Artikel. (Ein Problem, dass Wales auch in Davos angesprochen hat.) Ein Weg könnte vielleicht über die stärkere visuelle Vermittlung der Relevanzkriterien an die Nutzer gehen. Gäbe es eine Möglichkeit, die Entwicklung der Relevanzkriterien nicht nur offenzulegen, sondern auch für Laien plausibel grafisch darzustellen und eine Interaktion zu ermöglichen, gäbe es u.U. die Möglichkeit, mehr Menschen in die Arbeit einzubeziehen. Es bleibt jedenfalls noch einiges zu tun.

Technorati Tags: , , , ,

Call: Ethics, Technology and Identity

Conference, June 18-20 of 2008, The Hague

“Information technology plays an increasingly important role in society and in human lives. Identity Management Technologies (e.g. biometrics, profiling, surveillance), in combination with a variety of identification procedures and personalized services are ubiquitous and pervasive. This calls for careful consideration and design of collecting, mining, storing and use of personal information.

Access, rights, responsibilities, benefits, burdens and risks are apportioned on the basis of identities of individuals. These identities are formed on the basis of personal data collected and stored and manipulated in databases. This raises ethical questions, such as obvious privacy issues, but also a host of identity related moral questions concerning (the consequences of) erroneous classifications and the limits of our capacity for self-presentation and self definition.

Which conceptions of identity are used when addressing ethical issues regarding information technology? How can the concepts of ‘identity’ and ‘identification’ be understood from a philosophical perspective when discussing morally problematic developments in information technology? What are the philosophical semantics pertaining to reference and identification which may help clarify ambiguities and ethical issues? How can we arrive at a normatively sound conception of personal identity as a starting point for the study of the ethical aspects of the (information) technology that is shaping our lives? This conference aims to discuss the theme of ‘identity’ in light of new (information) technology.”

Key-note speakers

  • David Velleman, New York University
  • Oscar Gandy, University of Pennsylvania
  • Robin Dillon, Lehigh University
  • David Shoemaker, Bowling Green State University

More information here.

Technorati Tags: , , , , ,

Google Body

Meldung von brad brace zur Präsentation von Google Body:

MOUNTAIN VIEW–Information search giant Google, Inc. announced Thursday the release of Google Body, a search service aiming to index the internal and external anatomy of every living creature on the planet. “Google has long been dedicated to making information both useful and universally accessible,” notes Google VP of Product Development Eric Hind. “We’re happy now to extend search to information about human bodies, mine and yours, inside and out, from the number of follicles on my head to the length of the President’s toenails.”

[…]

The service, which has been available for some three months to invitation-only beta testers, enables users to search for aggregate information about the anatomy of user-defined groups. “The service is a boon to the medical research community,” says Dr. Jennifer Guns of the Johns Hopkins Clinic for Specialism. “Nothing will replace truly controlled trials, but the ability to get a snapshot of, say, the blood pressure of men between 50 and 65 on New York’s Upper East Side, can certainly give companies an idea of where they might best spend their research dollars.

Early testers have remarked upon a fuzzy-logic “match my organ” feature, which helps users get in touch with the nearest, most suitable donor for multiple organ systems. “We think of Body as way to bring people together,” remarks Google’s Hind. […]

Vielleicht gar nicht so weit weg, wie man denken könnte.

[via nettime]

Technorati Tags: