PDF in HTML konvertieren

2. April 2008.

Ich lese gerade, dass Adobe einen kostenlosen Service bietet, der PDF Dokumente in HTML oder auch einfachen Text konvertiert. Brauchen Sie nicht, wenn Ihre Site auf einem Unix-Rechner [oder Linux, BSD, OS X usw, d.h. alles ausser Windows] läuft. Da befinden sich u.a. auch die Tools pdftohtml sowie pdftotext und viele andere, ohne dass Ihre möglicherweise privaten Informationen durch die Firma Adobe gezogen werden müssen.

Monster-Traffic

8. Februar 2008.

Die meisten normalen Sites gehen hoffnungslos in die Knie, wenn sie von der News-Site Slashdot verlinkt werden, weil die Zugriffszahlen zuviel für gewöhnliche Server sind, solange der Link auf der "/."-Startseite ist.

Das W3C hat jeden Tag 600 mal soviel an unnötigen Abrufen, nur weil Leute nicht lesen können oder wollen. Völlig sinnlose Zugriffe, fast immer ausgelöst durch Robots oder Spider, die von Leuten programmiert oder eingesetzt werden, die man eigentlich nicht in die Nähe einer Tastatur lassen dürfte.

Selbst heute, zweieinhalb Jahre nachdem ich meinen RSS Feed wegen unnötig häufigen Zugriffen eingestellt habe, gibt es immer noch sogenannte Newsreader, inkl. Googles Feedfetcher, die alle paar Minuten versuchen, eine nicht mehr existierende Ressource zu benutzen. Status- und Fehlermeldungen werden offenbar nur von der wirklichen Elite verstanden.

Flash 9

6. Dezember 2007.

Adobe stellt Flash 9 als .tar.gz, .rpm und mittels .yum repository Dateien vor. Gibts natürlich auch für OS X und Windows Home Computer.

MSN wird so wie Google - mal war

5. Oktober 2007.

Sie werden es mehr als einmal gelesen haben, da die meisten Medien Microsofts PR nachdrucken. Was ansteht: Microsoft bzw MSN setzt in Kürze auch Stemming ein, sowie ein paar neue Tricks in Verbindung mit der Berücksichtigung bzw dem Ignorieren von Stop-Wörtern.

Stemming war bei der Vorstellung in 1968 eine fortschrittliche Idee. Da sie nicht fertig war, veröffentlichte Martin Porter 1980 einen eleganten Algorithmus für das Stemmen englischer Wörter, der unzählige Male reimplementiert und geklont, aber nie verbessert wurde. Eher verwässert, da keine der nachgemachten Implementierungen fehlerfrei waren. Aus diesem Grund veröffentlichte Porter 20 Jahre später eine Code-Bibliothek für das Stemmen der englischen und anderer [stemmbarer] Sprachen.

Bei Google gibt es Stemming seit 2003. Und Microsoft betrachtet sich jetzt ebenbürtig, da man ebenfalls Stemming einführt. Und übersieht, dass andere möglicherweise nicht stillgestanden sind.

Erster Preis!

23. März 2006.

Das passiert nur beschlippsten Pomaderednern: J.B. arbeitet für eine Firma, die ein CMS [Content Management System, oder zu deutsch Inhaltsverwaltungssystem für Leute, die vi nicht beherrschen] entwickelt, und er ist verantwortlich für die folgende Episode aus dem Leben eines Dazulernenden. CM Systeme erlauben das Füttern, Ändern und auch Löschen von Inhalten auf dem Web Server durch jeden, der zugriffsberechtigt ist.

Zugriffsberechtigung kann man durch so etablierte wie bewährte Standardmethoden regeln, z.B. HTTP Authorisation, oder man kann - wie auf den meisten Systemen, die einen "Login"-Prompt bieten, seit Jahren üblich - eine eigene Lösung stricken. In diesem Fall wurde eine "Lösung" gehäkelt, die auf einer recht komplizierten Methode der freiwilligen Selbstkontrolle basierte: der Browser entschied, ob er zugriffsberechtigt war, wenn der JavaScript-Code, der im Browser läuft, einen Cookie richtig auswertete.

User-agents, die Cookies nicht akzeptieren oder speichern, und bzw oder die JavaScript nicht ausführen oder überhaupt zur Kenntnis nehmen [weil sie von Erwachsenen eingesetzt werden, die auf Integrität wert legen], können an dieser Art der freiwilligen Selbstkontrolle nicht teilnehmen. Soll heissen, diesen Anwendungen steht jeder einzelne Link uneingeschränkt und vor allem durch den Webserver ungehindert[!] zur Verfügung.

Eine der Anwendungen, die Webseiten ohne Ausführung von Code aus dritter Quelle [und oft auch dritter Hand] abruft, ist ein Web-Spider namens Googlebot. Dieser konnte auf der über Monate hinweg mit alten und an das CMS angepassten Inhalten gefütterten Site, die kürzlich online ging, nicht an der freiwilligen Selbstkontrolle für unbedacht konfigurierte Anwendungen partizipieren, weil diese sich eben nicht an dafür vorgesehenen Richtlinien orientiert. Und der so nichts Böses ahnend auch alle mit "Löschen" gekennzeichnete Links verfolgte und damit die Inhalte entsorgte.

Was kann man da sagen? Cool :-)

McSprachlos

14. Februar 2006.

... oder, wenn man ein zeitgemässes Buzzword einsetzen möchte, wahrscheinlich sowas wie iBeeindruckt. So oder so ähnlich ist mein bisheriges Urteil über ein Apple Powerbook, das hier am Freitag nachmittag ankam [ich habe gelernt, dass es für meinen Blutdruck besser ist, nie Hardware der ersten Generation zu kaufen, daher kein MacBook Pro].

Das Erlebnis beginnt mit dem Auspacken, sowie man den braunen Transportkarton öffnet. Jedes Detail, von der Verpackung über die Hardware bis zur nur für den Transport gedachten Kabelklemme zeigt, dass sich bei Entwicklung und Herstellung jemand darüber Gedanken gemacht hat, wie man den Kunden beeindruckt. Der Preis scheint gerechtfertigt.

An keiner Stelle steht im Handbuch, dass man tunlichst mehr als ein Account anlegen sollte - eines für das tägliche Arbeiten, ein anderes für System-Administration. Wer von den mitgelieferten Datenträgern X installiert, um die Fülle traditioneller Unix Befehle nutzen zu können, stellt überrascht fest, dass das root Account kein Passwort hat; auch wenn man das System neu installiert, bleibt es offen.

Unverständlich ist mir, warum man gem. Apple Entwickler-Informationen eine XML-Datei anlegen muss, wenn man gewisse bash Umgebungsvariablen setzen möchte. Nur weil eine neue Technologie verfügbar ist, muss es nicht heissen, dass sie auch bewährte ablösen muss. Wie man Login Scripts ausführt und andere traditionelle unter Unix bzw Linux übliche Dinge nahtlos geschehen lässt, muss noch gegoogelt werden.

Darwinports ist eine massive Sammlung von Open Source Software, die bis auf ein paar Dinge alles bietet, was ich traditionell einsetze. Setzt allerdings eine direkte Internet-Verbindung, eine transparente TCP Proxy oder NAT voraus. Ich arbeite normalerweise sehr viel abgeschotteter.

Am Freitag habe ich gespielt, am Samstag erste Erfahrungen gesammelt und einiges vom Web geladen und probehalber installiert. Gestern, nach einer Neuinstallation [ohne Demos, die mich nicht interessieren, aber mit getrennten Accounts] habe ich dann über www.darwinports.org [bis auf selbst Geschriebenes] alles beschafft, was man so braucht. Auf einer riesigen "Todo" Liste ist nahezu alles durchgestrichen. Man muss allerdings gelegentlich aufpassen, welche Tools man einsetzt, sonst kann es passieren, dass man [wie unter Windows die Norm] private Daten proprietären Dateiformaten anvertraut, die nicht mit offenen Anwendungen bearbeitet werden können oder dürfen. Absolute Freiheit gibt es nur bei Systemen, die 100% Open Source sind.

Soweit die Kritik. Die positiven Seiten sind so beeindruckend, das ich OS/X uneingeschränkt jedem empfehlen kann, der mit Linux oder BSD nicht ausreichend bedient ist. Bei jeder einzelnen Einstellung spürt man, dass sich auch hier die Entwickler vor allem Gedanken gemacht haben. Nichts muss gesucht werden, und vor allem klappt alles auf Anhieb, von Wifi über die gleichzeitige Anbindung an ein zweites LAN bis hin zum Drucken an den Laserdrucker [Cups, am Linux Server], den der Apple selbst gefunden hat.

Warum ich einen Apple gekauft habe, obwohl ich sonst überall Linux einsetze? Video-Bearbeitung unter Linux ist nicht fertig. Oder nicht so fertig, dass sie mit Premiere und schon gar nicht mit Final Cut vergleichbar ist. Und ich möchte nicht noch ein oder zwei Jahre warten müssen, habe andererseits keinen Bedarf für einen Apple Bürorechner. Der Laptop, der meinen betagten Tosh ablöst, erscheint mir daher der geeignete Kompromiss. Meine andere Hälfte möchte jetzt auch einen.

Blick in die Zukunft

10. Januar 2006.

Prognosen am Jahresanfang sind nichts Neues. Die von Prof. Ed Felten haben sich in der Vergangenheit aber mehr als einmal recht praxisorientiert erwiesen. So meint er jetzt, dass DRM-Management auch 2006 mehr als einmal für Schlagzeilen gut sein wird. Der Fall Google-Books wird irgendwann in gegenseitigem Einvernehmen geregelt werden. Was dazu führt, dass sich hinterher jeder fragt, was die Aufregung sollte.

Weiterhin: wir müssen damit rechnen, dass es modisch werden wird, das Internet als "kaputt und überholungsbedürftig" zu betrachten. Ein Standpunkt, der überwiegend von Leuten vertreten werden wird, die für schlechte Entscheidungen bekannt sind. Sicherlich reiner Zufall, dass dieser Punkt der dreizehnte in Prof. Feltens Liste ist.

Wireless Video

5. Dezember 2005.

Seit dem 25. Juni d.J. bin ich Nichtraucher. Während ich [bisher] selten ernste Probleme hatte, fällt es in gewissen Situationen doch manchmal schwer; Programmieren oder technische Pannen beheben waren früher besonders Qualm-intensiv. Am 1. Okt. hat meine selbstgestrickte Backup-Software versagt, weil ich nicht erwartet hatte, Dateien über 4.4 Gb Grösse auf eine DVD zu packen. Am nächsten Tag, nach Lösung des Problems, wurde mir bewusst, dass ich am Vortag trotz Tech-Stress das Rauchen nicht vermisst hatte.

Und gestern habe ich erstmals an unserem distribuierten Media-Zentrum weitergefrickelt. Eine Anfang des Jahres angeschaffte Hauppauge PVR-350 läuft jetzt unter Linux so, dass ich selbst gefilmte Videos darüber an das TV schaufeln kann, nachdem ich sie per Mencoder an die Hardware-Anforderungen der PVR-Karte angepasst habe [Ich habe kein Interesse daran, vom TV Aufzeichnungen zu machen; pro Woche kommt da selten mehr als 1 Std wirklich Interessantes].

Es scheint so, als ob die Karte eine konstante Bitrate für Audio-Daten benötigt, da [bisher] jede Abweichung zum Stummfilm führte. Die Video-Daten kann ich andererseits nach Belieben komprimieren. Im Laufe der Woche will ich versuchen, eine Kompressionsrate zu finden, die mir die ruckelfreie Übertragung über das wireless Netzwerk erlaubt, dabei aber nicht aussieht, wie eine Raubkopie einer Raubkopie.

Mitgegangen, mitgehangen

11. November 2005.

Amerikanische Medien spekulieren heute, dass Google schon in Bälde Bücher vermieten könnte. Diese Bücher können weder heruntergeladen noch ausgedruckt werden, und herumlungern auf dem Sofa ist wohl auch ausgeschlossen. Ich habe aufgehört, den Artikel zu lesen, als ich über das Wort "Bertelsmann" stolperte. Wem die zahlreichen und scheibchenweise erfolgenden Enthüllungen der letzten Wochen immer noch nicht nicht den Geschmack auf Bertelsmann- bzw Sony-Produkte verdorben haben, der findet bei Ed Felten eine neue Sammlung von Gründen.

So macht man Freunde

25. Oktober 2005.

Nur weil etwas aus dem Hause Google kommt, wird es dadurch längst nicht gutmütig, sinnvoll oder korrekt. Der Google Web Accelerator [GWA] in seiner 2. Version treibt Site-Betreiber berechtigterweise auf die Palme. Eine der wichtigsten Änderungen zur 1. Version: der Prefetch-Header, an dem man den GWA erkennen und serverseitig zum Teufel schicken konnte, ist verschwunden.

Wer bedenkt, wie schludrig z.B. RSS-Leser oder Download-Programme entwickelt und eingesetzt werden [HTTP Status-Codes werden selten beachtet und führen noch seltener zu einer Verhaltensänderung], erkennt schnell, dass der GWA in die heutige Zeit passt, wie der 12-Zylinder Allrad-angetriebene 8-Sitzer für den Weg zum nächsten Briefkasten. Auch wenn sich niemand Gedanken darüber macht, wieviel Bandbreite, Hitze und Energie bei jeder Seitenlieferung be- und entsorgt werden muss, heisst es nicht, dass wir uns Ignoranz weiterhin leisten können.

Denk-Verlagerung

7. März 2005.

Urs Hölzle, Tech-Vize bei Google, erklärte kürzlich in einem Vortrag, dass die Kombination billiger Hardware in Verbindung mit der bisher grössten Datenmenge, die geschaufelt wird, erstmals dazu führte, dass Maschinen - bzw die darauf laufende Software - lernende Cluster [Maschinen-Gruppen] bilden kann. So kommt es offenbar, dass die Bezeichnungen heute gängiger Konsumergüter stets mit "(jetzt|hier|sofort)+(kaufen|bestellen|billig|preiswert)" assoziiert werden.

Kann Google abgesetzt werden?

12. Januar 2005.

In einem Vergleichstest, bei dem ca 2000 Anwender Suchmaschinen mit so komplizierten Dingen wie die Suche nach Shops und Produkten und sogar ernsten Fragen bombardierten, wurden anhand der Bewertung von mehr als 250 Kriterien ermittelt, welche wohl den Anwenderwünschen am ehesten gerecht wird. Während die meisten Anwender ihr Urteil im Alltag wohl kaum in zweihundertfünfzig Einzelpunkte sezieren, lässt sich feststellen, dass Googles Position nicht in Stein gehauen ist.

Im Vergleich zu einem früheren unter ähnlichen Bedingungen durchgeführten Test hat sich die Distanz zwischen Google und den Suchmaschinen, die entweder Daten von Yahoo liefern oder die eigene Bestände verwalten, etwas reduziert. Während Google zwar immer noch bei Genauigkeit, Geschwindigkeit und Präsentation führt, gibt es deutliche Probleme bei der lokalen Suche [die man auch oft bei der landesspezifischen Suche sieht]. Deutlich macht die Studie aber auch, dass Datenbankgrösse und Aktualität kaum den Stellenwert haben, den Google diesen Dingen zumisst, sonst wäre die gemessen Distanz wesentlich grösser.

Ob andere Innovationen ihren Wert haben, sei dahingestellt. Der MSN Routenplaner hat auf jeden Fall Unterhaltungswert, wenn man nach der besten Verbindung zwischen Haugesund und Trondheim [beide Norwegen] fragt, wie Blogoscoped zu berichten weiss:

http://blog.outer-court.com/archive/2005_01_13_index.html

Neue Spezial-Suchmaschine

9. November 2004.

Während Suchmaschinen wie Google für viele Themen viele relevanten Ergebnisse liefern, versagen sie manchmal völlig, wenn sehr Spezifisches benötigt wird. Oft liegt das an der vom Anwender genutzten Synax: Einwort-Anfragen sind selten spezifisch genug, genau das zu finden, was der Anwender momentan mit dem eingetippten Wort assoziiert. Oft liegt es aber auch daran, dass herkömmliche Suchmaschinen teilweise unkritisch alle Dateien aufnehmen, die irgendwie auf lesbare Inhalte schliessen lassen.

Koders spezialisiert sich ausschliesslich auf Quellcode aller möglichen Programmiersprachen und liefert - bei genau formulierter Syntax - auf Anhieb, was man bei anderen meist vergeblich sucht. Hier findet man Bedienungs-Hinweise. Kompliment.

Ohne Moos nix los

12. Oktober 2004.

Froogle UK ist jetzt, obwohl noch in "Beta", auf der Insel ein offizielles Google-Produkt. Noch findet man zwar ausschliesslich - zumindest in den Bereichen, die ich mir angesehen habe - US Produkte bei der "britischen Produkt-Shoppingsuche", aber das kann sich ändern.

Wie Reuters aber eher nebenbei meldet, tritt Google damit in Europa direkt gegen Kelkoo an, das Unternehmen, das einem ständig bei Suchanfragen, die ein kommerzielles Interesse auch nur annähernd vermuten lassen, über den Weg läuft. Cosmos Nicolau, Entwicklungsleiter des Froogle-Projekts, bekundet gemäss Reuters, dass man nichts dagegen habe, Kelkoo-Ergebnisse in Froogles Datenbestand aufzunehmen, obwohl Kelkoo ein direkter Mitbewerber Googles ist.

Ähnlich schauts auf der anderen Seite des Teiches aus: auch hier findet man Einträge von z.B. Amazon und Yahoo-Shopping in Froogle. Aber eben [wie auch hier] nicht nur in Froogle, sondern auch dem allgemeinen Datenbestand von Google. Böse Zungen behaupten, dass das daran liegen könnte, weil Kelkoo seit einiger Zeit zu Yahoo gehört und Yahoo Aktionär bei Google ist. Auch der Gründer des Gleitmittel-, Rasenmäher- und Küchengeräte-Vermarkters Amazon ist Google-Aktionär der ersten Stunde.

Server-Stabilität

3. September 2004.

Wer lange und oft genug Komponenten wechselt, findet irgendwann eine Kombination, die auch anhaltende Lastproben übersteht. Mein jetzt 3. Server innerhalb eines Monats hat ab 1.9. gut 24 Std Dauerbelastung überlebt, ohne sich in die Hosen zu machen.

So schnell werde ich nicht wieder einer Empfehlung folgen, auch wenn man auf dem Papier rund GB£200 spart. Wenn ich die vertane Zeit, die Nerven und die vorbereiteten Alternativ-Szenarios mitrechne, war das eine der teuersten Maschinen, die ich je gekauft habe.

Google-Hack

6. August 2004.

In einem so irreführenden wie schreierischen Artikel auf einer Site, die sich überwiegend mit Endverbraucher-Technologie befasst und zumindest ein Minimum an Verständnis der Zusammenhänge aufbringen sollte, wird u.a. behauptet:

  • Betrügern wird es im Web leicht gemacht
  • Die Suchmaschine Google liefert ... Kredikartendaten sowie Namen, Adressen und Telefonnummern der Inhaber.
  • Damit ist ein weiterer Fall von Google-Hacking ans Tageslicht gekommen.

Oder sind da wieder zwei Schreiberlinge aufgeflogen, die nach der Gleichung besorgniserregendes Gezeter + Google = Sensation produzieren, da ihnen offenbar nichts besseres einfällt?

Dass es in jedem einzigen Fall der angeblich über Google möglichen Sicherheitsverstösse stets an der Ignoranz, der fahrlässigen Leichtfertigkeit liegt, mit der binäre Information von Kravatten-Trägern mangels Sachverstand gehandhabt werden, dokumentiert Heise qualifiziert und sachlich an einem kürzlich in Deutschland aktuell gewordenen Fall.

http://www.heise.de/newsticker/meldung/49730

Innovations-Flaute

5. Juli 2004.

Kaum beginnt man einen Blog, hört die Welt auf, zu innovieren. Soll heissen, derzeit passiert nichts Wesentliches. Wenn man davon absieht, dass Google jetzt auch unsichtbare Seiten und auch Suchmaschinen spidert. Nicht nur das, sondern auch Proxies, weil man ja nie weiss, ob man das nicht mal gebrauchen kann.

Fast alles andere ist KramP[!]f. Da liesst man z.B. bei Slashdot, dass ein gewisser Gates, Erfinder der auf 99% aller PCs installierten Software für globale Fernsteuerung, behauptet, Open Source vernichtet Jobs. Gefolgt von einem Leser-Kommentar, dessen bewusste Komik wohl dieses Jahr nicht mehr übertroffen werden kann. Und dann erfährt man eine halbe Stunde später, dass der Hinweis, möglicherweise ob seiner unterstellten, nicht ganz stubenreinen Natur, entfernt wurde.

Jeremy Zawodny, Yahoo-Mitarbeiter, schreibt in seinem Blog, warum Database Abstraction Layers Unsinn sind. Als Beispiel nennt eine eine PHP-Klasse von Templates und Funktionen, die PHPs MySQL-Funktionen leichter verdaulich machen sollen. Er erkennt richtigerweise, dass PHP selbst eine Abstraktion ist, übersieht aber, dass SQL in die gleiche Kategorie fällt. Weshalb ich Berkeley DB [die von MySQL "unten drunter" eingesetzte Datenbank-Software] ohne Layers benutze, auch ohne die von Sleepy Cat gebotenen. Was dazu führt, dass dieser Server, ein mit 600 MHz dahintuckernder Celeron mit 128 Mb Ram und zwei IDE-Platten gemäss Alexa schneller ist, als 97% aller Web Server [Trotzdem wird er in den nächsten Wochen durch einen neueren Celeron ersetzt, weil nach fast 4 Jahren mit Ausfällen gerechnet werden darf].

Fakt

1. Juni 2004.

Yahoo innoviert weiter. Ein paar zusätzliche Suchmodi nennen jetzt die Zeit in anderen Zeitzonen, erlauben die Umrechnung diverser Masseinheiten und auch Wechselkurse für zahlreiche Währungen. Viele der erweiterten Such-Möglichkeiten gibt's nur bei Yahoo.COM: Yahoo erweiterte Suche.

Schloodrige Filter?

5. Mai 2004.

Verfechter gekünstelter Intelligenz und des "semantischen Webs" werden wieder um eine Illusion ärmer. Selbst Google schafft es nicht, algorithmisch zu bestimmen, was in den Rotlichtbezirk gehört [und was nicht dazu zählt], und welche AdWords unterdrückt werden sollten. Oder was ein Vertipper sein könnte und welche Alternativvorschläge in die Hose gehen. Dafür hat man andererseits Seiten einer Site im Datenbestand, die - bevor es gestopft wurde - ein Loch bei Orkut ausnutzte, um Daten der "vernetzten Klicke" zu ziehen.

Suchmaschinen Blog Archiv


© Copyright 1998 - 2008 Klaus Schallhorn.