Mailinglisten-Archive |
Hallo,
>>Gibt es Programme, mit denen ich aus einem Diskussionsforum bei domeus
die Inhalte extrahieren und statische HTML-Seiten generieren kann? Hat
jemand sowas schon gemacht? Mit Web-Copier hatte ich keinen Erfolg.
Wie wäre es wenn Du das wie folgt machst.
<?
$webpage =
fread(fopen("http://die.url.com/und.seite.die.du.willst.html", "r"),
100000); // Was will ich denn haben ?
$von= strpos($fd, "<center>"); // Von wo aus soll geklaut werden ? Wenn
die ganze Seite dann halt <HTML>
$bis= strpos($fd, "</body>"); // Bis wohin soll geklaut werden ? Bis
</HTML>
$lang = $bis - $von; // Errechne wieviel Bytes das sind!
$source=substr($webpage, $von, $lang); // Seite vom Start bis x Bytes in
$source schreiben
$source = str_replace("CLASS=\"HELP\"","CLASS=\"TAB\"",$source); // Hier
kannst Du Passagen der Seite mit eigenen ersetzen.
$source = str_replace("face","color=\"#FFFFFF\" face",$source); // Und
noch einmal...
echo $source; // Zeige die nette Seite!
?>
Wenn Du die Seite bei Dir speichern möchtest kannst Du den Inhalt von
$source ja in eine Datei schreiben und schon ist alles da.
Es sollte noch beachtet werden, dass in den obigen Beispiel </body>
nicht mit gezogen wird. Wenn Du also </body> auch ziehen möchtest dann
solltest Du bei $bis den nächsten HTML-Tag nach Body verwenden.
Die Geschwindigkeit mit der der Code abgearbeitet wird liegt mit der
Zeit zusammen die benötigt wird um die $webpage einzulesen. Die
Abarbeitung geht auf meinen PII300 128MB Server weit unter 1 Sek. von
statten.
Ich hoffe, dass dies Dein Problem beseitigt oder zumindest einen Ansatz
liefert.
Mit freundlichen Grüßen
Frank Liebelt
php::bar PHP Wiki - Listenarchive