xeoncross · August 27, 2024 02:31 · joseantgv · Jan 10, 2017 · vsekan01 · Mar 7, 2017
diff --git a/domdocument_encoding.php b/domdocument_encoding.php
 <?php

 // Ignore errors
 libxml_use_internal_errors(true) AND libxml_clear_errors();

 // http://stackoverflow.com/q/10237238/99923
 // http://stackoverflow.com/q/12034235/99923
 // http://stackoverflow.com/q/8218230/99923

 // original input (unknown encoding)
 $html = 'hi</b><p>سلام<div>の家庭に、9 ☆';

 print $html . PHP_EOL;

 $doc = new DOMDocument();
 $doc->preserveWhiteSpace = false;
 $doc->loadHTML($html);
 print $doc->saveHTML($doc->documentElement) . PHP_EOL . PHP_EOL;

 $doc = new DOMDocument('1.0', 'UTF-8');
 $doc->loadHTML($html);
 $doc->encoding = 'utf-8';
 print $doc->saveHTML($doc->documentElement) . PHP_EOL . PHP_EOL;

 $doc = new DOMDocument();
 $doc->loadHTML('<?xml encoding="utf-8"?>' . $html);
 $doc->encoding = 'utf-8';
 print $doc->saveHTML($doc->documentElement) . PHP_EOL . PHP_EOL;

 $doc = new DOMDocument('1.0', 'UTF-8');
 $doc->loadHTML(mb_convert_encoding($html, 'HTML-ENTITIES', 'UTF-8'));
 print $doc->saveHTML($doc->documentElement) . PHP_EOL . PHP_EOL;


 // Benchmark


 print "Testing XML encoding spec" . PHP_EOL;
 $time = microtime(TRUE);
 for ($i=0; $i < 10000; $i++) { 
 	$doc = new DOMDocument();
 	$doc->loadHTML('<?xml encoding="utf-8"?>' . $html);

 	foreach ($doc->childNodes as $item)
    	if ($item->nodeType == XML_PI_NODE)
        	$doc->removeChild($item); // remove hack
    

 	$doc->encoding = 'utf-8';
 	$doc->saveHTML();
 	unset($doc);
 }
 print (microtime(TRUE) - $time) . " seconds" . PHP_EOL . PHP_EOL;

 print "Testing mb_convert_encoding" . PHP_EOL;
 $time = microtime(TRUE);
 for ($i=0; $i < 10000; $i++) { 
 	$doc = new DOMDocument();
 	$doc->loadHTML(mb_convert_encoding($html, 'HTML-ENTITIES', 'UTF-8'));
 	$doc->saveHTML();
 	unset($doc);
 }
 print (microtime(TRUE) - $time) . " seconds" . PHP_EOL . PHP_EOL;
diff --git a/output.txt b/output.txt
 hi</b><p>سلام<div>の家庭に、9 ☆
 <html><body>
 <p>hi</p>
 <p>Ø³ÙØ§Ù</p>
 <div>ã®å®¶åºã«ã9 â</div>
 </body></html>

 <html><body>
 <p>hi</p>
 <p>Ø³ÙØ§Ù</p>
 <div>ã®å®¶åºã«ã9 â</div>
 </body></html>

 <html><body>
 <p>hi</p>
 <p>سلام</p>
 <div>の家庭に、9 ☆</div>
 </body></html>

 <html><body>
 <p>hi</p>
 <p>سلام</p>
 <div>の家庭に、9 ☆</div>
 </body></html>


 Testing XML encoding spec
 0.45506000518799 seconds

 Testing mb_convert_encoding
 0.47111082077026 seconds
	<?php

	// Ignore errors
	libxml_use_internal_errors(true) AND libxml_clear_errors();

	// http://stackoverflow.com/q/10237238/99923
	// http://stackoverflow.com/q/12034235/99923
	// http://stackoverflow.com/q/8218230/99923

	// original input (unknown encoding)
	$html = 'hi</b><p>سلام<div>の家庭に、9 ☆';

	print $html . PHP_EOL;

	$doc = new DOMDocument();
	$doc->preserveWhiteSpace = false;
	$doc->loadHTML($html);
	print $doc->saveHTML($doc->documentElement) . PHP_EOL . PHP_EOL;

	$doc = new DOMDocument('1.0', 'UTF-8');
	$doc->loadHTML($html);
	$doc->encoding = 'utf-8';
	print $doc->saveHTML($doc->documentElement) . PHP_EOL . PHP_EOL;

	$doc = new DOMDocument();
	$doc->loadHTML('<?xml encoding="utf-8"?>' . $html);
	$doc->encoding = 'utf-8';
	print $doc->saveHTML($doc->documentElement) . PHP_EOL . PHP_EOL;

	$doc = new DOMDocument('1.0', 'UTF-8');
	$doc->loadHTML(mb_convert_encoding($html, 'HTML-ENTITIES', 'UTF-8'));
	print $doc->saveHTML($doc->documentElement) . PHP_EOL . PHP_EOL;


	// Benchmark


	print "Testing XML encoding spec" . PHP_EOL;
	$time = microtime(TRUE);
	for ($i=0; $i < 10000; $i++) {
	$doc = new DOMDocument();
	$doc->loadHTML('<?xml encoding="utf-8"?>' . $html);

	foreach ($doc->childNodes as $item)
	if ($item->nodeType == XML_PI_NODE)
	$doc->removeChild($item); // remove hack


	$doc->encoding = 'utf-8';
	$doc->saveHTML();
	unset($doc);
	}
	print (microtime(TRUE) - $time) . " seconds" . PHP_EOL . PHP_EOL;

	print "Testing mb_convert_encoding" . PHP_EOL;
	$time = microtime(TRUE);
	for ($i=0; $i < 10000; $i++) {
	$doc = new DOMDocument();
	$doc->loadHTML(mb_convert_encoding($html, 'HTML-ENTITIES', 'UTF-8'));
	$doc->saveHTML();
	unset($doc);
	}
	print (microtime(TRUE) - $time) . " seconds" . PHP_EOL . PHP_EOL;
	hi</b><p>سلام<div>の家庭に、9 ☆
	<html><body>
	<p>hi</p>
	<p>Ø³ÙØ§Ù</p>
	<div>ã®å®¶åºã«ã9 â</div>
	</body></html>

	<html><body>
	<p>hi</p>
	<p>Ø³ÙØ§Ù</p>
	<div>ã®å®¶åºã«ã9 â</div>
	</body></html>

	<html><body>
	<p>hi</p>
	<p>سلام</p>
	<div>の家庭に、9 ☆</div>
	</body></html>

	<html><body>
	<p>hi</p>
	<p>سلام</p>
	<div>の家庭に、9 ☆</div>
	</body></html>


	Testing XML encoding spec
	0.45506000518799 seconds

	Testing mb_convert_encoding
	0.47111082077026 seconds