chansen · June 9, 2013 22:58
diff --git a/unicode.pm b/unicode.pm
 package unicode;
 use strict;
 use warnings;
 use warnings::register;

 use Carp   qw[croak cluck];
 use Encode qw[];

 # from perl.h verified in 5.6.2, 5.8.9, 5.10.1 and blead (2010-02-27)
 sub HINT_BLOCK_SCOPE () { 0x00000100 }
 sub HINT_LOCALIZE_HH () { 0x00020000 }

 # PL_hints (U32)
 # Perl 5.6.2 and 5.8.9:
 #   HINT_UTF8       0x00800000
 # Perl 5.10.1 and blead (2010-02-27):
 #   HINT_NO_AMAGIC  0x01000000

 # hijack the remaining (hopefully unused) 7 bits for our purposes.
 # I rather not use the hint hash for performance reasons since we 
 # need fast traversal at runtime.
 sub HINT_UNICODE_MASK () { 0xFE000000 }

 our @CARP_NOT = ( __PACKAGE__ );

 my $DefaultEncoding = 0;    # default @Encoding index (0 is UTF-8)
 my @Encoding;               # Encode::Encoding.pm instances
 my %EncodingMap;            # name/alias to @Encoding index
 my $WarningsOffset  = $warnings::Offsets{unicode};

 BEGIN {
    push @Encoding, Encode::find_encoding('UTF-8');
    @EncodingMap{qw(UTF-8 utf-8 utf8)} = (0) x 3;
 }

 sub import {
    shift;

    warnings->import(FATAL => 'unicode')
      if $^H & HINT_BLOCK_SCOPE;

    if (@_) {
        my ($name) = @_;
        unless (exists $EncodingMap{$name}) {
            my $resolved = Encode::resolve_alias($name);
            (defined $resolved)
              || croak(qq/unicode: unknown encoding '$name'/);
            unless (exists $EncodingMap{$resolved}) {
                ($#Encoding < 0x7F)
                  || croak(q/unicode: reached maximum (0x7F) concurrent compile-time encodings/);
                push @Encoding, Encode::find_encoding($resolved);
                $EncodingMap{$resolved} = $#Encoding;
            }
            $EncodingMap{$name} = $EncodingMap{$resolved};
        }
        my $encoding = $EncodingMap{$name};
        $^H &= ~HINT_UNICODE_MASK;
        $^H |= $encoding << 25;
    }
    elsif ($^H & HINT_UNICODE_MASK) {
        my $encoding = ($^H & HINT_UNICODE_MASK) >> 25;
        unless (exists $Encoding[$encoding]) {
            cluck(sprintf q/unicode: hints (0x%.2X) set to an unknown encoding (0x%.2X)/, $^H, $encoding);
            $^H &= ~HINT_UNICODE_MASK;
        }
    }
 }

 sub unimport {
    $^H &= ~HINT_UNICODE_MASK;
 }

 my $get_encoding = sub {
    my ($name) = @_;
    my $encoding;
    if (exists $EncodingMap{$name}) {
        $encoding = $Encoding[$EncodingMap{$name}];
    }
    else {
        $encoding = Encode::find_encoding($name);
    }
    (defined $encoding)
      || croak(qq/unicode: unknown encoding '$name'/);
    return $encoding;
 };

 my $get_scope_encoding = sub {
    my $encoding = $DefaultEncoding;
    my $frame    = 1;
    while (my ($hints) = (caller($frame++))[8]) {
        if ($hints & HINT_UNICODE_MASK) {
            $encoding = ($hints & HINT_UNICODE_MASK) >> 25;
            last;
        }
    }
    (exists $Encoding[$encoding])
      || croak(qq/unicode: panic: no encoding at index '$encoding'/);
    return $Encoding[$encoding];
 };

 my $get_scope_encoding_check = sub {
    my $wbits = (caller(1))[9];
    my $check = Encode::LEAVE_SRC;
    if (vec($wbits, $WarningsOffset, 1)) { # unicode.pm warnings ?
        my $is_fatal = vec($wbits, $WarningsOffset + 1, 1);
        $check |= ($is_fatal ? Encode::DIE_ON_ERR : Encode::WARN_ON_ERR);
    }
    return $check;
 };

 sub decoded {
    @_ == 1 || croak(q/Usage: unicode::decoded(string)/);
    return (defined $_[0] && (&utf8::is_utf8 || $_[0] !~ /[^\x00-\x7F]/));
 }

 sub string {
    @_ == 1 || croak(q/Usage: unicode::string(string)/);
    return !!0 unless &decoded;
    # prevent runtime warning (exception on $] < 5.011):
    # $] >= 5.011: Unicode non-character 0x%x is illegal for interchange
    # $] <  5.011: Malformed UTF-8 character (fatal)
    no warnings 'utf8';
    return $_[0] !~ / [^\x{00}-\x{10FFFF}]          # perls UTF-X encoding supports 2**64
                    | \p{Surrogate}
                    | \p{Noncharacter_Code_Point}
                    /x;
 }

 *valid = \&string;

 sub encoding {
    @_ == 0 || croak(q/Usage: unicode::encoding()/);
    return &$get_scope_encoding->mime_name;
 }

 sub decode {
    @_ == 1 || @_ == 2 || croak(q/Usage: unicode::decode(octets [, encoding])/);
    my $encoding = @_ == 1 ? &$get_scope_encoding : $get_encoding->($_[1]);
    $encoding->decode($_[0], &$get_scope_encoding_check);
 }

 sub encode {
    @_ == 1 || @_ == 2 || croak(q/Usage: unicode::encode(string [, encoding])/);
    my $encoding = @_ == 1 ? &$get_scope_encoding : $get_encoding->($_[1]);
    $encoding->encode($_[0], &$get_scope_encoding_check);
 }

 1;
diff --git a/unicode.pod b/unicode.pod
	package unicode;
	use strict;
	use warnings;
	use warnings::register;

	use Carp qw[croak cluck];
	use Encode qw[];

	# from perl.h verified in 5.6.2, 5.8.9, 5.10.1 and blead (2010-02-27)
	sub HINT_BLOCK_SCOPE () { 0x00000100 }
	sub HINT_LOCALIZE_HH () { 0x00020000 }

	# PL_hints (U32)
	# Perl 5.6.2 and 5.8.9:
	# HINT_UTF8 0x00800000
	# Perl 5.10.1 and blead (2010-02-27):
	# HINT_NO_AMAGIC 0x01000000

	# hijack the remaining (hopefully unused) 7 bits for our purposes.
	# I rather not use the hint hash for performance reasons since we
	# need fast traversal at runtime.
	sub HINT_UNICODE_MASK () { 0xFE000000 }

	our @CARP_NOT = ( __PACKAGE__ );

	my $DefaultEncoding = 0; # default @Encoding index (0 is UTF-8)
	my @Encoding; # Encode::Encoding.pm instances
	my %EncodingMap; # name/alias to @Encoding index
	my $WarningsOffset = $warnings::Offsets{unicode};

	BEGIN {
	push @Encoding, Encode::find_encoding('UTF-8');
	@EncodingMap{qw(UTF-8 utf-8 utf8)} = (0) x 3;
	}

	sub import {
	shift;

	warnings->import(FATAL => 'unicode')
	if $^H & HINT_BLOCK_SCOPE;

	if (@_) {
	my ($name) = @_;
	unless (exists $EncodingMap{$name}) {
	my $resolved = Encode::resolve_alias($name);
	(defined $resolved)
	\|\| croak(qq/unicode: unknown encoding '$name'/);
	unless (exists $EncodingMap{$resolved}) {
	($#Encoding < 0x7F)
	\|\| croak(q/unicode: reached maximum (0x7F) concurrent compile-time encodings/);
	push @Encoding, Encode::find_encoding($resolved);
	$EncodingMap{$resolved} = $#Encoding;
	}
	$EncodingMap{$name} = $EncodingMap{$resolved};
	}
	my $encoding = $EncodingMap{$name};
	$^H &= ~HINT_UNICODE_MASK;
	$^H \|= $encoding << 25;
	}
	elsif ($^H & HINT_UNICODE_MASK) {
	my $encoding = ($^H & HINT_UNICODE_MASK) >> 25;
	unless (exists $Encoding[$encoding]) {
	cluck(sprintf q/unicode: hints (0x%.2X) set to an unknown encoding (0x%.2X)/, $^H, $encoding);
	$^H &= ~HINT_UNICODE_MASK;
	}
	}
	}

	sub unimport {
	$^H &= ~HINT_UNICODE_MASK;
	}

	my $get_encoding = sub {
	my ($name) = @_;
	my $encoding;
	if (exists $EncodingMap{$name}) {
	$encoding = $Encoding[$EncodingMap{$name}];
	}
	else {
	$encoding = Encode::find_encoding($name);
	}
	(defined $encoding)
	\|\| croak(qq/unicode: unknown encoding '$name'/);
	return $encoding;
	};

	my $get_scope_encoding = sub {
	my $encoding = $DefaultEncoding;
	my $frame = 1;
	while (my ($hints) = (caller($frame++))[8]) {
	if ($hints & HINT_UNICODE_MASK) {
	$encoding = ($hints & HINT_UNICODE_MASK) >> 25;
	last;
	}
	}
	(exists $Encoding[$encoding])
	\|\| croak(qq/unicode: panic: no encoding at index '$encoding'/);
	return $Encoding[$encoding];
	};

	my $get_scope_encoding_check = sub {
	my $wbits = (caller(1))[9];
	my $check = Encode::LEAVE_SRC;
	if (vec($wbits, $WarningsOffset, 1)) { # unicode.pm warnings ?
	my $is_fatal = vec($wbits, $WarningsOffset + 1, 1);
	$check \|= ($is_fatal ? Encode::DIE_ON_ERR : Encode::WARN_ON_ERR);
	}
	return $check;
	};

	sub decoded {
	@_ == 1 \|\| croak(q/Usage: unicode::decoded(string)/);
	return (defined $_[0] && (&utf8::is_utf8 \|\| $_[0] !~ /[^\x00-\x7F]/));
	}

	sub string {
	@_ == 1 \|\| croak(q/Usage: unicode::string(string)/);
	return !!0 unless &decoded;
	# prevent runtime warning (exception on $] < 5.011):
	# $] >= 5.011: Unicode non-character 0x%x is illegal for interchange
	# $] < 5.011: Malformed UTF-8 character (fatal)
	no warnings 'utf8';
	return $_[0] !~ / [^\x{00}-\x{10FFFF}] # perls UTF-X encoding supports 2**64
	\| \p{Surrogate}
	\| \p{Noncharacter_Code_Point}
	/x;
	}

	*valid = \&string;

	sub encoding {
	@_ == 0 \|\| croak(q/Usage: unicode::encoding()/);
	return &$get_scope_encoding->mime_name;
	}

	sub decode {
	@_ == 1 \|\| @_ == 2 \|\| croak(q/Usage: unicode::decode(octets [, encoding])/);
	my $encoding = @_ == 1 ? &$get_scope_encoding : $get_encoding->($_[1]);
	$encoding->decode($_[0], &$get_scope_encoding_check);
	}

	sub encode {
	@_ == 1 \|\| @_ == 2 \|\| croak(q/Usage: unicode::encode(string [, encoding])/);
	my $encoding = @_ == 1 ? &$get_scope_encoding : $get_encoding->($_[1]);
	$encoding->encode($_[0], &$get_scope_encoding_check);
	}

	1;