pschultz · February 26, 2013 17:46 · xeoncross · Feb 26, 2013
diff --git a/NgramTokenizer.php b/NgramTokenizer.php
 <?php

 class NgramTokenizer
 {
    public static function tokenize($word, $n)
    {
        if ($n === 1) {
            return str_split($word);
        }

        $grams = array();

        for ($i = 0; $i <= strlen($word) - $n; ++$i) {
            $grams[] = substr($word, $i, $n);
        }

        return $grams;
    }
 }
diff --git a/NgramTokenizerTest.php b/NgramTokenizerTest.php
 <?php

 class NgramTokenizerTest extends \PHPUnit_Framework_TestCase
 {
    public function testUnigram()
    {
        $tokens = NgramTokenizer::tokenize("abcd", 1);

        $this->assertEquals(range('a', 'd'), $tokens);
    }

    public function testBigram()
    {
        $tokens = NgramTokenizer::tokenize("abcd", 2);

        $this->assertEquals(array('ab', 'bc', 'cd'), $tokens);
    }

    public function testTrigram()
    {
        $tokens = NgramTokenizer::tokenize("abcdef", 3);

        $this->assertEquals(array('abc', 'bcd', 'cde', 'def'), $tokens);
    }
 }
	<?php

	class NgramTokenizer
	{
	public static function tokenize($word, $n)
	{
	if ($n === 1) {
	return str_split($word);
	}

	$grams = array();

	for ($i = 0; $i <= strlen($word) - $n; ++$i) {
	$grams[] = substr($word, $i, $n);
	}

	return $grams;
	}
	}
	<?php

	class NgramTokenizerTest extends \PHPUnit_Framework_TestCase
	{
	public function testUnigram()
	{
	$tokens = NgramTokenizer::tokenize("abcd", 1);

	$this->assertEquals(range('a', 'd'), $tokens);
	}

	public function testBigram()
	{
	$tokens = NgramTokenizer::tokenize("abcd", 2);

	$this->assertEquals(array('ab', 'bc', 'cd'), $tokens);
	}

	public function testTrigram()
	{
	$tokens = NgramTokenizer::tokenize("abcdef", 3);

	$this->assertEquals(array('abc', 'bcd', 'cde', 'def'), $tokens);
	}
	}