LinZap · January 25, 2017 04:04 · LinZap · Jan 24, 2017
diff --git a/tokenize.sql b/tokenize.sql
 -- 測試用字串
 declare @str nvarchar(500)=
 'Hello~Zap123提醒您!若(尚未)提交審查文件，務必	
 參考官方部落格的說明準備tel:09123456789^^
 ~thx!!你怎麼那麼厲害'


 declare @enPattern nvarchar(15) = '%[-a-Z0-9_'']%'
 declare @len int = len(@str)
 declare @delimiter table(c char(2))
 declare @segment table(s nvarchar(200))
 declare @Token table(words nvarchar(200))
 declare @i int = 1
 declare @gram int = 5

 insert into @delimiter values('　'),(' '),(CHAR(13)),(CHAR(10)),(CHAR(9)),
 ('	'),(','),('.'),('-'),('*'),('!'),(';'),('?'),('"'),('〝'),
 ('〞'),('“'),('”'),('‘'),('’'),('。'),('，'),('；'),('？'),('！'),
 ('、'),('：'),('」'),('「'),('『'),('』'),('《'),('》'),('〈'),('〉'),
 ('('),(')'),('（'),('）'),('［'),('］'),('〔'),('〕'),('﹝'),('﹞'),
 ('【'),('】'),('['),(']'),('{'),('}'),('…'),('﹏'),('～'),('—'),('╱'),
 ('／'),('/'),('%'),('％'),('^')

 declare @tmpStr nvarchar(100)=''
 declare @tmpChar nvarchar(2)

 -- 去除 delimiter 並將英數與其他 pattern 分開
 while(@i<=@len)
 begin
 	select @tmpChar=substring(@str,@i,1)
 	
 	-- 遇到特殊符號
 	if exists(select * from @delimiter where c=@tmpChar)
 	begin
 		if len(@tmpStr)>0
 		begin
 			insert into @segment values(@tmpStr)
 			set @tmpStr=''
 		end
 	end
 	-- 遇到英數
 	else if @tmpChar like @enPattern
 	begin
 		if @tmpStr like @enPattern
 			set @tmpStr = @tmpStr+@tmpChar
 		else if len(@tmpStr)<1
 			set @tmpStr = @tmpChar
 		else
 			begin
 				insert into @segment values(@tmpStr)
 				set @tmpStr=@tmpChar
 			end	
 	end	
 	-- 遇到其他(中日韓文等)
 	else
 	begin
 		if @tmpStr like @enPattern
 		begin
 			insert into @segment values(@tmpStr)
 			set @tmpStr= @tmpChar
 		end
 		else if len(@tmpStr)<1
 		begin
 			set @tmpStr = @tmpChar
 		end
 		else 
 			set @tmpStr = @tmpStr+@tmpChar	
 	end
 	set @i=@i+1
 end

 if len(@tmpStr)>0
 	insert into @segment values(@tmpStr)

 -- 切 Token (Tokenize) 5-Gram 示範

 declare @seg nvarchar(200)
 declare seg_cursor cursor for select s from @segment
 open seg_cursor fetch next from seg_cursor into @seg 

 WHILE @@FETCH_STATUS = 0  
 begin
 	set @gram = 5
 	set @len = len(@seg)

 	-- 英數跳過不斷
 	if @seg like @enPattern
 	begin
 		insert into @Token values(@seg)
 		fetch next from seg_cursor into @seg  
 		continue
 	end

 	-- 真正的 Tokenize
 	while(@gram>0)
 	begin
 		set @i = 1
 		while((@i+@gram-1)<=@len)
 		begin 
 			insert into @Token values(SUBSTRING(@seg,@i,@gram))
 			set @i=@i+1
 		end
 		set @gram = @gram-1
 	end
 	-- 下一個 segment
 	fetch next from seg_cursor into @seg  
 end


 -- 打完收工
 select * from @Token
	-- 測試用字串
	declare @str nvarchar(500)=
	'Hello~Zap123提醒您!若(尚未)提交審查文件，務必
	參考官方部落格的說明準備tel:09123456789^^
	~thx!!你怎麼那麼厲害'


	declare @enPattern nvarchar(15) = '%[-a-Z0-9_'']%'
	declare @len int = len(@str)
	declare @delimiter table(c char(2))
	declare @segment table(s nvarchar(200))
	declare @Token table(words nvarchar(200))
	declare @i int = 1
	declare @gram int = 5

	insert into @delimiter values('　'),(' '),(CHAR(13)),(CHAR(10)),(CHAR(9)),
	(' '),(','),('.'),('-'),('*'),('!'),(';'),('?'),('"'),('〝'),
	('〞'),('“'),('”'),('‘'),('’'),('。'),('，'),('；'),('？'),('！'),
	('、'),('：'),('」'),('「'),('『'),('』'),('《'),('》'),('〈'),('〉'),
	('('),(')'),('（'),('）'),('［'),('］'),('〔'),('〕'),('﹝'),('﹞'),
	('【'),('】'),('['),(']'),('{'),('}'),('…'),('﹏'),('～'),('—'),('╱'),
	('／'),('/'),('%'),('％'),('^')

	declare @tmpStr nvarchar(100)=''
	declare @tmpChar nvarchar(2)

	-- 去除 delimiter 並將英數與其他 pattern 分開
	while(@i<=@len)
	begin
	select @tmpChar=substring(@str,@i,1)

	-- 遇到特殊符號
	if exists(select * from @delimiter where c=@tmpChar)
	begin
	if len(@tmpStr)>0
	begin
	insert into @segment values(@tmpStr)
	set @tmpStr=''
	end
	end
	-- 遇到英數
	else if @tmpChar like @enPattern
	begin
	if @tmpStr like @enPattern
	set @tmpStr = @tmpStr+@tmpChar
	else if len(@tmpStr)<1
	set @tmpStr = @tmpChar
	else
	begin
	insert into @segment values(@tmpStr)
	set @tmpStr=@tmpChar
	end
	end
	-- 遇到其他(中日韓文等)
	else
	begin
	if @tmpStr like @enPattern
	begin
	insert into @segment values(@tmpStr)
	set @tmpStr= @tmpChar
	end
	else if len(@tmpStr)<1
	begin
	set @tmpStr = @tmpChar
	end
	else
	set @tmpStr = @tmpStr+@tmpChar
	end
	set @i=@i+1
	end

	if len(@tmpStr)>0
	insert into @segment values(@tmpStr)

	-- 切 Token (Tokenize) 5-Gram 示範

	declare @seg nvarchar(200)
	declare seg_cursor cursor for select s from @segment
	open seg_cursor fetch next from seg_cursor into @seg

	WHILE @@FETCH_STATUS = 0
	begin
	set @gram = 5
	set @len = len(@seg)

	-- 英數跳過不斷
	if @seg like @enPattern
	begin
	insert into @Token values(@seg)
	fetch next from seg_cursor into @seg
	continue
	end

	-- 真正的 Tokenize
	while(@gram>0)
	begin
	set @i = 1
	while((@i+@gram-1)<=@len)
	begin
	insert into @Token values(SUBSTRING(@seg,@i,@gram))
	set @i=@i+1
	end
	set @gram = @gram-1
	end
	-- 下一個 segment
	fetch next from seg_cursor into @seg
	end


	-- 打完收工
	select * from @Token