Skip to content

Instantly share code, notes, and snippets.

@Code-Hex
Last active May 12, 2016 06:56
Show Gist options
  • Select an option

  • Save Code-Hex/74e4cf2da6ad601a607e to your computer and use it in GitHub Desktop.

Select an option

Save Code-Hex/74e4cf2da6ad601a607e to your computer and use it in GitHub Desktop.
cabocha で書いた perl用の様々なメソッド
#!/usr/bin/perl
use strict;
use warnings;
use 5.010;
use utf8;
use Encode qw/encode_utf8 decode_utf8/;
use CaboCha;
use Data::Dumper;
my $cabocha = CaboCha::Parser->new;
#タイトル素材を書いたテキスト
my $file = 'title.txt';
my $title;
#タイトル素材を配列に読み込み
open(TXT, "< $file");
$title = <TXT>;
close(TXT);
my $parser = $cabocha->parse($title);
#say $parser->toString(1); # 1~3
my $chunk_size = $parser->chunk_size;
my $token_size = $parser->token_size;
say $chunk_size;
say $token_size;
for (my($i, $j) = (0,0); $i < $chunk_size; $i++) {
my $chunk = $parser->chunk($i);
for(my $t =0; $t < $chunk->swig_token_size_get; $j++, $t++){
my $token = $parser->token( $chunk->swig_token_pos_get + $t);
printf "%d %s\n",
$chunk->swig_token_pos_get + $t,
$token->swig_normalized_surface_get;}
}
=pod
27
64
0 食品
1 サンプル
2 は
3 、
4 飲食
5 店
6 の
7 店頭
8 あるいは
9 店内
10 に
11 陳列
12 さ
13 れる
14 料理
15 の
16 模型
17 。
18 可塑
19 性
20 の
21 ある
22 腐敗
23 し
24 ない
25 材料
26 を
27 主原
28 料
29 として
30 作ら
31 れ
32 、
33 商品
34 の
35 細部
36 を
37 視覚
38 的
39 に
40 説明
41 する
42 とともに
43 、
44 商品
45 名
46 や
47 価格
48 を
49 同時に
50 提示
51 する
52 こと
53 によって
54 メニュー
55 の
56 一部
57 または
58 全部
59 の
60 役割
61 を
62 果たす
63 。
=cut
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment