ライブドアブログのダンプデータからワードを抽出するためのページ
JavaScript
とか Node.js
とか Web Components
とか C#
とか .NET
とか...
主にプログラミング言語やライブラリやツールや機能などの名前を取り出すのが目的
HTML データから不要なタグを除外した上で改行を維持して文字列として取得したいのでブラウザを使う
半角スペースや記号を名前に含むものがあるのでほとんどの記号を含む半角文字列を正規表現で取り出して除外パターンと一致しないのを残す