shaktisd

#A Collection of NLP notes

##N-grams

###Calculating unigram probabilities:

P( w_i ) = count ( w_i ) ) / count ( total number of words )

In english..

	from itertools import product

	def score(self, other):
	first = len([speg for speg, opeg in zip(self, other) if speg == opeg])
	return first, sum([min(self.count(j), other.count(j)) for j in 'ABCDEF']) - first

	possible = [''.join(p) for p in product('ABCDEF', repeat=4)]
	results = [(right, wrong) for right in range(5) for wrong in range(5 - right) if not (right == 3 and wrong == 1)]

	def solve(scorefun):

	package uk.ac.ucl.cs.GI15.timNancyKawal {
	class Trie[V](key: Option[Char]) {

	def this() {
	this(None);
	}

	import scala.collection.Seq
	import scala.collection.immutable.TreeMap
	import scala.collection.immutable.WrappedString

	// set-up a connection between the client and the server
	var socket = io.connect();

	// let's assume that the client page, once rendered, knows what room it wants to join
	var room = "abc123";

	socket.on('connect', function() {
	// Connected, let's sign-up for to receive messages for this room
	socket.emit('room', room);
	});

	"""
	Minimal character-level Vanilla RNN model. Written by Andrej Karpathy (@karpathy)
	BSD License
	"""
	import numpy as np

	# data I/O
	data = open('input.txt', 'r').read() # should be simple plain text file
	chars = list(set(data))
	data_size, vocab_size = len(data), len(chars)

	'''This script goes along the blog post
	"Building powerful image classification models using very little data"
	from blog.keras.io.
	It uses data that can be downloaded at:
	https://www.kaggle.com/c/dogs-vs-cats/data
	In our setup, we:
	- created a data/ folder
	- created train/ and validation/ subfolders inside data/
	- created cats/ and dogs/ subfolders inside train/ and validation/
	- put the cat pictures index 0-999 in data/train/cats

	#Source code with the blog post at http://monik.in/a-noobs-guide-to-implementing-rnn-lstm-using-tensorflow/
	import numpy as np
	import random
	from random import shuffle
	import tensorflow as tf

	# from tensorflow.models.rnn import rnn_cell
	# from tensorflow.models.rnn import rnn

	NUM_EXAMPLES = 10000

	from __future__ import print_function

	import json
	import os
	import numpy as np

	from gensim.models import Word2Vec
	from gensim.utils import simple_preprocess
	from keras.engine import Input
	from keras.layers import Embedding, merge

	from __future__ import print_function

	import numpy as np
	from keras.callbacks import Callback
	from keras.layers import Dense
	from keras.layers import LSTM
	from keras.models import Sequential
	from numpy.random import choice

	from utils import prepare_sequences