dburriss · July 25, 2018 03:21
diff --git a/Pdf.fsx b/Pdf.fsx
 #r "packages/PdfSharp/lib/net20/PdfSharp.dll"

 open PdfSharp.Pdf.IO
 open System.Text
 open PdfSharp.Pdf.Content.Objects
 open PdfSharp.Pdf.Content

 let rec extractText(content:CObject, sb:StringBuilder) =
   match content with
   | :? CArray as xs -> for x in xs do extractText(x, sb)
   | :? CComment -> ()
   | :? CInteger -> ()
   | :? CName -> ()
   | :? CNumber -> ()
   | :? COperator as op // Tj/TJ = Show text
      when op.OpCode.OpCodeName = OpCodeName.Tj ||
            op.OpCode.OpCodeName = OpCodeName.TJ ->
      for element in op.Operands do extractText(element, sb)
      sb.Append(" | ") |> ignore
   | :? COperator -> ()
   | :? CSequence as xs -> for x in xs do extractText(x, sb)
   | :? CString as s -> sb.Append(s.Value) |> ignore
   | x -> raise <| System.NotImplementedException(x.ToString())

 let readAllText password (pdfPath:string) =
   use document = PdfReader.Open(pdfPath, password, PdfDocumentOpenMode.ReadOnly)
   let result = StringBuilder()
   for page in document.Pages do
      let content = ContentReader.ReadContent(page)
      extractText(content, result)
      result.AppendLine() |> ignore
   result.ToString()
	#r "packages/PdfSharp/lib/net20/PdfSharp.dll"

	open PdfSharp.Pdf.IO
	open System.Text
	open PdfSharp.Pdf.Content.Objects
	open PdfSharp.Pdf.Content

	let rec extractText(content:CObject, sb:StringBuilder) =
	match content with
	\| :? CArray as xs -> for x in xs do extractText(x, sb)
	\| :? CComment -> ()
	\| :? CInteger -> ()
	\| :? CName -> ()
	\| :? CNumber -> ()
	\| :? COperator as op // Tj/TJ = Show text
	when op.OpCode.OpCodeName = OpCodeName.Tj \|\|
	op.OpCode.OpCodeName = OpCodeName.TJ ->
	for element in op.Operands do extractText(element, sb)
	sb.Append(" \| ") \|> ignore
	\| :? COperator -> ()
	\| :? CSequence as xs -> for x in xs do extractText(x, sb)
	\| :? CString as s -> sb.Append(s.Value) \|> ignore
	\| x -> raise <\| System.NotImplementedException(x.ToString())

	let readAllText password (pdfPath:string) =
	use document = PdfReader.Open(pdfPath, password, PdfDocumentOpenMode.ReadOnly)
	let result = StringBuilder()
	for page in document.Pages do
	let content = ContentReader.ReadContent(page)
	extractText(content, result)
	result.AppendLine() \|> ignore
	result.ToString()