added OCR device
[swftools.git] / lib / python / gfx.c
index 001ac21..1d28bc5 100644 (file)
@@ -25,6 +25,7 @@
 #undef HAVE_STAT
 #include "../devices/swf.h"
 #include "../devices/render.h"
+#include "../devices/ocr.h"
 #include "../devices/rescale.h"
 #include "../devices/text.h"
 #include "../pdf/pdf.h"
@@ -170,6 +171,27 @@ static PyObject* f_createSWF(PyObject* parent, PyObject* args, PyObject* kwargs)
     return (PyObject*)self;
 }
 
+PyDoc_STRVAR(f_createOCR_doc, \
+"OCR()\n\n"
+"Creates a device which processes documents using OCR (optical\n"
+"character recognition).\n"
+"This is handy for e.g. extracting fulltext from PDF documents\n"
+"which have broken fonts, and where hence the \"PlainText\"\n"
+"device doesn't work.\n"
+);
+static PyObject* f_createOCR(PyObject* parent, PyObject* args, PyObject* kwargs)
+{
+    static char *kwlist[] = {NULL};
+    if (args && !PyArg_ParseTupleAndKeywords(args, kwargs, "", kwlist))
+       return NULL;
+    OutputObject*self = PyObject_New(OutputObject, &OutputClass);
+    
+    self->output_device = malloc(sizeof(gfxdevice_t));
+    gfxdevice_ocr_init(self->output_device);
+    return (PyObject*)self;
+}
+
+
 PyDoc_STRVAR(f_createImageList_doc, \
 "ImageList()\n\n"
 "Creates a device which renders documents to bitmaps.\n"
@@ -683,16 +705,22 @@ static PyObject* doc_setparameter(PyObject* _self, PyObject* args, PyObject* kwa
 
 PyDoc_STRVAR(f_open_doc,
 "open(type, filename) -> object\n\n"
-"Open a PDF file. The type argument always has to be \"pdf\"\n"
-"It returns a doc object which can be used to process the pdf\n"
-"contents. E.g.\n"
+"Open a PDF, SWF or image file. The type argument should be \"pdf\",\n"
+"\"swf\" or \"image\" accordingly. It returns a doc object which can be\n"
+"used to process the file contents.\n"
+"E.g.\n"
 "    doc = open(\"pdf\", \"document.pdf\")\n"
-"If the file is not a PDF file or is encrypted without\n"
+"    doc = open(\"swf\", \"flashfile.swf\")\n"
+"    doc = open(\"image\", \"image.png\")\n"
+"If the file could not be loaded, or is a encrypted PDF file without\n"
 "a proper password specified, an exception is being raised.\n"
 "If the filename argument contains a '|' char, everything behind\n"
 "the '|' is treated as password used for opening the file.\n"
 "E.g.\n"
 "    doc = open(\"pdf\", \"document.pdf|mysecretpassword\")\n"
+".\n"
+"Notice that for image files, the only supported file formats right now\n"
+"are jpeg and png.\n"
 );
 static PyObject* f_open(PyObject* parent, PyObject* args, PyObject* kwargs)
 {
@@ -720,6 +748,8 @@ static PyObject* f_open(PyObject* parent, PyObject* args, PyObject* kwargs)
                    type = "image";
                if(strchr("pP", filename[l-3]) && strchr("nN", filename[l-2]) && strchr("gG", filename[l-1]))
                    type = "image";
+               if(strchr("sS", filename[l-3]) && strchr("wW", filename[l-2]) && strchr("fF", filename[l-1]))
+                   type = "swf";
            } else if(filename[l-5]=='.') {
                type = "image";
            }
@@ -728,9 +758,9 @@ static PyObject* f_open(PyObject* parent, PyObject* args, PyObject* kwargs)
    
     if(!strcmp(type,"pdf"))
        self->doc = pdfdriver->open(pdfdriver,filename);
-    else if(!strcmp(type, "image")) 
+    else if(!strcmp(type, "image") || !strcmp(type, "img"))  
        self->doc = imagedriver->open(imagedriver, filename);
-    else if(!strcmp(type, "swf")) 
+    else if(!strcmp(type, "swf") || !strcmp(type, "SWF"))
        self->doc = swfdriver->open(imagedriver, filename);
     else
        return PY_ERROR("Unknown type %s", type);
@@ -832,7 +862,8 @@ PyDoc_STRVAR(doc_doc,
 "A Doc object is used for storing a document (like a PDF).\n"
 "doc.pages contains the number of pages in the document,\n"
 "and doc.filename the name of the file the document was\n"
-"created (loaded) from\n"
+"created (loaded) from. If the document was created from\n"
+"an image file, the number of pages is always 1\n"
 );
 static PyTypeObject DocClass =
 {
@@ -934,12 +965,12 @@ static PyMethodDef pdf2swf_methods[] =
     {"open", (PyCFunction)f_open, METH_KEYWORDS, f_open_doc},
     {"addfont", (PyCFunction)f_addfont, METH_KEYWORDS, f_addfont_doc},
     {"addfontdir", (PyCFunction)f_addfontdir, METH_KEYWORDS, f_addfontdir_doc},
-    {"setoption", (PyCFunction)f_setparameter, METH_KEYWORDS, f_setparameter_doc}, // for backwards-compatibility
     {"setparameter", (PyCFunction)f_setparameter, METH_KEYWORDS, f_setparameter_doc},
     {"verbose", (PyCFunction)f_verbose, METH_KEYWORDS, f_verbose_doc},
 
     /* devices */
     {"SWF", (PyCFunction)f_createSWF, METH_KEYWORDS, f_createSWF_doc},
+    {"OCR", (PyCFunction)f_createOCR, METH_KEYWORDS, f_createOCR_doc},
     {"ImageList", (PyCFunction)f_createImageList, METH_KEYWORDS, f_createImageList_doc},
     {"PlainText", (PyCFunction)f_createPlainText, METH_KEYWORDS, f_createPlainText_doc},
     {"PassThrough", (PyCFunction)f_createPassThrough, METH_KEYWORDS, f_createPassThrough_doc},
@@ -955,7 +986,7 @@ PyDoc_STRVAR(gfx_doc, \
 "The latter functionality is similar to what is offered by swftools'\n" 
 "(http://www.swftools.org) pdf2swf utility, however more powerful-\n" 
 "You can also create individual SWF files from single pages of the PDF\n" 
-"or combine more than one page into a bigger PDF.\n"
+"or mix pages from different PDF files.\n"
 );
 
 void initgfx(void)