new global variable as3_tokencount
[swftools.git] / lib / as3 / tokenizer.lex
index 4fe5197..bffdc93 100644 (file)
 #include "tokenizer.h"
 #include "files.h"
 
-static void countlines(char*text, int len) {
-    int t;
-    for(t=0;t<len;t++) {
-       if(text[t]=='\n') {
-           current_line++;
-           current_column=0;
-       } else {
-           current_column++;
-       }
-    }
-}
+int as3_pass = 0;
+int as3_verbosity = 1;
+unsigned int as3_tokencount = 0;
 
-static int verbose = 1;
-static void dbg(const char*format, ...)
+void as3_error(const char*format, ...)
 {
     char buf[1024];
     int l;
     va_list arglist;
-    if(!verbose)
-       return;
+    if(as3_verbosity<0)
+        exit(1);
     va_start(arglist, format);
     vsprintf(buf, format, arglist);
     va_end(arglist);
-    l = strlen(buf);
-    while(l && buf[l-1]=='\n') {
-       buf[l-1] = 0;
-       l--;
-    }
-    printf("(tokenizer) ");
-    printf("%s\n", buf);
-    fflush(stdout);
+    fprintf(stderr, "%s:%d:%d: error: %s\n", current_filename_short, current_line, current_column, buf);
+    fflush(stderr);
+    exit(1);
 }
-
-void syntaxerror(const char*format, ...)
+void as3_warning(const char*format, ...)
 {
     char buf[1024];
     int l;
     va_list arglist;
-    if(!verbose)
-       return;
+    if(as3_verbosity<1)
+        return;
     va_start(arglist, format);
     vsprintf(buf, format, arglist);
     va_end(arglist);
-    fprintf(stderr, "%s:%d:%d: error: %s\n", current_filename_short, current_line, current_column, buf);
+    fprintf(stderr, "%s:%d:%d: warning: %s\n", current_filename_short, current_line, current_column, buf);
     fflush(stderr);
-    exit(1);
 }
-void warning(const char*format, ...)
+void as3_softwarning(const char*format, ...)
 {
     char buf[1024];
     int l;
     va_list arglist;
-    if(!verbose)
+    if(as3_verbosity<2)
        return;
     va_start(arglist, format);
     vsprintf(buf, format, arglist);
@@ -91,6 +75,26 @@ void warning(const char*format, ...)
     fprintf(stderr, "%s:%d:%d: warning: %s\n", current_filename_short, current_line, current_column, buf);
     fflush(stderr);
 }
+static void dbg(const char*format, ...)
+{
+    char buf[1024];
+    int l;
+    va_list arglist;
+    if(as3_verbosity<3)
+       return;
+    va_start(arglist, format);
+    vsprintf(buf, format, arglist);
+    va_end(arglist);
+    l = strlen(buf);
+    while(l && buf[l-1]=='\n') {
+       buf[l-1] = 0;
+       l--;
+    }
+    printf("(tokenizer) ");
+    printf("%s\n", buf);
+    fflush(stdout);
+}
+
 
 
 #ifndef YY_CURRENT_BUFFER
@@ -129,16 +133,13 @@ void handleInclude(char*text, int len, char quotes)
     //BEGIN(INITIAL); keep context
 }
 
-string_t string_unescape(const char*in, int l)
+static int do_unescape(const char*s, const char*end, char*n) 
 {
-    int len=0;
-    const char*s = in;
-    const char*end = &in[l];
-    char*n = (char*)malloc(l);
     char*o = n;
+    int len=0;
     while(s<end) {
         if(*s!='\\') {
-            o[len++] = *s;
+            if(o) o[len] = *s;len++;
             s++;
             continue;
         }
@@ -158,13 +159,14 @@ string_t string_unescape(const char*in, int l)
             continue;
         }
         switch(*s) {
-           case '\\': o[len++] = '\\';s++; break;
-           case '"': o[len++] = '"';s++; break;
-           case 'b': o[len++] = '\b';s++; break;
-           case 'f': o[len++] = '\f';s++; break;
-           case 'n': o[len++] = '\n';s++; break;
-           case 'r': o[len++] = '\r';s++; break;
-           case 't': o[len++] = '\t';s++; break;
+           case '\\': if(o) o[len] = '\\';s++;len++; break;
+           case '"': if(o) o[len] = '"';s++;len++; break;
+           case '\'': if(o) o[len] = '\'';s++;len++; break;
+           case 'b': if(o) o[len] = '\b';s++;len++; break;
+           case 'f': if(o) o[len] = '\f';s++;len++; break;
+           case 'n': if(o) o[len] = '\n';s++;len++; break;
+           case 'r': if(o) o[len] = '\r';s++;len++; break;
+           case 't': if(o) o[len] = '\t';s++;len++; break;
             case '0': case '1': case '2': case '3': case '4': case '5': case '6': case '7': {
                 unsigned int num=0;
                 int nr = 0;
@@ -176,7 +178,7 @@ string_t string_unescape(const char*in, int l)
                 }
                 if(num>256) 
                     syntaxerror("octal number out of range (0-255): %d", num);
-                o[len++] = num;
+                if(o) o[len] = num;len++;
                 continue;
             }
            case 'x': case 'u': {
@@ -214,12 +216,12 @@ string_t string_unescape(const char*in, int l)
                 if(unicode) {
                     char*utf8 = getUTF8(num);
                     while(*utf8) {
-                        o[len++] = *utf8++;
+                        if(o) o[len] = *utf8;utf8++;len++;
                     }
                 } else {
                     if(num>256) 
                         syntaxerror("byte out of range (0-255): %d", num);
-                    o[len++] = num;
+                    if(o) o[len] = num;len++;
                 }
                break;
            }
@@ -227,13 +229,30 @@ string_t string_unescape(const char*in, int l)
                 syntaxerror("unknown escape sequence: \"\\%c\"", *s);
         }
     }
+    if(o) o[len]=0;
+    return len;
+}
+
+static string_t string_unescape(const char*in, int l)
+{
+    const char*s = in;
+    const char*end = &in[l];
+
+    int len = do_unescape(s, end, 0);
+    char*n = (char*)malloc(len+1);
+    do_unescape(s, end, n);
     string_t out = string_new(n, len);
-    o[len]=0;
     return out; 
 }
 
 static void handleString(char*s, int len)
 {
+    if(as3_pass < 2) {
+        // don't bother decoding strings in pass 1
+        memset(&a3_lval, 0, sizeof(a3_lval));
+        return;
+    }
+
     if(s[0]=='"') {
         if(s[len-1]!='"') syntaxerror("String doesn't end with '\"'");
         s++;len-=2;
@@ -245,7 +264,7 @@ static void handleString(char*s, int len)
     else syntaxerror("String incorrectly terminated");
 
     
-    avm2_lval.str = string_unescape(s, len);
+    a3_lval.str = string_unescape(s, len);
 }
 
 
@@ -256,13 +275,13 @@ static inline int mkid(int type)
     char*s = malloc(yyleng+1);
     memcpy(s, yytext, yyleng);
     s[yyleng]=0;
-    avm2_lval.id = s;
+    a3_lval.id = s;
     return type;
 }
 
 static inline int m(int type)
 {
-    avm2_lval.token = type;
+    a3_lval.token = type;
     return type;
 }
 
@@ -280,7 +299,7 @@ static char*nrbuf()
 
 static inline int setint(int v)
 {
-    avm2_lval.number_int = v;
+    a3_lval.number_int = v;
     if(v>-128)
         return T_BYTE;
     else if(v>=-32768)
@@ -290,7 +309,7 @@ static inline int setint(int v)
 }
 static inline int setuint(unsigned int v)
 {
-    avm2_lval.number_uint = v;
+    a3_lval.number_uint = v;
     if(v<128)
         return T_BYTE;
     else if(v<32768)
@@ -298,11 +317,16 @@ static inline int setuint(unsigned int v)
     else
         return T_UINT;
 }
+static inline int setfloat(double v)
+{
+    a3_lval.number_float = v;
+    return T_FLOAT;
+}
 
 static inline int handlefloat()
 {
     char*s = nrbuf();
-    avm2_lval.number_float = atof(s);
+    a3_lval.number_float = atof(s);
     return T_FLOAT;
 }
 
@@ -312,13 +336,17 @@ static inline int handleint()
     char l = (yytext[0]=='-');
 
     char*max = l?"1073741824":"2147483647";
-    if(yyleng-l>10)
-        syntaxerror("integer overflow");
+    if(yyleng-l>10) {
+        as3_warning("integer overflow: %s (converted to Number)", s);
+        return handlefloat();
+    }
     if(yyleng-l==10) {
         int t;
         for(t=0;t<yyleng-l;t++) {
-            if(yytext[l+t]>max[t])
-                syntaxerror("integer overflow %s > %s", s+l,max);
+            if(yytext[l+t]>max[t]) {
+                as3_warning("integer overflow: %s (converted to Number)", s);
+                return handlefloat();
+            }
             else if(yytext[l+t]<max[t])
                 break;
         }
@@ -337,27 +365,61 @@ static inline int handleint()
     }
 }
 
+static inline int handlehexfloat()
+{
+    char l = (yytext[0]=='-')+2;
+    double d=0;
+    char dot=0;
+    double base=1;
+    int t;
+    for(t=l;t<yyleng;t++) {
+        char c = yytext[t];
+        if(c=='.') {
+            dot=1;
+            continue;
+        }
+        if(!dot) {
+            d*=16;
+        } else {
+            base*=1/16.0;
+        }
+        if(c>='0' && c<='9')
+            d+=(c&15)*base;
+        else if((c>='a' && c<='f') || (c>='A' && c<='F'))
+            d+=((c&0x0f)+9)*base;
+    }
+    return setfloat(d);
+}
 static inline int handlehex()
 {
     char l = (yytext[0]=='-')+2;
+    int len = yyleng;
+
+    if(len-l>8) {
+        char*s = nrbuf();
+        syntaxerror("integer overflow %s", s);
+    }
 
-    if(yyleng-l>8)
-        syntaxerror("integer overflow");
     int t;
     unsigned int v = 0;
-    for(t=l;t<yyleng;t++) {
+    for(t=l;t<len;t++) {
         v<<=4;
         char c = yytext[t];
         if(c>='0' && c<='9')
             v|=(c&15);
-        else if(c>='a' && c<='f' ||
-                c>='A' && c<='F')
+        else if((c>='a' && c<='f') || (c>='A' && c<='F'))
             v|=(c&0x0f)+9;
     }
-    if(l && v>1073741824)
-        syntaxerror("signed integer overflow");
-    if(!l && v>2147483647)
-        syntaxerror("unsigned integer overflow");
+    if(l && v>1073741824) {
+        char*s = nrbuf();
+        as3_warning("signed integer overflow: %s (converted to Number)", s);
+        return setfloat(v);
+    }
+    if(!l && v>2147483647) {
+        char*s = nrbuf();
+        as3_warning("unsigned integer overflow: %s (converted to Number)", s);
+        return setfloat(v);
+    }
 
     if(l==3) {
         return setint(-(int)v);
@@ -366,27 +428,83 @@ static inline int handlehex()
     }
 }
 
+void handleLabel(char*text, int len)
+{
+    int t;
+    for(t=len-1;t>=0;--t) {
+        if(text[t]!=' ' &&
+           text[t]!=':')
+            break;
+    }
+    char*s = malloc(t+1);
+    memcpy(s, yytext, t);
+    s[t]=0;
+    a3_lval.id = s;
+}
+
+static int handleregexp()
+{
+    char*s = malloc(yyleng);
+    int len=yyleng-1;
+    memcpy(s, yytext+1, len);
+    s[len] = 0;
+    int t;
+    for(t=len;t>=0;--t) {
+        if(s[t]=='/') {
+            s[t] = 0;
+            break;
+        }
+    }
+    a3_lval.regexp.pattern = s;
+    if(t==len) {
+        a3_lval.regexp.options = 0;
+    } else {
+        a3_lval.regexp.options = s+t+1;
+    }
+    return T_REGEXP;
+}
+
 void initialize_scanner();
 #define YY_USER_INIT initialize_scanner();
 
-#define c() {countlines(yytext, yyleng);}
+/* count the number of lines+columns consumed by this token */
+static inline void l() {
+    int t;
+    for(t=0;t<yyleng;t++) {
+       if(yytext[t]=='\n') {
+           current_line++;
+           current_column=0;
+       } else {
+           current_column++;
+       }
+    }
+}
+/* count the number of columns consumed by this token */
+static inline void c() {
+    current_column+=yyleng;
+}
 
 //Boolean                      {c();return m(KW_BOOLEAN);}
 //int                          {c();return m(KW_INT);}
 //uint                         {c();return m(KW_UINT);}
 //Number                       {c();return m(KW_NUMBER);}
+
+
 %}
 
 %s REGEXPOK
 %s BEGINNING
 
 NAME    [a-zA-Z_][a-zA-Z0-9_\\]*
+_        [^a-zA-Z0-9_\\]
 
 HEXINT    0x[a-zA-Z0-9]+
+HEXFLOAT  0x[a-zA-Z0-9]*\.[a-zA-Z0-9]*
 INT       [0-9]+
 FLOAT     [0-9]+(\.[0-9]*)?|\.[0-9]+
 
 HEXWITHSIGN [+-]?({HEXINT})
+HEXFLOATWITHSIGN [+-]?({HEXFLOAT})
 INTWITHSIGN [+-]?({INT})
 FLOATWITHSIGN [+-]?({FLOAT})
 
@@ -398,31 +516,42 @@ REGEXP   [/]([^/\n]|\\[/])*[/][a-zA-Z]*
 %%
 
 
-{SINGLELINE_COMMENT}         {c(); /* single line comment */}
-{MULTILINE_COMMENT}          {c(); /* multi line comment */}
+{SINGLELINE_COMMENT}         {l(); /* single line comment */}
+{MULTILINE_COMMENT}          {l(); /* multi line comment */}
 [/][*]                       {syntaxerror("syntax error: unterminated comment", yytext);}
 
-^include{S}+{STRING}{S}*/\n    {c();handleInclude(yytext, yyleng, 1);}
-^include{S}+[^" \t\r\n][\x20-\xff]*{S}*/\n    {c();handleInclude(yytext, yyleng, 0);}
-{STRING}                     {c(); BEGIN(INITIAL);handleString(yytext, yyleng);return T_STRING;}
+^include{S}+{STRING}{S}*/\n    {l();handleInclude(yytext, yyleng, 1);}
+^include{S}+[^" \t\r\n][\x20-\xff]*{S}*/\n    {l();handleInclude(yytext, yyleng, 0);}
+{STRING}                     {l(); BEGIN(INITIAL);handleString(yytext, yyleng);return T_STRING;}
 
 <BEGINNING,REGEXPOK>{
-{REGEXP}                     {c(); BEGIN(INITIAL);return m(T_REGEXP);} 
+{REGEXP}                     {c(); BEGIN(INITIAL);return handleregexp();} 
 {HEXWITHSIGN}                {c(); BEGIN(INITIAL);return handlehex();}
+{HEXFLOATWITHSIGN}           {c(); BEGIN(INITIAL);return handlehexfloat();}
 {INTWITHSIGN}                {c(); BEGIN(INITIAL);return handleint();}
 {FLOATWITHSIGN}              {c(); BEGIN(INITIAL);return handlefloat();}
 }
 
 \xef\xbb\xbf                 {/* utf 8 bom */}
-{S}                          {c();}
+{S}                          {l();}
 
 {HEXINT}                     {c(); BEGIN(INITIAL);return handlehex();}
+{HEXFLOAT}                   {c(); BEGIN(INITIAL);return handlehexfloat();}
 {INT}                        {c(); BEGIN(INITIAL);return handleint();}
 {FLOAT}                      {c(); BEGIN(INITIAL);return handlefloat();}
 
 3rr0r                        {/* for debugging: generates a tokenizer-level error */
                               syntaxerror("3rr0r");}
 
+{NAME}{S}*:{S}*for/{_}        {l();handleLabel(yytext, yyleng-3);return T_FOR;}
+{NAME}{S}*:{S}*do/{_}         {l();handleLabel(yytext, yyleng-2);return T_DO;}
+{NAME}{S}*:{S}*while/{_}      {l();handleLabel(yytext, yyleng-5);return T_WHILE;}
+{NAME}{S}*:{S}*switch/{_}     {l();handleLabel(yytext, yyleng-6);return T_SWITCH;}
+for                          {c();a3_lval.id="";return T_FOR;}
+do                           {c();a3_lval.id="";return T_DO;}
+while                        {c();a3_lval.id="";return T_WHILE;}
+switch                       {c();a3_lval.id="";return T_SWITCH;}
+
 [&][&]                       {c();BEGIN(REGEXPOK);return m(T_ANDAND);}
 [|][|]                       {c();BEGIN(REGEXPOK);return m(T_OROR);}
 [!][=]                       {c();BEGIN(REGEXPOK);return m(T_NE);}
@@ -438,6 +567,7 @@ REGEXP   [/]([^/\n]|\\[/])*[/][a-zA-Z]*
 [/][=]                       {c();return m(T_DIVBY);}
 [%][=]                       {c();return m(T_MODBY);}
 [*][=]                       {c();return m(T_MULBY);}
+[|][=]                       {c();return m(T_ORBY);}
 [>][>][=]                    {c();return m(T_SHRBY);}
 [<][<][=]                    {c();return m(T_SHLBY);}
 [>][>][>][=]                 {c();return m(T_USHRBY);}
@@ -459,6 +589,8 @@ continue                     {c();return m(KW_CONTINUE);}
 override                     {c();return m(KW_OVERRIDE);}
 internal                     {c();return m(KW_INTERNAL);}
 function                     {c();return m(KW_FUNCTION);}
+finally                      {c();return m(KW_FINALLY);}
+default                      {c();return m(KW_DEFAULT);}
 package                      {c();return m(KW_PACKAGE);}
 private                      {c();return m(KW_PRIVATE);}
 dynamic                      {c();return m(KW_DYNAMIC);}
@@ -470,33 +602,38 @@ native                       {c();return m(KW_NATIVE);}
 static                       {c();return m(KW_STATIC);}
 import                       {c();return m(KW_IMPORT);}
 typeof                       {c();return m(KW_TYPEOF);}
-while                        {c();return m(KW_WHILE);}
+throw                        {c();return m(KW_THROW);}
 class                        {c();return m(KW_CLASS);}
 const                        {c();return m(KW_CONST);}
+catch                        {c();return m(KW_CATCH);}
 final                        {c();return m(KW_FINAL);}
 false                        {c();return m(KW_FALSE);}
 break                        {c();return m(KW_BREAK);}
 super                        {c();return m(KW_SUPER);}
+each                         {c();return m(KW_EACH);}
 void                         {c();return m(KW_VOID);}
 true                         {c();return m(KW_TRUE);}
 null                         {c();return m(KW_NULL);}
 else                         {c();return m(KW_ELSE);}
+case                         {c();return m(KW_CASE);}
+with                         {c();return m(KW_WITH);}
 use                          {c();return m(KW_USE);}
 new                          {c();return m(KW_NEW);}
 get                          {c();return m(KW_GET);}
-for                          {c();return m(KW_FOR);}
 set                          {c();return m(KW_SET);}
 var                          {c();return m(KW_VAR);}
+try                          {c();return m(KW_TRY);}
 is                           {c();return m(KW_IS) ;}
+in                           {c();return m(KW_IN) ;}
 if                           {c();return m(KW_IF) ;}
 as                           {c();return m(KW_AS);}
-do                           {c();return m(KW_DO);}
 {NAME}                       {c();BEGIN(INITIAL);return mkid(T_IDENTIFIER);}
 
 [+-\/*^~@$!%&\(=\[\]\{\}|?:;,<>] {c();BEGIN(REGEXPOK);return m(yytext[0]);}
-[\)\]]                            {c();BEGIN(INITIAL);return m(yytext[0]);}
+[\)\]]                           {c();BEGIN(INITIAL);return m(yytext[0]);}
 
-.                           {char c1=yytext[0];
+.                           {/* ERROR */
+                              char c1=yytext[0];
                               char buf[128];
                               buf[0] = yytext[0];
                               int t;
@@ -515,7 +652,7 @@ do                           {c();return m(KW_DO);}
                              exit(1);
                              yyterminate();
                             }
-<<EOF>>                             {c();
+<<EOF>>                             {l();
                               void*b = leave_file();
                              if (!b) {
                                 yyterminate();
@@ -577,7 +714,6 @@ char*token2string(enum yytokentype nr, YYSTYPE v)
     else if(nr==KW_INT)        return "int";
     else if(nr==KW_NEW)        return "new";
     else if(nr==KW_GET)        return "get";
-    else if(nr==KW_FOR)        return "for";
     else if(nr==KW_SET)        return "set";
     else if(nr==KW_VAR)        return "var";
     else if(nr==KW_IS)         return "is";