3 #include "mb/pg_wchar.h"
 
   4 #include <utfasciitable.h>
 
  10 Datum transliteration( PG_FUNCTION_ARGS );
 
  11 Datum gettokenstring( PG_FUNCTION_ARGS );
 
  12 void str_replace(char* buffer, int* len, int* changes, char* from, int fromlen, char* to, int tolen, int);
 
  13 void str_dupspaces(char* buffer);
 
  15 PG_FUNCTION_INFO_V1( transliteration );
 
  17 transliteration( PG_FUNCTION_ARGS )
 
  19         static char * ascii = UTFASCII;
 
  20         static uint16 asciilookup[65536] = UTFASCIILOOKUP;
 
  24         unsigned char *sourcedata;
 
  27         unsigned int c1,c2,c3,c4;
 
  28         unsigned int * wchardata;
 
  29         unsigned int * wchardatastart;
 
  32         unsigned char *resultdata;
 
  36         if (GetDatabaseEncoding() != PG_UTF8) 
 
  39                                         (errcode(ERRCODE_FEATURE_NOT_SUPPORTED),
 
  40                                          errmsg("requires UTF8 database encoding")));
 
  48         // The original string
 
  49         source = PG_GETARG_TEXT_P(0);
 
  50         sourcedata = (unsigned char *)VARDATA(source);
 
  51         sourcedatalength = VARSIZE(source) - VARHDRSZ;
 
  53         // Intermediate wchar version of string
 
  54         wchardatastart = wchardata = (unsigned int *)palloc((sourcedatalength+1)*sizeof(int));
 
  56         // Based on pg_utf2wchar_with_len from wchar.c
 
  57         // Postgresql strings are not zero terminalted
 
  58         while (sourcedatalength > 0)
 
  60                 if ((*sourcedata & 0x80) == 0)
 
  62                         *wchardata = *sourcedata++;
 
  66                 else if ((*sourcedata & 0xe0) == 0xc0)
 
  68                         if (sourcedatalength < 2) break;
 
  69                         c1 = *sourcedata++ & 0x1f;
 
  70                         c2 = *sourcedata++ & 0x3f;
 
  71                         *wchardata = (c1 << 6) | c2;
 
  72                         if (*wchardata < 65536) wchardata++;
 
  73                         sourcedatalength -= 2;
 
  75                 else if ((*sourcedata & 0xf0) == 0xe0)
 
  77                         if (sourcedatalength < 3) break;
 
  78                         c1 = *sourcedata++ & 0x0f;
 
  79                         c2 = *sourcedata++ & 0x3f;
 
  80                         c3 = *sourcedata++ & 0x3f;
 
  81                         *wchardata = (c1 << 12) | (c2 << 6) | c3;
 
  82                         if (*wchardata < 65536) wchardata++;
 
  83                         sourcedatalength -= 3;
 
  85                 else if ((*sourcedata & 0xf8) == 0xf0)
 
  87                         if (sourcedatalength < 4) break;
 
  88                         c1 = *sourcedata++ & 0x07;
 
  89                         c2 = *sourcedata++ & 0x3f;
 
  90                         c3 = *sourcedata++ & 0x3f;
 
  91                         c4 = *sourcedata++ & 0x3f;
 
  92                         *wchardata = (c1 << 18) | (c2 << 12) | (c3 << 6) | c4;
 
  93                         if (*wchardata < 65536) wchardata++;
 
  94                         sourcedatalength -= 4;
 
  96                 else if ((*sourcedata & 0xfc) == 0xf8)
 
  98                         // table does not extend beyond 4 char long, just skip
 
  99                         if (sourcedatalength < 5) break;
 
 100                         sourcedatalength -= 5;
 
 103                 else if ((*sourcedata & 0xfe) == 0xfc)
 
 105                         // table does not extend beyond 4 char long, just skip
 
 106                         if (sourcedatalength < 6) break;
 
 107                         sourcedatalength -= 6;
 
 112                         // assume lenngth 1, silently drop bogus characters
 
 119         // calc the length of transliteration string
 
 120         resultdatalength = 0;
 
 121         wchardata = wchardatastart;
 
 124                 if (*(asciilookup + *wchardata) > 0) resultdatalength += *(ascii + *(asciilookup + *wchardata));
 
 128         // allocate & create the result
 
 129         result = (text *)palloc(resultdatalength + VARHDRSZ);
 
 130         SET_VARSIZE(result, resultdatalength + VARHDRSZ);
 
 131         resultdata = (unsigned char *)VARDATA(result);
 
 133         wchardata = wchardatastart;
 
 136                 if (*(asciilookup + *wchardata) > 0)
 
 138                         asciipos = ascii + *(asciilookup + *wchardata);
 
 139                         for(iLen = *asciipos; iLen > 0; iLen--)
 
 142                                 *resultdata = *asciipos;
 
 148                         ereport( WARNING, ( errcode( ERRCODE_SUCCESSFUL_COMPLETION ),
 
 149                               errmsg( "missing char: %i\n", *wchardata )));
 
 155         pfree(wchardatastart);
 
 157         PG_RETURN_TEXT_P(result);
 
 160 // Set isspace=1 if the replacement _only_ adds a space before the search string.  I.e. to == " " + from
 
 161 void str_replace(char* buffer, int* len, int* changes, char* from, int fromlen, char* to, int tolen, int isspace)
 
 165         // Search string is too long to be present
 
 166         if (fromlen > *len) return;
 
 168         p = strstr(buffer, from);
 
 171                 if (!isspace || (p > buffer && *(p-1) != ' '))
 
 174                         if (tolen != fromlen) memmove(p+tolen, p+fromlen, *len-(p-buffer)+1);
 
 175                         memcpy(p, to, tolen);
 
 176                         *len += tolen - fromlen;
 
 178                 p = strstr(p+1, from);
 
 182 void str_dupspaces(char* buffer)
 
 191                 if (wasspace && *buffer != ' ') wasspace = 0;
 
 196                         wasspace = (*buffer == ' ');
 
 203 PG_FUNCTION_INFO_V1( gettokenstring );
 
 205 gettokenstring( PG_FUNCTION_ARGS )
 
 208         unsigned char *sourcedata;
 
 209         int sourcedatalength;
 
 217         if (GetDatabaseEncoding() != PG_UTF8) 
 
 220                                         (errcode(ERRCODE_FEATURE_NOT_SUPPORTED),
 
 221                                          errmsg("requires UTF8 database encoding")));
 
 229         // The original string
 
 230         source = PG_GETARG_TEXT_P(0);
 
 231         sourcedata = (unsigned char *)VARDATA(source);
 
 232         sourcedatalength = VARSIZE(source) - VARHDRSZ;
 
 234         // Buffer for doing the replace in - string could get slightly longer (double is massive overkill)
 
 235         buffer = (char *)palloc((sourcedatalength*2)*sizeof(char));
 
 236         memcpy(buffer+1, sourcedata, sourcedatalength);
 
 238         buffer[sourcedatalength+1] = 32;
 
 239         buffer[sourcedatalength+2] = 0;
 
 240         len = sourcedatalength+3;
 
 243         str_dupspaces(buffer);
 
 247                 #include <tokenstringreplacements.inc>
 
 248                 str_dupspaces(buffer);
 
 251         // 'and' in various languages
 
 252         str_replace(buffer, &len, &changes, " and ", 5, " ", 1, 0);
 
 253         str_replace(buffer, &len, &changes, " und ", 5, " ", 1, 0);
 
 254         str_replace(buffer, &len, &changes, " en ", 4, " ", 1, 0);
 
 255         str_replace(buffer, &len, &changes, " et ", 4, " ", 1, 0);
 
 256         str_replace(buffer, &len, &changes, " y ", 3, " ", 1, 0);
 
 258         // 'the' (and similar)
 
 259         str_replace(buffer, &len, &changes, " the ", 5, " ", 1, 0);
 
 260         str_replace(buffer, &len, &changes, " der ", 5, " ", 1, 0);
 
 261         str_replace(buffer, &len, &changes, " den ", 5, " ", 1, 0);
 
 262         str_replace(buffer, &len, &changes, " die ", 5, " ", 1, 0);
 
 263         str_replace(buffer, &len, &changes, " das ", 5, " ", 1, 0);
 
 264         str_replace(buffer, &len, &changes, " la ", 4, " ", 1, 0);
 
 265         str_replace(buffer, &len, &changes, " le ", 4, " ", 1, 0);
 
 266         str_replace(buffer, &len, &changes, " el ", 4, " ", 1, 0);
 
 267         str_replace(buffer, &len, &changes, " il ", 4, " ", 1, 0);
 
 270         str_replace(buffer, &len, &changes, "ae", 2, "a", 1, 0);
 
 271         str_replace(buffer, &len, &changes, "oe", 2, "o", 1, 0);
 
 272         str_replace(buffer, &len, &changes, "ue", 2, "u", 1, 0);
 
 273         str_replace(buffer, &len, &changes, "sss", 3, "ss", 2, 0);
 
 274         str_replace(buffer, &len, &changes, "ih", 2, "i", 1, 0);
 
 275         str_replace(buffer, &len, &changes, "eh", 2, "e", 1, 0);
 
 278         str_replace(buffer, &len, &changes, "ie", 2, "i", 1, 0);
 
 279         str_replace(buffer, &len, &changes, "yi", 2, "i", 1, 0);
 
 281         // allocate & create the result
 
 282         len--;// Drop the terminating zero
 
 283         result = (text *)palloc(len + VARHDRSZ);
 
 284         SET_VARSIZE(result, len + VARHDRSZ);
 
 285         memcpy(VARDATA(result), buffer, len);
 
 289         PG_RETURN_TEXT_P(result);