A hacky in-process script for merging translations from Translatewiki
[rails.git] / script / locale / merge-from-translatewiki
1 #!/usr/bin/env perl
2 use feature ':5.10';
3 use strict;
4 use warnings;
5 use File::Slurp qw(slurp);
6 use YAML::Syck qw(Dump Load LoadFile DumpFile);
7 BEGIN {
8     $YAML::Syck::Headless = 1;
9     $YAML::Syck::SortKeys = 1;
10 }
11 use WWW::Mechanize;
12 use HTML::TableParser::Grid;
13 use Pod::Usage ();
14 use Getopt::Long ();
15 use Data::Dump 'dump';
16 use File::Spec::Functions qw(catfile);
17 use Storable;
18 use autodie;
19
20 =head1 NAME
21
22 merge-from-translatewiki - Get new translations from L<http://translatewiki.net> and selectively merge them with ours
23
24 =head1 SYNOPSIS
25
26     merge-from-translatewiki --locales-dir=config/locales
27
28     # Diff the existing files:
29     config/locales$ for i in $(ls *yml | grep -v en.yml); do perl ../../script/locale/diff --dump-flat $i > $i.0 ;done
30
31     # Merge and find out what changed:
32     rails_port$ for i in $(svn st config/locales/ | egrep '^M|\\?' | awk '{print $2}' | grep 'yml$'); do rm -v $i; done && svn up config/locales && perl script/locale/merge-from-translatewiki --locales-dir config/locales && svn st config/locales
33  
34     # Diff:
35     config/locales$ for i in $(ls *yml | grep -v en.yml); do perl ../../script/locale/diff --dump-flat $i > $i.1 ;done && for i in $(ls *yml | grep -v en.yml); do diff -ru $i.*; done
36
37 =head1 DESCRIPTION
38
39 Translatewiki's export process L<is
40 broken|http://trac.openstreetmap.org/ticket/2305>. This script imports
41 new messages from it while tiptoeing around known bugs.
42
43 =head1 OPTIONS
44
45 =over
46
47 =item -h, --help
48
49 Print this help message.
50
51 =item --locales-dir
52
53 The locales dir we'll merge stuff into. E.g. C<config/locales>.
54
55 =back
56
57 =head1 AUTHOR
58
59 E<AElig>var ArnfjE<ouml>rE<eth> Bjarmason <avarab@gmail.com>
60
61 =cut
62
63 # Get the command-line options
64 Getopt::Long::Parser->new(
65     config => [ qw< bundling no_ignore_case no_require_order pass_through > ],
66 )->getoptions(
67     'h|help' => \my $help,
68     'locales-dir=s' => \my $locales_dir,
69 ) or help();
70
71 # On --help
72 help() if $help;
73
74 help() unless $locales_dir;
75
76 ###
77 ### Main
78 ###
79
80 ### Get Translatewiki data
81 my %translatewiki_languages = translatewiki_languages();
82
83 # Don't process English from Translatewiki
84 delete $translatewiki_languages{en};
85
86 #say Dump \%translatewiki_languages;
87
88 my @translatewiki_languages_codes = keys %translatewiki_languages;
89 my %translatewiki_translations = get_translatewiki_translations(@translatewiki_languages_codes);
90
91 #say Dump \%translatewiki_translations;
92
93 ### Get our existing data
94 my %my_translations;
95 my @my_yaml_files = glob catfile($locales_dir, '*.yml');
96 for my $my_yaml_file (@my_yaml_files) {
97     my $basename = basename($my_yaml_file);
98     my $tw_lang = lc $basename;
99
100     say STDERR "Loading my translation $tw_lang ($my_yaml_file)";
101     $my_translations{$tw_lang} = load_and_flatten_yaml(scalar slurp($my_yaml_file));
102 }
103
104 say "loaded my translations";
105
106 ## Write out merged data
107 for my $translatewiki_lang (@translatewiki_languages_codes) {
108     my $rails_lang = $translatewiki_lang; $rails_lang =~ s/(?<=-)(\w+)/\U$1\E/;
109     my $out_file = catfile($locales_dir, $rails_lang . '.yml');
110
111     unless (-f $out_file) {
112         # No translation like this exists
113         say STDERR "$rails_lang has no existing translation. Importing as-is from Translatewiki to $out_file";
114         my $expanded = expand_hash($translatewiki_translations{$translatewiki_lang});
115         my $out = +{ $rails_lang => $expanded };
116         spit_out($out_file, $out);
117     } elsif (ref $my_translations{$translatewiki_lang} eq 'HASH') {
118         say STDERR "$rails_lang has existing translations. Merging";
119
120         # Get the data
121         my %tw = %{ $translatewiki_translations{$translatewiki_lang} };
122         my %me = %{ $my_translations{$translatewiki_lang} };
123         # Use %tw to start with
124         my %new = %tw;
125
126         ### Merge stuff
127
128         # These keys shouldn't be removed
129         my @url_keys = qw(
130                              layouts.help_wiki_url
131                              layouts.shop_url
132                              notifier.gpx_notification.failure.import_failures_url
133                              notifier.signup_confirm_plain.the_wiki_url
134                              notifier.signup_confirm_plain.wiki_signup_url
135                              trace.edit.visibility_help_url
136                              trace.trace_form.help_url
137                              trace.trace_form.visibility_help_url
138                      );
139
140         for my $key (@url_keys) {
141             if ( exists $me{$key} and not exists $new{$key} ) {
142                 $new{$key} = $me{$key};
143             }
144         }
145
146         my $expanded = expand_hash( \%new );
147         my $out = +{ $rails_lang => $expanded };
148         spit_out($out_file, $out);
149     } else {
150         die "Internal error on $translatewiki_lang";
151     }
152 }
153
154 sub spit_out
155 {
156     my ($file, $data) = @_;
157     my $yaml_out = Dump $data;
158     
159     open my $fh, ">", $file;
160     say $fh "# Imported at " . (scalar localtime) . " from Translatewiki.net";
161     print $fh $yaml_out;
162     close $fh;
163 }
164
165 #
166 # YAML stuff
167 #
168
169 sub mark_utf8
170 {
171     my ($hash) = @_;
172
173     # Mark as UTF-8
174     map { if (ref $_ eq 'ARRAY') { map { utf8::decode($_) } @$_ } else {  utf8::decode($_) } } values %$hash;
175 }
176
177 sub iterate
178 {
179     my ($hash, @path) = @_;
180     my @ret;
181         
182     while (my ($k, $v) = each %$hash)
183     {
184         if (ref $v eq 'HASH')
185         {
186              push @ret => iterate($v, @path, $k);
187         }
188         else
189         {
190             push @ret => join(".",@path, $k), $v;
191         }
192     }
193
194     return @ret;
195 }
196
197 sub expand_hash
198 {
199     my ($flat_hash) = @_;
200     my %new_hash;
201     while (my ($k, $v) = each %$flat_hash) {
202         insert_string_deep(\%new_hash, $k, $v);
203     }
204
205     \%new_hash;
206 }
207
208 sub insert_string_deep {
209     my ($h, $ks, $v) = @_;
210     my $p = \$h; $p = \$$p->{$_} for split /\./, $ks;
211     $$p = $v;
212 }
213
214 #
215 # Get language from Translatewiki
216 #
217
218 sub get_translatewiki_translations
219 {
220     my @languages = @_;
221
222     my $cache_file = "/tmp/merge-from-translatewiki.storable";
223     if (-f $cache_file) {
224         my $cache = retrieve($cache_file);
225         return %$cache;
226     }
227
228     my %translatewiki_languages;
229     say "All languages are: @languages";
230     for my $lang (@languages) {
231         say STDERR "Getting language $lang from Translatewiki";
232         my $yaml = get_language_from_translatewiki($lang);
233
234         my $flat_data = load_and_flatten_yaml($yaml);
235
236         $translatewiki_languages{$lang} = $flat_data;
237     }
238
239     store \%translatewiki_languages, $cache_file;
240
241     return %translatewiki_languages;
242 }
243
244 sub get_language_from_translatewiki
245 {
246     my ($lang) = @_;
247     my $mech = WWW::Mechanize->new;
248
249     $mech->get("http://translatewiki.net/w/i.php?title=Special%3ATranslate&task=export-to-file&group=out-osm&language=$lang");
250
251     die "Couldn't get lang $lang lang from Translatewiki" unless $mech->success;
252
253     return $mech->content;
254 }
255
256 #
257 # from language list
258 #
259
260 sub translatewiki_languages
261 {
262     my $mech = WWW::Mechanize->new;
263
264     $mech->get('http://translatewiki.net/wiki/Translating:OpenStreetMap/stats/trunk');
265
266     die "Couldn't get translatewiki table" unless $mech->success;
267
268     my $content = $mech->content;
269     my ($sortable) = $content =~ m[(<table class="sortable.*</table>)]s;
270
271     my @table = parse_language_table($sortable);
272
273     # Just get the codes
274     map { $_->{code} => $_->{language} } @table;
275 }
276
277 sub parse_language_table
278 {
279     my ($table) = @_;
280
281     my $parser = HTML::TableParser::Grid->new($table);
282     my @rows;
283     for my $n (0 .. $parser->num_rows - 1) {
284         my %row;
285         @row{qw(code language done fuzzy)} = $parser->row($n);
286         mark_utf8(\%row);
287
288         push @rows => \%row;
289     }
290
291     @rows;
292 }
293
294 #
295 # Misc
296 #
297
298 sub basename
299 {
300     my $name = shift;
301     $name =~ s[\..*?$][];
302     $name =~ s[.*/][];
303     $name;
304 }
305
306 sub load_and_flatten_yaml
307 {
308     my ($yaml) = @_;
309
310     my $data = Load($yaml);
311
312     # Remove the root $lang => key
313     my @keys = keys %$data;
314     die "YAML data had more than 1 root key" if @keys != 1;
315     $data = $data->{$keys[0]};
316
317     # Flatten it
318     my $flat_data = { iterate($data) };
319
320     mark_utf8($flat_data);
321
322     $flat_data;
323 }
324
325 #
326 # Help
327 #
328
329 sub help
330 {
331     my %arg = @_;
332
333     Pod::Usage::pod2usage(
334         -verbose => $arg{ verbose },
335         -exitval => $arg{ exitval } || 0,
336     );
337 }