Support backslash in string.
[mes.git] / reader.c
1 /* -*-comment-start: "//";comment-end:""-*-
2  * Mes --- Maxwell Equations of Software
3  * Copyright © 2016 Jan Nieuwenhuizen <janneke@gnu.org>
4  *
5  * This file is part of Mes.
6  *
7  * Mes is free software; you can redistribute it and/or modify it
8  * under the terms of the GNU General Public License as published by
9  * the Free Software Foundation; either version 3 of the License, or (at
10  * your option) any later version.
11  *
12  * Mes is distributed in the hope that it will be useful, but
13  * WITHOUT ANY WARRANTY; without even the implied warranty of
14  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
15  * GNU General Public License for more details.
16  *
17  * You should have received a copy of the GNU General Public License
18  * along with Mes.  If not, see <http://www.gnu.org/licenses/>.
19  */
20
21 SCM
22 peek_char ()
23 {
24   return make_char (peekchar ());
25 }
26
27 SCM
28 read_char ()
29 {
30   return make_char (getchar ());
31 }
32
33 SCM
34 unread_char (SCM c)
35 {
36   return ungetchar (VALUE (c));
37 }
38
39 int
40 read_block_comment (int s, int c)
41 {
42   if (c == s && peekchar () == '#') return getchar ();
43   return read_block_comment (s, getchar ());
44 }
45
46 int
47 read_line_comment (int c)
48 {
49   if (c == '\n') return c;
50   return read_line_comment (getchar ());
51 }
52
53
54 SCM lookup_char (int c, SCM a);
55
56 SCM
57 read_word (int c, SCM w, SCM a)
58 {
59   if (c == EOF && w == cell_nil) return cell_nil;
60   if (c == '\t') return read_word ('\n', w, a);
61   if (c == '\f') return read_word ('\n', w, a);
62   if (c == '\n' && w == cell_nil) return read_word (getchar (), w, a);
63   if (c == '\n' && VALUE (car (w)) == '.' && cdr (w) == cell_nil) return cell_dot;
64   if (c == EOF || c == '\n') return lookup (w, a);
65   if (c == ' ') return read_word ('\n', w, a);
66   if (c == '(' && w == cell_nil) return read_list (a);
67   if (c == '(') {ungetchar (c); return lookup (w, a);}
68   if (c == ')' && w == cell_nil) {ungetchar (c); return cell_nil;}
69   if (c == ')') {ungetchar (c); return lookup (w, a);}
70   if (c == ';') {read_line_comment (c); return read_word ('\n', w, a);}
71 #if READER
72   if (c == '"' && w == cell_nil) return read_string ();
73   if (c == '"') {ungetchar (c); return lookup (w, a);}
74   if (c == ',' && peekchar () == '@') {getchar (); return cons (lookup (STRING (cell_symbol_unquote_splicing), a),
75                                                                    cons (read_word (getchar (), w, a),
76                                                                          cell_nil));}
77   if ((c == '\''
78        || c == '`'
79        || c == ',')
80       && w == cell_nil) {return cons (lookup_char (c, a),
81                                      cons (read_word (getchar (), w, a),
82                                            cell_nil));}
83   if (c == '#' && peekchar () == ',' && w == cell_nil) {
84     getchar ();
85     if (peekchar () == '@'){getchar (); return cons (lookup (STRING (cell_symbol_unsyntax_splicing), a),
86                                                      cons (read_word (getchar (), w, a),
87                                                            cell_nil));}
88     return cons (lookup (STRING (cell_symbol_unsyntax), a), cons (read_word (getchar (), w, a), cell_nil));
89   }
90   if (c == '#' && (peekchar () == '\'' || peekchar () == '`') && w == cell_nil) {
91     c = getchar ();
92     return cons (lookup (cons (make_char ('#'), cons (make_char (c), cell_nil)), a),
93                  cons (read_word (getchar (), w, a), cell_nil));}
94   if (c == '#' && peekchar () == 'x') {getchar (); return read_hex ();}
95   if (c == '#' && peekchar () == '\\') {getchar (); return read_character ();}
96   if (c == '#' && w == cell_nil && peekchar () == '(') {getchar (); return list_to_vector (read_list (a));}
97   if (c == '#' && peekchar () == ';') {getchar (); read_word (getchar (), w, a); return read_word (getchar (), w, a);}
98   if (c == '#' && (peekchar () == '!' || peekchar () == '|')) {c = getchar (); read_block_comment (c, getchar ()); return read_word (getchar (), w, a);}
99 #endif //READER
100   return read_word (getchar (), append2 (w, cons (make_char (c), cell_nil)), a);
101 }
102
103 SCM
104 read_character ()
105 {
106   int c = getchar ();
107   if (c >= '0' && c <= '7'
108       && peekchar () >= '0' && peekchar () <= '7') {
109     c = c - '0';
110     while (peekchar () >= '0' && peekchar () <= '7') {
111       c <<= 3;
112       c += getchar () - '0';
113     }
114   }
115   else if (c >= 'a' && c <= 'z'
116       && peekchar () >= 'a' && peekchar () <= 'z') {
117     char buf[10];
118     char *p = buf;
119     *p++ = c;
120     while (peekchar () >= 'a' && peekchar () <= 'z') {
121       *p++ = getchar ();
122     }
123     *p = 0;
124     if (!strcmp (buf, char_nul.name)) c = char_nul.value;
125     else if (!strcmp (buf, char_alarm.name)) c = char_alarm.value;
126     else if (!strcmp (buf, char_backspace.name)) c = char_backspace.value;
127     else if (!strcmp (buf, char_tab.name)) c = char_tab.value;
128     else if (!strcmp (buf, char_newline.name)) c = char_newline.value;
129     else if (!strcmp (buf, char_vtab.name)) c = char_vtab.value;
130     else if (!strcmp (buf, char_page.name)) c = char_page.value;
131     else if (!strcmp (buf, char_return.name)) c = char_return.value;
132     else if (!strcmp (buf, char_space.name)) c = char_space.value;
133     else {
134       fprintf (stderr, "char not supported: %s\n", buf);
135       assert (!"char not supported");
136     }
137   }
138   return make_char (c);
139 }
140
141 SCM
142 read_hex ()
143 {
144   int n = 0;
145   int c = peekchar ();
146   while ((c >= '0' && c <= '9')
147          || (c >= 'A' && c <= 'F')
148          || (c >= 'a' && c <= 'f')) {
149     n <<= 4;
150     if (c >= 'a') n += c - 'a' + 10;
151     else if (c >= 'A') n += c - 'A' + 10;
152     else n+= c - '0';
153     getchar ();
154     c = peekchar ();
155   }
156   return make_number (n);
157 }
158
159 SCM
160 append_char (SCM x, int i)
161 {
162   return append2 (x, cons (make_char (i), cell_nil));
163 }
164
165 SCM
166 read_string ()
167 {
168   SCM p = cell_nil;
169   int c = getchar ();
170   while (true) {
171     if (c == '"') break;
172     if (c == '\\' && peekchar () == '\\') p = append_char (p, getchar ());
173     else if (c == '\\' && peekchar () == '"') p = append_char (p, getchar ());
174     else if (c == '\\' && peekchar () == 'n') {getchar (); p = append_char (p, '\n');}
175     else if (c == EOF) assert (!"EOF in string");
176     else p = append_char (p, c);
177     c = getchar ();
178   }
179   return make_string (p);
180 }
181
182 int
183 eat_whitespace (int c)
184 {
185   while (c == ' ' || c == '\t' || c == '\n' || c == '\f') c = getchar ();
186   if (c == ';') return eat_whitespace (read_line_comment (c));
187 #if READER
188   if (c == '#' && (peekchar () == '!' || peek_char () == '|')) {c=getchar (); read_block_comment (c, getchar ()); return eat_whitespace (getchar ());}
189 #endif
190   return c;
191 }
192
193 SCM
194 read_list (SCM a)
195 {
196   int c = getchar ();
197   c = eat_whitespace (c);
198   if (c == ')') return cell_nil;
199   SCM w = read_word (c, cell_nil, a);
200   if (w == cell_dot)
201     return car (read_list (a));
202   return cons (w, read_list (a));
203 }
204
205 SCM
206 read_env (SCM a)
207 {
208   return read_word (getchar (), cell_nil, a);
209 }
210
211 SCM
212 lookup (SCM s, SCM a)
213 {
214   if (isdigit (VALUE (car (s))) || (VALUE (car (s)) == '-' && cdr (s) != cell_nil)) {
215     SCM p = s;
216     int sign = 1;
217     if (VALUE (car (s)) == '-') {
218       sign = -1;
219       p = cdr (s);
220     }
221     int n = 0;
222     while (p != cell_nil && isdigit (VALUE (car (p)))) {
223       n *= 10;
224       n += VALUE (car (p)) - '0';
225       p = cdr (p);
226     }
227     if (p == cell_nil) return make_number (n * sign);
228   }
229
230   if (VALUE (car (s)) == '#' && VALUE (cadr (s)) == ':') return make_keyword (cddr (s));
231
232   SCM x = internal_lookup_symbol (s);
233   if (x) return x;
234
235   if (cdr (s) == cell_nil) {
236     if (VALUE (car (s)) == '\'') return cell_symbol_quote;
237     if (VALUE (car (s)) == '`') return cell_symbol_quasiquote;
238     if (VALUE (car (s)) == ',') return cell_symbol_unquote;
239   }
240   else if (cddr (s) == cell_nil) {
241     if (VALUE (car (s)) == ',' && VALUE (cadr (s)) == '@') return cell_symbol_unquote_splicing;
242     if (VALUE (car (s)) == '#' && VALUE (cadr (s)) == '\'') return cell_symbol_syntax;
243     if (VALUE (car (s)) == '#' && VALUE (cadr (s)) == '`') return cell_symbol_quasisyntax;
244     if (VALUE (car (s)) == '#' && VALUE (cadr (s)) == ',') return cell_symbol_unsyntax;
245   }
246   else if (cdddr (s) == cell_nil) {
247     if (VALUE (car (s)) == '#' && VALUE (cadr (s)) == ',' && VALUE (caddr (s)) == '@') return cell_symbol_unsyntax_splicing;
248         if (VALUE (car (s)) == 'E' && VALUE (cadr (s)) == 'O' && VALUE (caddr (s)) == 'F') {
249       fprintf (stderr, "mes: got EOF\n");
250       return cell_nil; // `EOF': eval program, which may read stdin
251     }
252   }
253
254   return internal_make_symbol (s);
255 }
256
257 SCM
258 lookup_char (int c, SCM a)
259 {
260   return lookup (cons (make_char (c), cell_nil), a);
261 }
262
263 SCM
264 list_of_char_equal_p (SCM a, SCM b)
265 {
266   while (a != cell_nil && b != cell_nil && VALUE (car (a)) == VALUE (car (b))) {
267     assert (TYPE (car (a)) == CHAR);
268     assert (TYPE (car (b)) == CHAR);
269     a = cdr (a);
270     b = cdr (b);
271   }
272   return (a == cell_nil && b == cell_nil) ? cell_t : cell_f;
273 }
274
275 SCM
276 internal_lookup_symbol (SCM s)
277 {
278   SCM x = g_symbols;
279   while (x) {
280     // .string and .name is the same field; .name is used as a handy
281     // static field initializer.  A string can only be mistaken for a
282     // cell with type == PAIR for the one character long, zero-padded
283     // #\etx.
284     SCM p = STRING (car (x));
285     if (p < 0 || p >= g_free.value || TYPE (p) != PAIR)
286       STRING (car (x)) = cstring_to_list (NAME (car (x)));
287     if (list_of_char_equal_p (STRING (car (x)), s) == cell_t) break;
288     x = cdr (x);
289   }
290   if (x) x = car (x);
291   return x;
292 }