GNU Linux-libre 5.15.137-gnu
[releases.git] / fs / xfs / xfs_log.c
1 // SPDX-License-Identifier: GPL-2.0
2 /*
3  * Copyright (c) 2000-2005 Silicon Graphics, Inc.
4  * All Rights Reserved.
5  */
6 #include "xfs.h"
7 #include "xfs_fs.h"
8 #include "xfs_shared.h"
9 #include "xfs_format.h"
10 #include "xfs_log_format.h"
11 #include "xfs_trans_resv.h"
12 #include "xfs_mount.h"
13 #include "xfs_errortag.h"
14 #include "xfs_error.h"
15 #include "xfs_trans.h"
16 #include "xfs_trans_priv.h"
17 #include "xfs_log.h"
18 #include "xfs_log_priv.h"
19 #include "xfs_trace.h"
20 #include "xfs_sysfs.h"
21 #include "xfs_sb.h"
22 #include "xfs_health.h"
23
24 kmem_zone_t     *xfs_log_ticket_zone;
25
26 /* Local miscellaneous function prototypes */
27 STATIC struct xlog *
28 xlog_alloc_log(
29         struct xfs_mount        *mp,
30         struct xfs_buftarg      *log_target,
31         xfs_daddr_t             blk_offset,
32         int                     num_bblks);
33 STATIC int
34 xlog_space_left(
35         struct xlog             *log,
36         atomic64_t              *head);
37 STATIC void
38 xlog_dealloc_log(
39         struct xlog             *log);
40
41 /* local state machine functions */
42 STATIC void xlog_state_done_syncing(
43         struct xlog_in_core     *iclog);
44 STATIC void xlog_state_do_callback(
45         struct xlog             *log);
46 STATIC int
47 xlog_state_get_iclog_space(
48         struct xlog             *log,
49         int                     len,
50         struct xlog_in_core     **iclog,
51         struct xlog_ticket      *ticket,
52         int                     *continued_write,
53         int                     *logoffsetp);
54 STATIC void
55 xlog_grant_push_ail(
56         struct xlog             *log,
57         int                     need_bytes);
58 STATIC void
59 xlog_sync(
60         struct xlog             *log,
61         struct xlog_in_core     *iclog);
62 #if defined(DEBUG)
63 STATIC void
64 xlog_verify_dest_ptr(
65         struct xlog             *log,
66         void                    *ptr);
67 STATIC void
68 xlog_verify_grant_tail(
69         struct xlog *log);
70 STATIC void
71 xlog_verify_iclog(
72         struct xlog             *log,
73         struct xlog_in_core     *iclog,
74         int                     count);
75 STATIC void
76 xlog_verify_tail_lsn(
77         struct xlog             *log,
78         struct xlog_in_core     *iclog);
79 #else
80 #define xlog_verify_dest_ptr(a,b)
81 #define xlog_verify_grant_tail(a)
82 #define xlog_verify_iclog(a,b,c)
83 #define xlog_verify_tail_lsn(a,b)
84 #endif
85
86 STATIC int
87 xlog_iclogs_empty(
88         struct xlog             *log);
89
90 static int
91 xfs_log_cover(struct xfs_mount *);
92
93 static void
94 xlog_grant_sub_space(
95         struct xlog             *log,
96         atomic64_t              *head,
97         int                     bytes)
98 {
99         int64_t head_val = atomic64_read(head);
100         int64_t new, old;
101
102         do {
103                 int     cycle, space;
104
105                 xlog_crack_grant_head_val(head_val, &cycle, &space);
106
107                 space -= bytes;
108                 if (space < 0) {
109                         space += log->l_logsize;
110                         cycle--;
111                 }
112
113                 old = head_val;
114                 new = xlog_assign_grant_head_val(cycle, space);
115                 head_val = atomic64_cmpxchg(head, old, new);
116         } while (head_val != old);
117 }
118
119 static void
120 xlog_grant_add_space(
121         struct xlog             *log,
122         atomic64_t              *head,
123         int                     bytes)
124 {
125         int64_t head_val = atomic64_read(head);
126         int64_t new, old;
127
128         do {
129                 int             tmp;
130                 int             cycle, space;
131
132                 xlog_crack_grant_head_val(head_val, &cycle, &space);
133
134                 tmp = log->l_logsize - space;
135                 if (tmp > bytes)
136                         space += bytes;
137                 else {
138                         space = bytes - tmp;
139                         cycle++;
140                 }
141
142                 old = head_val;
143                 new = xlog_assign_grant_head_val(cycle, space);
144                 head_val = atomic64_cmpxchg(head, old, new);
145         } while (head_val != old);
146 }
147
148 STATIC void
149 xlog_grant_head_init(
150         struct xlog_grant_head  *head)
151 {
152         xlog_assign_grant_head(&head->grant, 1, 0);
153         INIT_LIST_HEAD(&head->waiters);
154         spin_lock_init(&head->lock);
155 }
156
157 STATIC void
158 xlog_grant_head_wake_all(
159         struct xlog_grant_head  *head)
160 {
161         struct xlog_ticket      *tic;
162
163         spin_lock(&head->lock);
164         list_for_each_entry(tic, &head->waiters, t_queue)
165                 wake_up_process(tic->t_task);
166         spin_unlock(&head->lock);
167 }
168
169 static inline int
170 xlog_ticket_reservation(
171         struct xlog             *log,
172         struct xlog_grant_head  *head,
173         struct xlog_ticket      *tic)
174 {
175         if (head == &log->l_write_head) {
176                 ASSERT(tic->t_flags & XLOG_TIC_PERM_RESERV);
177                 return tic->t_unit_res;
178         } else {
179                 if (tic->t_flags & XLOG_TIC_PERM_RESERV)
180                         return tic->t_unit_res * tic->t_cnt;
181                 else
182                         return tic->t_unit_res;
183         }
184 }
185
186 STATIC bool
187 xlog_grant_head_wake(
188         struct xlog             *log,
189         struct xlog_grant_head  *head,
190         int                     *free_bytes)
191 {
192         struct xlog_ticket      *tic;
193         int                     need_bytes;
194         bool                    woken_task = false;
195
196         list_for_each_entry(tic, &head->waiters, t_queue) {
197
198                 /*
199                  * There is a chance that the size of the CIL checkpoints in
200                  * progress at the last AIL push target calculation resulted in
201                  * limiting the target to the log head (l_last_sync_lsn) at the
202                  * time. This may not reflect where the log head is now as the
203                  * CIL checkpoints may have completed.
204                  *
205                  * Hence when we are woken here, it may be that the head of the
206                  * log that has moved rather than the tail. As the tail didn't
207                  * move, there still won't be space available for the
208                  * reservation we require.  However, if the AIL has already
209                  * pushed to the target defined by the old log head location, we
210                  * will hang here waiting for something else to update the AIL
211                  * push target.
212                  *
213                  * Therefore, if there isn't space to wake the first waiter on
214                  * the grant head, we need to push the AIL again to ensure the
215                  * target reflects both the current log tail and log head
216                  * position before we wait for the tail to move again.
217                  */
218
219                 need_bytes = xlog_ticket_reservation(log, head, tic);
220                 if (*free_bytes < need_bytes) {
221                         if (!woken_task)
222                                 xlog_grant_push_ail(log, need_bytes);
223                         return false;
224                 }
225
226                 *free_bytes -= need_bytes;
227                 trace_xfs_log_grant_wake_up(log, tic);
228                 wake_up_process(tic->t_task);
229                 woken_task = true;
230         }
231
232         return true;
233 }
234
235 STATIC int
236 xlog_grant_head_wait(
237         struct xlog             *log,
238         struct xlog_grant_head  *head,
239         struct xlog_ticket      *tic,
240         int                     need_bytes) __releases(&head->lock)
241                                             __acquires(&head->lock)
242 {
243         list_add_tail(&tic->t_queue, &head->waiters);
244
245         do {
246                 if (xlog_is_shutdown(log))
247                         goto shutdown;
248                 xlog_grant_push_ail(log, need_bytes);
249
250                 __set_current_state(TASK_UNINTERRUPTIBLE);
251                 spin_unlock(&head->lock);
252
253                 XFS_STATS_INC(log->l_mp, xs_sleep_logspace);
254
255                 trace_xfs_log_grant_sleep(log, tic);
256                 schedule();
257                 trace_xfs_log_grant_wake(log, tic);
258
259                 spin_lock(&head->lock);
260                 if (xlog_is_shutdown(log))
261                         goto shutdown;
262         } while (xlog_space_left(log, &head->grant) < need_bytes);
263
264         list_del_init(&tic->t_queue);
265         return 0;
266 shutdown:
267         list_del_init(&tic->t_queue);
268         return -EIO;
269 }
270
271 /*
272  * Atomically get the log space required for a log ticket.
273  *
274  * Once a ticket gets put onto head->waiters, it will only return after the
275  * needed reservation is satisfied.
276  *
277  * This function is structured so that it has a lock free fast path. This is
278  * necessary because every new transaction reservation will come through this
279  * path. Hence any lock will be globally hot if we take it unconditionally on
280  * every pass.
281  *
282  * As tickets are only ever moved on and off head->waiters under head->lock, we
283  * only need to take that lock if we are going to add the ticket to the queue
284  * and sleep. We can avoid taking the lock if the ticket was never added to
285  * head->waiters because the t_queue list head will be empty and we hold the
286  * only reference to it so it can safely be checked unlocked.
287  */
288 STATIC int
289 xlog_grant_head_check(
290         struct xlog             *log,
291         struct xlog_grant_head  *head,
292         struct xlog_ticket      *tic,
293         int                     *need_bytes)
294 {
295         int                     free_bytes;
296         int                     error = 0;
297
298         ASSERT(!xlog_in_recovery(log));
299
300         /*
301          * If there are other waiters on the queue then give them a chance at
302          * logspace before us.  Wake up the first waiters, if we do not wake
303          * up all the waiters then go to sleep waiting for more free space,
304          * otherwise try to get some space for this transaction.
305          */
306         *need_bytes = xlog_ticket_reservation(log, head, tic);
307         free_bytes = xlog_space_left(log, &head->grant);
308         if (!list_empty_careful(&head->waiters)) {
309                 spin_lock(&head->lock);
310                 if (!xlog_grant_head_wake(log, head, &free_bytes) ||
311                     free_bytes < *need_bytes) {
312                         error = xlog_grant_head_wait(log, head, tic,
313                                                      *need_bytes);
314                 }
315                 spin_unlock(&head->lock);
316         } else if (free_bytes < *need_bytes) {
317                 spin_lock(&head->lock);
318                 error = xlog_grant_head_wait(log, head, tic, *need_bytes);
319                 spin_unlock(&head->lock);
320         }
321
322         return error;
323 }
324
325 static void
326 xlog_tic_reset_res(xlog_ticket_t *tic)
327 {
328         tic->t_res_num = 0;
329         tic->t_res_arr_sum = 0;
330         tic->t_res_num_ophdrs = 0;
331 }
332
333 static void
334 xlog_tic_add_region(xlog_ticket_t *tic, uint len, uint type)
335 {
336         if (tic->t_res_num == XLOG_TIC_LEN_MAX) {
337                 /* add to overflow and start again */
338                 tic->t_res_o_flow += tic->t_res_arr_sum;
339                 tic->t_res_num = 0;
340                 tic->t_res_arr_sum = 0;
341         }
342
343         tic->t_res_arr[tic->t_res_num].r_len = len;
344         tic->t_res_arr[tic->t_res_num].r_type = type;
345         tic->t_res_arr_sum += len;
346         tic->t_res_num++;
347 }
348
349 bool
350 xfs_log_writable(
351         struct xfs_mount        *mp)
352 {
353         /*
354          * Do not write to the log on norecovery mounts, if the data or log
355          * devices are read-only, or if the filesystem is shutdown. Read-only
356          * mounts allow internal writes for log recovery and unmount purposes,
357          * so don't restrict that case.
358          */
359         if (xfs_has_norecovery(mp))
360                 return false;
361         if (xfs_readonly_buftarg(mp->m_ddev_targp))
362                 return false;
363         if (xfs_readonly_buftarg(mp->m_log->l_targ))
364                 return false;
365         if (xlog_is_shutdown(mp->m_log))
366                 return false;
367         return true;
368 }
369
370 /*
371  * Replenish the byte reservation required by moving the grant write head.
372  */
373 int
374 xfs_log_regrant(
375         struct xfs_mount        *mp,
376         struct xlog_ticket      *tic)
377 {
378         struct xlog             *log = mp->m_log;
379         int                     need_bytes;
380         int                     error = 0;
381
382         if (xlog_is_shutdown(log))
383                 return -EIO;
384
385         XFS_STATS_INC(mp, xs_try_logspace);
386
387         /*
388          * This is a new transaction on the ticket, so we need to change the
389          * transaction ID so that the next transaction has a different TID in
390          * the log. Just add one to the existing tid so that we can see chains
391          * of rolling transactions in the log easily.
392          */
393         tic->t_tid++;
394
395         xlog_grant_push_ail(log, tic->t_unit_res);
396
397         tic->t_curr_res = tic->t_unit_res;
398         xlog_tic_reset_res(tic);
399
400         if (tic->t_cnt > 0)
401                 return 0;
402
403         trace_xfs_log_regrant(log, tic);
404
405         error = xlog_grant_head_check(log, &log->l_write_head, tic,
406                                       &need_bytes);
407         if (error)
408                 goto out_error;
409
410         xlog_grant_add_space(log, &log->l_write_head.grant, need_bytes);
411         trace_xfs_log_regrant_exit(log, tic);
412         xlog_verify_grant_tail(log);
413         return 0;
414
415 out_error:
416         /*
417          * If we are failing, make sure the ticket doesn't have any current
418          * reservations.  We don't want to add this back when the ticket/
419          * transaction gets cancelled.
420          */
421         tic->t_curr_res = 0;
422         tic->t_cnt = 0; /* ungrant will give back unit_res * t_cnt. */
423         return error;
424 }
425
426 /*
427  * Reserve log space and return a ticket corresponding to the reservation.
428  *
429  * Each reservation is going to reserve extra space for a log record header.
430  * When writes happen to the on-disk log, we don't subtract the length of the
431  * log record header from any reservation.  By wasting space in each
432  * reservation, we prevent over allocation problems.
433  */
434 int
435 xfs_log_reserve(
436         struct xfs_mount        *mp,
437         int                     unit_bytes,
438         int                     cnt,
439         struct xlog_ticket      **ticp,
440         uint8_t                 client,
441         bool                    permanent)
442 {
443         struct xlog             *log = mp->m_log;
444         struct xlog_ticket      *tic;
445         int                     need_bytes;
446         int                     error = 0;
447
448         ASSERT(client == XFS_TRANSACTION || client == XFS_LOG);
449
450         if (xlog_is_shutdown(log))
451                 return -EIO;
452
453         XFS_STATS_INC(mp, xs_try_logspace);
454
455         ASSERT(*ticp == NULL);
456         tic = xlog_ticket_alloc(log, unit_bytes, cnt, client, permanent);
457         *ticp = tic;
458
459         xlog_grant_push_ail(log, tic->t_cnt ? tic->t_unit_res * tic->t_cnt
460                                             : tic->t_unit_res);
461
462         trace_xfs_log_reserve(log, tic);
463
464         error = xlog_grant_head_check(log, &log->l_reserve_head, tic,
465                                       &need_bytes);
466         if (error)
467                 goto out_error;
468
469         xlog_grant_add_space(log, &log->l_reserve_head.grant, need_bytes);
470         xlog_grant_add_space(log, &log->l_write_head.grant, need_bytes);
471         trace_xfs_log_reserve_exit(log, tic);
472         xlog_verify_grant_tail(log);
473         return 0;
474
475 out_error:
476         /*
477          * If we are failing, make sure the ticket doesn't have any current
478          * reservations.  We don't want to add this back when the ticket/
479          * transaction gets cancelled.
480          */
481         tic->t_curr_res = 0;
482         tic->t_cnt = 0; /* ungrant will give back unit_res * t_cnt. */
483         return error;
484 }
485
486 /*
487  * Run all the pending iclog callbacks and wake log force waiters and iclog
488  * space waiters so they can process the newly set shutdown state. We really
489  * don't care what order we process callbacks here because the log is shut down
490  * and so state cannot change on disk anymore. However, we cannot wake waiters
491  * until the callbacks have been processed because we may be in unmount and
492  * we must ensure that all AIL operations the callbacks perform have completed
493  * before we tear down the AIL.
494  *
495  * We avoid processing actively referenced iclogs so that we don't run callbacks
496  * while the iclog owner might still be preparing the iclog for IO submssion.
497  * These will be caught by xlog_state_iclog_release() and call this function
498  * again to process any callbacks that may have been added to that iclog.
499  */
500 static void
501 xlog_state_shutdown_callbacks(
502         struct xlog             *log)
503 {
504         struct xlog_in_core     *iclog;
505         LIST_HEAD(cb_list);
506
507         iclog = log->l_iclog;
508         do {
509                 if (atomic_read(&iclog->ic_refcnt)) {
510                         /* Reference holder will re-run iclog callbacks. */
511                         continue;
512                 }
513                 list_splice_init(&iclog->ic_callbacks, &cb_list);
514                 spin_unlock(&log->l_icloglock);
515
516                 xlog_cil_process_committed(&cb_list);
517
518                 spin_lock(&log->l_icloglock);
519                 wake_up_all(&iclog->ic_write_wait);
520                 wake_up_all(&iclog->ic_force_wait);
521         } while ((iclog = iclog->ic_next) != log->l_iclog);
522
523         wake_up_all(&log->l_flush_wait);
524 }
525
526 /*
527  * Flush iclog to disk if this is the last reference to the given iclog and the
528  * it is in the WANT_SYNC state.
529  *
530  * If XLOG_ICL_NEED_FUA is already set on the iclog, we need to ensure that the
531  * log tail is updated correctly. NEED_FUA indicates that the iclog will be
532  * written to stable storage, and implies that a commit record is contained
533  * within the iclog. We need to ensure that the log tail does not move beyond
534  * the tail that the first commit record in the iclog ordered against, otherwise
535  * correct recovery of that checkpoint becomes dependent on future operations
536  * performed on this iclog.
537  *
538  * Hence if NEED_FUA is set and the current iclog tail lsn is empty, write the
539  * current tail into iclog. Once the iclog tail is set, future operations must
540  * not modify it, otherwise they potentially violate ordering constraints for
541  * the checkpoint commit that wrote the initial tail lsn value. The tail lsn in
542  * the iclog will get zeroed on activation of the iclog after sync, so we
543  * always capture the tail lsn on the iclog on the first NEED_FUA release
544  * regardless of the number of active reference counts on this iclog.
545  */
546 int
547 xlog_state_release_iclog(
548         struct xlog             *log,
549         struct xlog_in_core     *iclog)
550 {
551         xfs_lsn_t               tail_lsn;
552         bool                    last_ref;
553
554         lockdep_assert_held(&log->l_icloglock);
555
556         trace_xlog_iclog_release(iclog, _RET_IP_);
557         /*
558          * Grabbing the current log tail needs to be atomic w.r.t. the writing
559          * of the tail LSN into the iclog so we guarantee that the log tail does
560          * not move between the first time we know that the iclog needs to be
561          * made stable and when we eventually submit it.
562          */
563         if ((iclog->ic_state == XLOG_STATE_WANT_SYNC ||
564              (iclog->ic_flags & XLOG_ICL_NEED_FUA)) &&
565             !iclog->ic_header.h_tail_lsn) {
566                 tail_lsn = xlog_assign_tail_lsn(log->l_mp);
567                 iclog->ic_header.h_tail_lsn = cpu_to_be64(tail_lsn);
568         }
569
570         last_ref = atomic_dec_and_test(&iclog->ic_refcnt);
571
572         if (xlog_is_shutdown(log)) {
573                 /*
574                  * If there are no more references to this iclog, process the
575                  * pending iclog callbacks that were waiting on the release of
576                  * this iclog.
577                  */
578                 if (last_ref)
579                         xlog_state_shutdown_callbacks(log);
580                 return -EIO;
581         }
582
583         if (!last_ref)
584                 return 0;
585
586         if (iclog->ic_state != XLOG_STATE_WANT_SYNC) {
587                 ASSERT(iclog->ic_state == XLOG_STATE_ACTIVE);
588                 return 0;
589         }
590
591         iclog->ic_state = XLOG_STATE_SYNCING;
592         xlog_verify_tail_lsn(log, iclog);
593         trace_xlog_iclog_syncing(iclog, _RET_IP_);
594
595         spin_unlock(&log->l_icloglock);
596         xlog_sync(log, iclog);
597         spin_lock(&log->l_icloglock);
598         return 0;
599 }
600
601 /*
602  * Mount a log filesystem
603  *
604  * mp           - ubiquitous xfs mount point structure
605  * log_target   - buftarg of on-disk log device
606  * blk_offset   - Start block # where block size is 512 bytes (BBSIZE)
607  * num_bblocks  - Number of BBSIZE blocks in on-disk log
608  *
609  * Return error or zero.
610  */
611 int
612 xfs_log_mount(
613         xfs_mount_t     *mp,
614         xfs_buftarg_t   *log_target,
615         xfs_daddr_t     blk_offset,
616         int             num_bblks)
617 {
618         struct xlog     *log;
619         bool            fatal = xfs_has_crc(mp);
620         int             error = 0;
621         int             min_logfsbs;
622
623         if (!xfs_has_norecovery(mp)) {
624                 xfs_notice(mp, "Mounting V%d Filesystem",
625                            XFS_SB_VERSION_NUM(&mp->m_sb));
626         } else {
627                 xfs_notice(mp,
628 "Mounting V%d filesystem in no-recovery mode. Filesystem will be inconsistent.",
629                            XFS_SB_VERSION_NUM(&mp->m_sb));
630                 ASSERT(xfs_is_readonly(mp));
631         }
632
633         log = xlog_alloc_log(mp, log_target, blk_offset, num_bblks);
634         if (IS_ERR(log)) {
635                 error = PTR_ERR(log);
636                 goto out;
637         }
638         mp->m_log = log;
639
640         /*
641          * Validate the given log space and drop a critical message via syslog
642          * if the log size is too small that would lead to some unexpected
643          * situations in transaction log space reservation stage.
644          *
645          * Note: we can't just reject the mount if the validation fails.  This
646          * would mean that people would have to downgrade their kernel just to
647          * remedy the situation as there is no way to grow the log (short of
648          * black magic surgery with xfs_db).
649          *
650          * We can, however, reject mounts for CRC format filesystems, as the
651          * mkfs binary being used to make the filesystem should never create a
652          * filesystem with a log that is too small.
653          */
654         min_logfsbs = xfs_log_calc_minimum_size(mp);
655
656         if (mp->m_sb.sb_logblocks < min_logfsbs) {
657                 xfs_warn(mp,
658                 "Log size %d blocks too small, minimum size is %d blocks",
659                          mp->m_sb.sb_logblocks, min_logfsbs);
660                 error = -EINVAL;
661         } else if (mp->m_sb.sb_logblocks > XFS_MAX_LOG_BLOCKS) {
662                 xfs_warn(mp,
663                 "Log size %d blocks too large, maximum size is %lld blocks",
664                          mp->m_sb.sb_logblocks, XFS_MAX_LOG_BLOCKS);
665                 error = -EINVAL;
666         } else if (XFS_FSB_TO_B(mp, mp->m_sb.sb_logblocks) > XFS_MAX_LOG_BYTES) {
667                 xfs_warn(mp,
668                 "log size %lld bytes too large, maximum size is %lld bytes",
669                          XFS_FSB_TO_B(mp, mp->m_sb.sb_logblocks),
670                          XFS_MAX_LOG_BYTES);
671                 error = -EINVAL;
672         } else if (mp->m_sb.sb_logsunit > 1 &&
673                    mp->m_sb.sb_logsunit % mp->m_sb.sb_blocksize) {
674                 xfs_warn(mp,
675                 "log stripe unit %u bytes must be a multiple of block size",
676                          mp->m_sb.sb_logsunit);
677                 error = -EINVAL;
678                 fatal = true;
679         }
680         if (error) {
681                 /*
682                  * Log check errors are always fatal on v5; or whenever bad
683                  * metadata leads to a crash.
684                  */
685                 if (fatal) {
686                         xfs_crit(mp, "AAIEEE! Log failed size checks. Abort!");
687                         ASSERT(0);
688                         goto out_free_log;
689                 }
690                 xfs_crit(mp, "Log size out of supported range.");
691                 xfs_crit(mp,
692 "Continuing onwards, but if log hangs are experienced then please report this message in the bug report.");
693         }
694
695         /*
696          * Initialize the AIL now we have a log.
697          */
698         error = xfs_trans_ail_init(mp);
699         if (error) {
700                 xfs_warn(mp, "AIL initialisation failed: error %d", error);
701                 goto out_free_log;
702         }
703         log->l_ailp = mp->m_ail;
704
705         /*
706          * skip log recovery on a norecovery mount.  pretend it all
707          * just worked.
708          */
709         if (!xfs_has_norecovery(mp)) {
710                 /*
711                  * log recovery ignores readonly state and so we need to clear
712                  * mount-based read only state so it can write to disk.
713                  */
714                 bool    readonly = test_and_clear_bit(XFS_OPSTATE_READONLY,
715                                                 &mp->m_opstate);
716                 error = xlog_recover(log);
717                 if (readonly)
718                         set_bit(XFS_OPSTATE_READONLY, &mp->m_opstate);
719                 if (error) {
720                         xfs_warn(mp, "log mount/recovery failed: error %d",
721                                 error);
722                         xlog_recover_cancel(log);
723                         goto out_destroy_ail;
724                 }
725         }
726
727         error = xfs_sysfs_init(&log->l_kobj, &xfs_log_ktype, &mp->m_kobj,
728                                "log");
729         if (error)
730                 goto out_destroy_ail;
731
732         /* Normal transactions can now occur */
733         clear_bit(XLOG_ACTIVE_RECOVERY, &log->l_opstate);
734
735         /*
736          * Now the log has been fully initialised and we know were our
737          * space grant counters are, we can initialise the permanent ticket
738          * needed for delayed logging to work.
739          */
740         xlog_cil_init_post_recovery(log);
741
742         return 0;
743
744 out_destroy_ail:
745         xfs_trans_ail_destroy(mp);
746 out_free_log:
747         xlog_dealloc_log(log);
748 out:
749         return error;
750 }
751
752 /*
753  * Finish the recovery of the file system.  This is separate from the
754  * xfs_log_mount() call, because it depends on the code in xfs_mountfs() to read
755  * in the root and real-time bitmap inodes between calling xfs_log_mount() and
756  * here.
757  *
758  * If we finish recovery successfully, start the background log work. If we are
759  * not doing recovery, then we have a RO filesystem and we don't need to start
760  * it.
761  */
762 int
763 xfs_log_mount_finish(
764         struct xfs_mount        *mp)
765 {
766         struct xlog             *log = mp->m_log;
767         bool                    readonly;
768         int                     error = 0;
769
770         if (xfs_has_norecovery(mp)) {
771                 ASSERT(xfs_is_readonly(mp));
772                 return 0;
773         }
774
775         /*
776          * log recovery ignores readonly state and so we need to clear
777          * mount-based read only state so it can write to disk.
778          */
779         readonly = test_and_clear_bit(XFS_OPSTATE_READONLY, &mp->m_opstate);
780
781         /*
782          * During the second phase of log recovery, we need iget and
783          * iput to behave like they do for an active filesystem.
784          * xfs_fs_drop_inode needs to be able to prevent the deletion
785          * of inodes before we're done replaying log items on those
786          * inodes.  Turn it off immediately after recovery finishes
787          * so that we don't leak the quota inodes if subsequent mount
788          * activities fail.
789          *
790          * We let all inodes involved in redo item processing end up on
791          * the LRU instead of being evicted immediately so that if we do
792          * something to an unlinked inode, the irele won't cause
793          * premature truncation and freeing of the inode, which results
794          * in log recovery failure.  We have to evict the unreferenced
795          * lru inodes after clearing SB_ACTIVE because we don't
796          * otherwise clean up the lru if there's a subsequent failure in
797          * xfs_mountfs, which leads to us leaking the inodes if nothing
798          * else (e.g. quotacheck) references the inodes before the
799          * mount failure occurs.
800          */
801         mp->m_super->s_flags |= SB_ACTIVE;
802         if (xlog_recovery_needed(log))
803                 error = xlog_recover_finish(log);
804         if (!error)
805                 xfs_log_work_queue(mp);
806         mp->m_super->s_flags &= ~SB_ACTIVE;
807         evict_inodes(mp->m_super);
808
809         /*
810          * Drain the buffer LRU after log recovery. This is required for v4
811          * filesystems to avoid leaving around buffers with NULL verifier ops,
812          * but we do it unconditionally to make sure we're always in a clean
813          * cache state after mount.
814          *
815          * Don't push in the error case because the AIL may have pending intents
816          * that aren't removed until recovery is cancelled.
817          */
818         if (xlog_recovery_needed(log)) {
819                 if (!error) {
820                         xfs_log_force(mp, XFS_LOG_SYNC);
821                         xfs_ail_push_all_sync(mp->m_ail);
822                 }
823                 xfs_notice(mp, "Ending recovery (logdev: %s)",
824                                 mp->m_logname ? mp->m_logname : "internal");
825         } else {
826                 xfs_info(mp, "Ending clean mount");
827         }
828         xfs_buftarg_drain(mp->m_ddev_targp);
829
830         clear_bit(XLOG_RECOVERY_NEEDED, &log->l_opstate);
831         if (readonly)
832                 set_bit(XFS_OPSTATE_READONLY, &mp->m_opstate);
833
834         /* Make sure the log is dead if we're returning failure. */
835         ASSERT(!error || xlog_is_shutdown(log));
836
837         return error;
838 }
839
840 /*
841  * The mount has failed. Cancel the recovery if it hasn't completed and destroy
842  * the log.
843  */
844 void
845 xfs_log_mount_cancel(
846         struct xfs_mount        *mp)
847 {
848         xlog_recover_cancel(mp->m_log);
849         xfs_log_unmount(mp);
850 }
851
852 /*
853  * Flush out the iclog to disk ensuring that device caches are flushed and
854  * the iclog hits stable storage before any completion waiters are woken.
855  */
856 static inline int
857 xlog_force_iclog(
858         struct xlog_in_core     *iclog)
859 {
860         atomic_inc(&iclog->ic_refcnt);
861         iclog->ic_flags |= XLOG_ICL_NEED_FLUSH | XLOG_ICL_NEED_FUA;
862         if (iclog->ic_state == XLOG_STATE_ACTIVE)
863                 xlog_state_switch_iclogs(iclog->ic_log, iclog, 0);
864         return xlog_state_release_iclog(iclog->ic_log, iclog);
865 }
866
867 /*
868  * Wait for the iclog and all prior iclogs to be written disk as required by the
869  * log force state machine. Waiting on ic_force_wait ensures iclog completions
870  * have been ordered and callbacks run before we are woken here, hence
871  * guaranteeing that all the iclogs up to this one are on stable storage.
872  */
873 int
874 xlog_wait_on_iclog(
875         struct xlog_in_core     *iclog)
876                 __releases(iclog->ic_log->l_icloglock)
877 {
878         struct xlog             *log = iclog->ic_log;
879
880         trace_xlog_iclog_wait_on(iclog, _RET_IP_);
881         if (!xlog_is_shutdown(log) &&
882             iclog->ic_state != XLOG_STATE_ACTIVE &&
883             iclog->ic_state != XLOG_STATE_DIRTY) {
884                 XFS_STATS_INC(log->l_mp, xs_log_force_sleep);
885                 xlog_wait(&iclog->ic_force_wait, &log->l_icloglock);
886         } else {
887                 spin_unlock(&log->l_icloglock);
888         }
889
890         if (xlog_is_shutdown(log))
891                 return -EIO;
892         return 0;
893 }
894
895 /*
896  * Write out an unmount record using the ticket provided. We have to account for
897  * the data space used in the unmount ticket as this write is not done from a
898  * transaction context that has already done the accounting for us.
899  */
900 static int
901 xlog_write_unmount_record(
902         struct xlog             *log,
903         struct xlog_ticket      *ticket)
904 {
905         struct xfs_unmount_log_format ulf = {
906                 .magic = XLOG_UNMOUNT_TYPE,
907         };
908         struct xfs_log_iovec reg = {
909                 .i_addr = &ulf,
910                 .i_len = sizeof(ulf),
911                 .i_type = XLOG_REG_TYPE_UNMOUNT,
912         };
913         struct xfs_log_vec vec = {
914                 .lv_niovecs = 1,
915                 .lv_iovecp = &reg,
916         };
917
918         /* account for space used by record data */
919         ticket->t_curr_res -= sizeof(ulf);
920
921         return xlog_write(log, NULL, &vec, ticket, XLOG_UNMOUNT_TRANS);
922 }
923
924 /*
925  * Mark the filesystem clean by writing an unmount record to the head of the
926  * log.
927  */
928 static void
929 xlog_unmount_write(
930         struct xlog             *log)
931 {
932         struct xfs_mount        *mp = log->l_mp;
933         struct xlog_in_core     *iclog;
934         struct xlog_ticket      *tic = NULL;
935         int                     error;
936
937         error = xfs_log_reserve(mp, 600, 1, &tic, XFS_LOG, 0);
938         if (error)
939                 goto out_err;
940
941         error = xlog_write_unmount_record(log, tic);
942         /*
943          * At this point, we're umounting anyway, so there's no point in
944          * transitioning log state to shutdown. Just continue...
945          */
946 out_err:
947         if (error)
948                 xfs_alert(mp, "%s: unmount record failed", __func__);
949
950         spin_lock(&log->l_icloglock);
951         iclog = log->l_iclog;
952         error = xlog_force_iclog(iclog);
953         xlog_wait_on_iclog(iclog);
954
955         if (tic) {
956                 trace_xfs_log_umount_write(log, tic);
957                 xfs_log_ticket_ungrant(log, tic);
958         }
959 }
960
961 static void
962 xfs_log_unmount_verify_iclog(
963         struct xlog             *log)
964 {
965         struct xlog_in_core     *iclog = log->l_iclog;
966
967         do {
968                 ASSERT(iclog->ic_state == XLOG_STATE_ACTIVE);
969                 ASSERT(iclog->ic_offset == 0);
970         } while ((iclog = iclog->ic_next) != log->l_iclog);
971 }
972
973 /*
974  * Unmount record used to have a string "Unmount filesystem--" in the
975  * data section where the "Un" was really a magic number (XLOG_UNMOUNT_TYPE).
976  * We just write the magic number now since that particular field isn't
977  * currently architecture converted and "Unmount" is a bit foo.
978  * As far as I know, there weren't any dependencies on the old behaviour.
979  */
980 static void
981 xfs_log_unmount_write(
982         struct xfs_mount        *mp)
983 {
984         struct xlog             *log = mp->m_log;
985
986         if (!xfs_log_writable(mp))
987                 return;
988
989         xfs_log_force(mp, XFS_LOG_SYNC);
990
991         if (xlog_is_shutdown(log))
992                 return;
993
994         /*
995          * If we think the summary counters are bad, avoid writing the unmount
996          * record to force log recovery at next mount, after which the summary
997          * counters will be recalculated.  Refer to xlog_check_unmount_rec for
998          * more details.
999          */
1000         if (XFS_TEST_ERROR(xfs_fs_has_sickness(mp, XFS_SICK_FS_COUNTERS), mp,
1001                         XFS_ERRTAG_FORCE_SUMMARY_RECALC)) {
1002                 xfs_alert(mp, "%s: will fix summary counters at next mount",
1003                                 __func__);
1004                 return;
1005         }
1006
1007         xfs_log_unmount_verify_iclog(log);
1008         xlog_unmount_write(log);
1009 }
1010
1011 /*
1012  * Empty the log for unmount/freeze.
1013  *
1014  * To do this, we first need to shut down the background log work so it is not
1015  * trying to cover the log as we clean up. We then need to unpin all objects in
1016  * the log so we can then flush them out. Once they have completed their IO and
1017  * run the callbacks removing themselves from the AIL, we can cover the log.
1018  */
1019 int
1020 xfs_log_quiesce(
1021         struct xfs_mount        *mp)
1022 {
1023         /*
1024          * Clear log incompat features since we're quiescing the log.  Report
1025          * failures, though it's not fatal to have a higher log feature
1026          * protection level than the log contents actually require.
1027          */
1028         if (xfs_clear_incompat_log_features(mp)) {
1029                 int error;
1030
1031                 error = xfs_sync_sb(mp, false);
1032                 if (error)
1033                         xfs_warn(mp,
1034         "Failed to clear log incompat features on quiesce");
1035         }
1036
1037         cancel_delayed_work_sync(&mp->m_log->l_work);
1038         xfs_log_force(mp, XFS_LOG_SYNC);
1039
1040         /*
1041          * The superblock buffer is uncached and while xfs_ail_push_all_sync()
1042          * will push it, xfs_buftarg_wait() will not wait for it. Further,
1043          * xfs_buf_iowait() cannot be used because it was pushed with the
1044          * XBF_ASYNC flag set, so we need to use a lock/unlock pair to wait for
1045          * the IO to complete.
1046          */
1047         xfs_ail_push_all_sync(mp->m_ail);
1048         xfs_buftarg_wait(mp->m_ddev_targp);
1049         xfs_buf_lock(mp->m_sb_bp);
1050         xfs_buf_unlock(mp->m_sb_bp);
1051
1052         return xfs_log_cover(mp);
1053 }
1054
1055 void
1056 xfs_log_clean(
1057         struct xfs_mount        *mp)
1058 {
1059         xfs_log_quiesce(mp);
1060         xfs_log_unmount_write(mp);
1061 }
1062
1063 /*
1064  * Shut down and release the AIL and Log.
1065  *
1066  * During unmount, we need to ensure we flush all the dirty metadata objects
1067  * from the AIL so that the log is empty before we write the unmount record to
1068  * the log. Once this is done, we can tear down the AIL and the log.
1069  */
1070 void
1071 xfs_log_unmount(
1072         struct xfs_mount        *mp)
1073 {
1074         xfs_log_clean(mp);
1075
1076         xfs_buftarg_drain(mp->m_ddev_targp);
1077
1078         xfs_trans_ail_destroy(mp);
1079
1080         xfs_sysfs_del(&mp->m_log->l_kobj);
1081
1082         xlog_dealloc_log(mp->m_log);
1083 }
1084
1085 void
1086 xfs_log_item_init(
1087         struct xfs_mount        *mp,
1088         struct xfs_log_item     *item,
1089         int                     type,
1090         const struct xfs_item_ops *ops)
1091 {
1092         item->li_mountp = mp;
1093         item->li_ailp = mp->m_ail;
1094         item->li_type = type;
1095         item->li_ops = ops;
1096         item->li_lv = NULL;
1097
1098         INIT_LIST_HEAD(&item->li_ail);
1099         INIT_LIST_HEAD(&item->li_cil);
1100         INIT_LIST_HEAD(&item->li_bio_list);
1101         INIT_LIST_HEAD(&item->li_trans);
1102 }
1103
1104 /*
1105  * Wake up processes waiting for log space after we have moved the log tail.
1106  */
1107 void
1108 xfs_log_space_wake(
1109         struct xfs_mount        *mp)
1110 {
1111         struct xlog             *log = mp->m_log;
1112         int                     free_bytes;
1113
1114         if (xlog_is_shutdown(log))
1115                 return;
1116
1117         if (!list_empty_careful(&log->l_write_head.waiters)) {
1118                 ASSERT(!xlog_in_recovery(log));
1119
1120                 spin_lock(&log->l_write_head.lock);
1121                 free_bytes = xlog_space_left(log, &log->l_write_head.grant);
1122                 xlog_grant_head_wake(log, &log->l_write_head, &free_bytes);
1123                 spin_unlock(&log->l_write_head.lock);
1124         }
1125
1126         if (!list_empty_careful(&log->l_reserve_head.waiters)) {
1127                 ASSERT(!xlog_in_recovery(log));
1128
1129                 spin_lock(&log->l_reserve_head.lock);
1130                 free_bytes = xlog_space_left(log, &log->l_reserve_head.grant);
1131                 xlog_grant_head_wake(log, &log->l_reserve_head, &free_bytes);
1132                 spin_unlock(&log->l_reserve_head.lock);
1133         }
1134 }
1135
1136 /*
1137  * Determine if we have a transaction that has gone to disk that needs to be
1138  * covered. To begin the transition to the idle state firstly the log needs to
1139  * be idle. That means the CIL, the AIL and the iclogs needs to be empty before
1140  * we start attempting to cover the log.
1141  *
1142  * Only if we are then in a state where covering is needed, the caller is
1143  * informed that dummy transactions are required to move the log into the idle
1144  * state.
1145  *
1146  * If there are any items in the AIl or CIL, then we do not want to attempt to
1147  * cover the log as we may be in a situation where there isn't log space
1148  * available to run a dummy transaction and this can lead to deadlocks when the
1149  * tail of the log is pinned by an item that is modified in the CIL.  Hence
1150  * there's no point in running a dummy transaction at this point because we
1151  * can't start trying to idle the log until both the CIL and AIL are empty.
1152  */
1153 static bool
1154 xfs_log_need_covered(
1155         struct xfs_mount        *mp)
1156 {
1157         struct xlog             *log = mp->m_log;
1158         bool                    needed = false;
1159
1160         if (!xlog_cil_empty(log))
1161                 return false;
1162
1163         spin_lock(&log->l_icloglock);
1164         switch (log->l_covered_state) {
1165         case XLOG_STATE_COVER_DONE:
1166         case XLOG_STATE_COVER_DONE2:
1167         case XLOG_STATE_COVER_IDLE:
1168                 break;
1169         case XLOG_STATE_COVER_NEED:
1170         case XLOG_STATE_COVER_NEED2:
1171                 if (xfs_ail_min_lsn(log->l_ailp))
1172                         break;
1173                 if (!xlog_iclogs_empty(log))
1174                         break;
1175
1176                 needed = true;
1177                 if (log->l_covered_state == XLOG_STATE_COVER_NEED)
1178                         log->l_covered_state = XLOG_STATE_COVER_DONE;
1179                 else
1180                         log->l_covered_state = XLOG_STATE_COVER_DONE2;
1181                 break;
1182         default:
1183                 needed = true;
1184                 break;
1185         }
1186         spin_unlock(&log->l_icloglock);
1187         return needed;
1188 }
1189
1190 /*
1191  * Explicitly cover the log. This is similar to background log covering but
1192  * intended for usage in quiesce codepaths. The caller is responsible to ensure
1193  * the log is idle and suitable for covering. The CIL, iclog buffers and AIL
1194  * must all be empty.
1195  */
1196 static int
1197 xfs_log_cover(
1198         struct xfs_mount        *mp)
1199 {
1200         int                     error = 0;
1201         bool                    need_covered;
1202
1203         ASSERT((xlog_cil_empty(mp->m_log) && xlog_iclogs_empty(mp->m_log) &&
1204                 !xfs_ail_min_lsn(mp->m_log->l_ailp)) ||
1205                 xlog_is_shutdown(mp->m_log));
1206
1207         if (!xfs_log_writable(mp))
1208                 return 0;
1209
1210         /*
1211          * xfs_log_need_covered() is not idempotent because it progresses the
1212          * state machine if the log requires covering. Therefore, we must call
1213          * this function once and use the result until we've issued an sb sync.
1214          * Do so first to make that abundantly clear.
1215          *
1216          * Fall into the covering sequence if the log needs covering or the
1217          * mount has lazy superblock accounting to sync to disk. The sb sync
1218          * used for covering accumulates the in-core counters, so covering
1219          * handles this for us.
1220          */
1221         need_covered = xfs_log_need_covered(mp);
1222         if (!need_covered && !xfs_has_lazysbcount(mp))
1223                 return 0;
1224
1225         /*
1226          * To cover the log, commit the superblock twice (at most) in
1227          * independent checkpoints. The first serves as a reference for the
1228          * tail pointer. The sync transaction and AIL push empties the AIL and
1229          * updates the in-core tail to the LSN of the first checkpoint. The
1230          * second commit updates the on-disk tail with the in-core LSN,
1231          * covering the log. Push the AIL one more time to leave it empty, as
1232          * we found it.
1233          */
1234         do {
1235                 error = xfs_sync_sb(mp, true);
1236                 if (error)
1237                         break;
1238                 xfs_ail_push_all_sync(mp->m_ail);
1239         } while (xfs_log_need_covered(mp));
1240
1241         return error;
1242 }
1243
1244 /*
1245  * We may be holding the log iclog lock upon entering this routine.
1246  */
1247 xfs_lsn_t
1248 xlog_assign_tail_lsn_locked(
1249         struct xfs_mount        *mp)
1250 {
1251         struct xlog             *log = mp->m_log;
1252         struct xfs_log_item     *lip;
1253         xfs_lsn_t               tail_lsn;
1254
1255         assert_spin_locked(&mp->m_ail->ail_lock);
1256
1257         /*
1258          * To make sure we always have a valid LSN for the log tail we keep
1259          * track of the last LSN which was committed in log->l_last_sync_lsn,
1260          * and use that when the AIL was empty.
1261          */
1262         lip = xfs_ail_min(mp->m_ail);
1263         if (lip)
1264                 tail_lsn = lip->li_lsn;
1265         else
1266                 tail_lsn = atomic64_read(&log->l_last_sync_lsn);
1267         trace_xfs_log_assign_tail_lsn(log, tail_lsn);
1268         atomic64_set(&log->l_tail_lsn, tail_lsn);
1269         return tail_lsn;
1270 }
1271
1272 xfs_lsn_t
1273 xlog_assign_tail_lsn(
1274         struct xfs_mount        *mp)
1275 {
1276         xfs_lsn_t               tail_lsn;
1277
1278         spin_lock(&mp->m_ail->ail_lock);
1279         tail_lsn = xlog_assign_tail_lsn_locked(mp);
1280         spin_unlock(&mp->m_ail->ail_lock);
1281
1282         return tail_lsn;
1283 }
1284
1285 /*
1286  * Return the space in the log between the tail and the head.  The head
1287  * is passed in the cycle/bytes formal parms.  In the special case where
1288  * the reserve head has wrapped passed the tail, this calculation is no
1289  * longer valid.  In this case, just return 0 which means there is no space
1290  * in the log.  This works for all places where this function is called
1291  * with the reserve head.  Of course, if the write head were to ever
1292  * wrap the tail, we should blow up.  Rather than catch this case here,
1293  * we depend on other ASSERTions in other parts of the code.   XXXmiken
1294  *
1295  * If reservation head is behind the tail, we have a problem. Warn about it,
1296  * but then treat it as if the log is empty.
1297  *
1298  * If the log is shut down, the head and tail may be invalid or out of whack, so
1299  * shortcut invalidity asserts in this case so that we don't trigger them
1300  * falsely.
1301  */
1302 STATIC int
1303 xlog_space_left(
1304         struct xlog     *log,
1305         atomic64_t      *head)
1306 {
1307         int             tail_bytes;
1308         int             tail_cycle;
1309         int             head_cycle;
1310         int             head_bytes;
1311
1312         xlog_crack_grant_head(head, &head_cycle, &head_bytes);
1313         xlog_crack_atomic_lsn(&log->l_tail_lsn, &tail_cycle, &tail_bytes);
1314         tail_bytes = BBTOB(tail_bytes);
1315         if (tail_cycle == head_cycle && head_bytes >= tail_bytes)
1316                 return log->l_logsize - (head_bytes - tail_bytes);
1317         if (tail_cycle + 1 < head_cycle)
1318                 return 0;
1319
1320         /* Ignore potential inconsistency when shutdown. */
1321         if (xlog_is_shutdown(log))
1322                 return log->l_logsize;
1323
1324         if (tail_cycle < head_cycle) {
1325                 ASSERT(tail_cycle == (head_cycle - 1));
1326                 return tail_bytes - head_bytes;
1327         }
1328
1329         /*
1330          * The reservation head is behind the tail. In this case we just want to
1331          * return the size of the log as the amount of space left.
1332          */
1333         xfs_alert(log->l_mp, "xlog_space_left: head behind tail");
1334         xfs_alert(log->l_mp, "  tail_cycle = %d, tail_bytes = %d",
1335                   tail_cycle, tail_bytes);
1336         xfs_alert(log->l_mp, "  GH   cycle = %d, GH   bytes = %d",
1337                   head_cycle, head_bytes);
1338         ASSERT(0);
1339         return log->l_logsize;
1340 }
1341
1342
1343 static void
1344 xlog_ioend_work(
1345         struct work_struct      *work)
1346 {
1347         struct xlog_in_core     *iclog =
1348                 container_of(work, struct xlog_in_core, ic_end_io_work);
1349         struct xlog             *log = iclog->ic_log;
1350         int                     error;
1351
1352         error = blk_status_to_errno(iclog->ic_bio.bi_status);
1353 #ifdef DEBUG
1354         /* treat writes with injected CRC errors as failed */
1355         if (iclog->ic_fail_crc)
1356                 error = -EIO;
1357 #endif
1358
1359         /*
1360          * Race to shutdown the filesystem if we see an error.
1361          */
1362         if (XFS_TEST_ERROR(error, log->l_mp, XFS_ERRTAG_IODONE_IOERR)) {
1363                 xfs_alert(log->l_mp, "log I/O error %d", error);
1364                 xfs_force_shutdown(log->l_mp, SHUTDOWN_LOG_IO_ERROR);
1365         }
1366
1367         xlog_state_done_syncing(iclog);
1368         bio_uninit(&iclog->ic_bio);
1369
1370         /*
1371          * Drop the lock to signal that we are done. Nothing references the
1372          * iclog after this, so an unmount waiting on this lock can now tear it
1373          * down safely. As such, it is unsafe to reference the iclog after the
1374          * unlock as we could race with it being freed.
1375          */
1376         up(&iclog->ic_sema);
1377 }
1378
1379 /*
1380  * Return size of each in-core log record buffer.
1381  *
1382  * All machines get 8 x 32kB buffers by default, unless tuned otherwise.
1383  *
1384  * If the filesystem blocksize is too large, we may need to choose a
1385  * larger size since the directory code currently logs entire blocks.
1386  */
1387 STATIC void
1388 xlog_get_iclog_buffer_size(
1389         struct xfs_mount        *mp,
1390         struct xlog             *log)
1391 {
1392         if (mp->m_logbufs <= 0)
1393                 mp->m_logbufs = XLOG_MAX_ICLOGS;
1394         if (mp->m_logbsize <= 0)
1395                 mp->m_logbsize = XLOG_BIG_RECORD_BSIZE;
1396
1397         log->l_iclog_bufs = mp->m_logbufs;
1398         log->l_iclog_size = mp->m_logbsize;
1399
1400         /*
1401          * # headers = size / 32k - one header holds cycles from 32k of data.
1402          */
1403         log->l_iclog_heads =
1404                 DIV_ROUND_UP(mp->m_logbsize, XLOG_HEADER_CYCLE_SIZE);
1405         log->l_iclog_hsize = log->l_iclog_heads << BBSHIFT;
1406 }
1407
1408 void
1409 xfs_log_work_queue(
1410         struct xfs_mount        *mp)
1411 {
1412         queue_delayed_work(mp->m_sync_workqueue, &mp->m_log->l_work,
1413                                 msecs_to_jiffies(xfs_syncd_centisecs * 10));
1414 }
1415
1416 /*
1417  * Clear the log incompat flags if we have the opportunity.
1418  *
1419  * This only happens if we're about to log the second dummy transaction as part
1420  * of covering the log and we can get the log incompat feature usage lock.
1421  */
1422 static inline void
1423 xlog_clear_incompat(
1424         struct xlog             *log)
1425 {
1426         struct xfs_mount        *mp = log->l_mp;
1427
1428         if (!xfs_sb_has_incompat_log_feature(&mp->m_sb,
1429                                 XFS_SB_FEAT_INCOMPAT_LOG_ALL))
1430                 return;
1431
1432         if (log->l_covered_state != XLOG_STATE_COVER_DONE2)
1433                 return;
1434
1435         if (!down_write_trylock(&log->l_incompat_users))
1436                 return;
1437
1438         xfs_clear_incompat_log_features(mp);
1439         up_write(&log->l_incompat_users);
1440 }
1441
1442 /*
1443  * Every sync period we need to unpin all items in the AIL and push them to
1444  * disk. If there is nothing dirty, then we might need to cover the log to
1445  * indicate that the filesystem is idle.
1446  */
1447 static void
1448 xfs_log_worker(
1449         struct work_struct      *work)
1450 {
1451         struct xlog             *log = container_of(to_delayed_work(work),
1452                                                 struct xlog, l_work);
1453         struct xfs_mount        *mp = log->l_mp;
1454
1455         /* dgc: errors ignored - not fatal and nowhere to report them */
1456         if (xfs_fs_writable(mp, SB_FREEZE_WRITE) && xfs_log_need_covered(mp)) {
1457                 /*
1458                  * Dump a transaction into the log that contains no real change.
1459                  * This is needed to stamp the current tail LSN into the log
1460                  * during the covering operation.
1461                  *
1462                  * We cannot use an inode here for this - that will push dirty
1463                  * state back up into the VFS and then periodic inode flushing
1464                  * will prevent log covering from making progress. Hence we
1465                  * synchronously log the superblock instead to ensure the
1466                  * superblock is immediately unpinned and can be written back.
1467                  */
1468                 xlog_clear_incompat(log);
1469                 xfs_sync_sb(mp, true);
1470         } else
1471                 xfs_log_force(mp, 0);
1472
1473         /* start pushing all the metadata that is currently dirty */
1474         xfs_ail_push_all(mp->m_ail);
1475
1476         /* queue us up again */
1477         xfs_log_work_queue(mp);
1478 }
1479
1480 /*
1481  * This routine initializes some of the log structure for a given mount point.
1482  * Its primary purpose is to fill in enough, so recovery can occur.  However,
1483  * some other stuff may be filled in too.
1484  */
1485 STATIC struct xlog *
1486 xlog_alloc_log(
1487         struct xfs_mount        *mp,
1488         struct xfs_buftarg      *log_target,
1489         xfs_daddr_t             blk_offset,
1490         int                     num_bblks)
1491 {
1492         struct xlog             *log;
1493         xlog_rec_header_t       *head;
1494         xlog_in_core_t          **iclogp;
1495         xlog_in_core_t          *iclog, *prev_iclog=NULL;
1496         int                     i;
1497         int                     error = -ENOMEM;
1498         uint                    log2_size = 0;
1499
1500         log = kmem_zalloc(sizeof(struct xlog), KM_MAYFAIL);
1501         if (!log) {
1502                 xfs_warn(mp, "Log allocation failed: No memory!");
1503                 goto out;
1504         }
1505
1506         log->l_mp          = mp;
1507         log->l_targ        = log_target;
1508         log->l_logsize     = BBTOB(num_bblks);
1509         log->l_logBBstart  = blk_offset;
1510         log->l_logBBsize   = num_bblks;
1511         log->l_covered_state = XLOG_STATE_COVER_IDLE;
1512         set_bit(XLOG_ACTIVE_RECOVERY, &log->l_opstate);
1513         INIT_DELAYED_WORK(&log->l_work, xfs_log_worker);
1514
1515         log->l_prev_block  = -1;
1516         /* log->l_tail_lsn = 0x100000000LL; cycle = 1; current block = 0 */
1517         xlog_assign_atomic_lsn(&log->l_tail_lsn, 1, 0);
1518         xlog_assign_atomic_lsn(&log->l_last_sync_lsn, 1, 0);
1519         log->l_curr_cycle  = 1;     /* 0 is bad since this is initial value */
1520
1521         if (xfs_has_logv2(mp) && mp->m_sb.sb_logsunit > 1)
1522                 log->l_iclog_roundoff = mp->m_sb.sb_logsunit;
1523         else
1524                 log->l_iclog_roundoff = BBSIZE;
1525
1526         xlog_grant_head_init(&log->l_reserve_head);
1527         xlog_grant_head_init(&log->l_write_head);
1528
1529         error = -EFSCORRUPTED;
1530         if (xfs_has_sector(mp)) {
1531                 log2_size = mp->m_sb.sb_logsectlog;
1532                 if (log2_size < BBSHIFT) {
1533                         xfs_warn(mp, "Log sector size too small (0x%x < 0x%x)",
1534                                 log2_size, BBSHIFT);
1535                         goto out_free_log;
1536                 }
1537
1538                 log2_size -= BBSHIFT;
1539                 if (log2_size > mp->m_sectbb_log) {
1540                         xfs_warn(mp, "Log sector size too large (0x%x > 0x%x)",
1541                                 log2_size, mp->m_sectbb_log);
1542                         goto out_free_log;
1543                 }
1544
1545                 /* for larger sector sizes, must have v2 or external log */
1546                 if (log2_size && log->l_logBBstart > 0 &&
1547                             !xfs_has_logv2(mp)) {
1548                         xfs_warn(mp,
1549                 "log sector size (0x%x) invalid for configuration.",
1550                                 log2_size);
1551                         goto out_free_log;
1552                 }
1553         }
1554         log->l_sectBBsize = 1 << log2_size;
1555
1556         init_rwsem(&log->l_incompat_users);
1557
1558         xlog_get_iclog_buffer_size(mp, log);
1559
1560         spin_lock_init(&log->l_icloglock);
1561         init_waitqueue_head(&log->l_flush_wait);
1562
1563         iclogp = &log->l_iclog;
1564         /*
1565          * The amount of memory to allocate for the iclog structure is
1566          * rather funky due to the way the structure is defined.  It is
1567          * done this way so that we can use different sizes for machines
1568          * with different amounts of memory.  See the definition of
1569          * xlog_in_core_t in xfs_log_priv.h for details.
1570          */
1571         ASSERT(log->l_iclog_size >= 4096);
1572         for (i = 0; i < log->l_iclog_bufs; i++) {
1573                 size_t bvec_size = howmany(log->l_iclog_size, PAGE_SIZE) *
1574                                 sizeof(struct bio_vec);
1575
1576                 iclog = kmem_zalloc(sizeof(*iclog) + bvec_size, KM_MAYFAIL);
1577                 if (!iclog)
1578                         goto out_free_iclog;
1579
1580                 *iclogp = iclog;
1581                 iclog->ic_prev = prev_iclog;
1582                 prev_iclog = iclog;
1583
1584                 iclog->ic_data = kvzalloc(log->l_iclog_size,
1585                                 GFP_KERNEL | __GFP_RETRY_MAYFAIL);
1586                 if (!iclog->ic_data)
1587                         goto out_free_iclog;
1588 #ifdef DEBUG
1589                 log->l_iclog_bak[i] = &iclog->ic_header;
1590 #endif
1591                 head = &iclog->ic_header;
1592                 memset(head, 0, sizeof(xlog_rec_header_t));
1593                 head->h_magicno = cpu_to_be32(XLOG_HEADER_MAGIC_NUM);
1594                 head->h_version = cpu_to_be32(
1595                         xfs_has_logv2(log->l_mp) ? 2 : 1);
1596                 head->h_size = cpu_to_be32(log->l_iclog_size);
1597                 /* new fields */
1598                 head->h_fmt = cpu_to_be32(XLOG_FMT);
1599                 memcpy(&head->h_fs_uuid, &mp->m_sb.sb_uuid, sizeof(uuid_t));
1600
1601                 iclog->ic_size = log->l_iclog_size - log->l_iclog_hsize;
1602                 iclog->ic_state = XLOG_STATE_ACTIVE;
1603                 iclog->ic_log = log;
1604                 atomic_set(&iclog->ic_refcnt, 0);
1605                 INIT_LIST_HEAD(&iclog->ic_callbacks);
1606                 iclog->ic_datap = (char *)iclog->ic_data + log->l_iclog_hsize;
1607
1608                 init_waitqueue_head(&iclog->ic_force_wait);
1609                 init_waitqueue_head(&iclog->ic_write_wait);
1610                 INIT_WORK(&iclog->ic_end_io_work, xlog_ioend_work);
1611                 sema_init(&iclog->ic_sema, 1);
1612
1613                 iclogp = &iclog->ic_next;
1614         }
1615         *iclogp = log->l_iclog;                 /* complete ring */
1616         log->l_iclog->ic_prev = prev_iclog;     /* re-write 1st prev ptr */
1617
1618         log->l_ioend_workqueue = alloc_workqueue("xfs-log/%s",
1619                         XFS_WQFLAGS(WQ_FREEZABLE | WQ_MEM_RECLAIM |
1620                                     WQ_HIGHPRI),
1621                         0, mp->m_super->s_id);
1622         if (!log->l_ioend_workqueue)
1623                 goto out_free_iclog;
1624
1625         error = xlog_cil_init(log);
1626         if (error)
1627                 goto out_destroy_workqueue;
1628         return log;
1629
1630 out_destroy_workqueue:
1631         destroy_workqueue(log->l_ioend_workqueue);
1632 out_free_iclog:
1633         for (iclog = log->l_iclog; iclog; iclog = prev_iclog) {
1634                 prev_iclog = iclog->ic_next;
1635                 kmem_free(iclog->ic_data);
1636                 kmem_free(iclog);
1637                 if (prev_iclog == log->l_iclog)
1638                         break;
1639         }
1640 out_free_log:
1641         kmem_free(log);
1642 out:
1643         return ERR_PTR(error);
1644 }       /* xlog_alloc_log */
1645
1646 /*
1647  * Compute the LSN that we'd need to push the log tail towards in order to have
1648  * (a) enough on-disk log space to log the number of bytes specified, (b) at
1649  * least 25% of the log space free, and (c) at least 256 blocks free.  If the
1650  * log free space already meets all three thresholds, this function returns
1651  * NULLCOMMITLSN.
1652  */
1653 xfs_lsn_t
1654 xlog_grant_push_threshold(
1655         struct xlog     *log,
1656         int             need_bytes)
1657 {
1658         xfs_lsn_t       threshold_lsn = 0;
1659         xfs_lsn_t       last_sync_lsn;
1660         int             free_blocks;
1661         int             free_bytes;
1662         int             threshold_block;
1663         int             threshold_cycle;
1664         int             free_threshold;
1665
1666         ASSERT(BTOBB(need_bytes) < log->l_logBBsize);
1667
1668         free_bytes = xlog_space_left(log, &log->l_reserve_head.grant);
1669         free_blocks = BTOBBT(free_bytes);
1670
1671         /*
1672          * Set the threshold for the minimum number of free blocks in the
1673          * log to the maximum of what the caller needs, one quarter of the
1674          * log, and 256 blocks.
1675          */
1676         free_threshold = BTOBB(need_bytes);
1677         free_threshold = max(free_threshold, (log->l_logBBsize >> 2));
1678         free_threshold = max(free_threshold, 256);
1679         if (free_blocks >= free_threshold)
1680                 return NULLCOMMITLSN;
1681
1682         xlog_crack_atomic_lsn(&log->l_tail_lsn, &threshold_cycle,
1683                                                 &threshold_block);
1684         threshold_block += free_threshold;
1685         if (threshold_block >= log->l_logBBsize) {
1686                 threshold_block -= log->l_logBBsize;
1687                 threshold_cycle += 1;
1688         }
1689         threshold_lsn = xlog_assign_lsn(threshold_cycle,
1690                                         threshold_block);
1691         /*
1692          * Don't pass in an lsn greater than the lsn of the last
1693          * log record known to be on disk. Use a snapshot of the last sync lsn
1694          * so that it doesn't change between the compare and the set.
1695          */
1696         last_sync_lsn = atomic64_read(&log->l_last_sync_lsn);
1697         if (XFS_LSN_CMP(threshold_lsn, last_sync_lsn) > 0)
1698                 threshold_lsn = last_sync_lsn;
1699
1700         return threshold_lsn;
1701 }
1702
1703 /*
1704  * Push the tail of the log if we need to do so to maintain the free log space
1705  * thresholds set out by xlog_grant_push_threshold.  We may need to adopt a
1706  * policy which pushes on an lsn which is further along in the log once we
1707  * reach the high water mark.  In this manner, we would be creating a low water
1708  * mark.
1709  */
1710 STATIC void
1711 xlog_grant_push_ail(
1712         struct xlog     *log,
1713         int             need_bytes)
1714 {
1715         xfs_lsn_t       threshold_lsn;
1716
1717         threshold_lsn = xlog_grant_push_threshold(log, need_bytes);
1718         if (threshold_lsn == NULLCOMMITLSN || xlog_is_shutdown(log))
1719                 return;
1720
1721         /*
1722          * Get the transaction layer to kick the dirty buffers out to
1723          * disk asynchronously. No point in trying to do this if
1724          * the filesystem is shutting down.
1725          */
1726         xfs_ail_push(log->l_ailp, threshold_lsn);
1727 }
1728
1729 /*
1730  * Stamp cycle number in every block
1731  */
1732 STATIC void
1733 xlog_pack_data(
1734         struct xlog             *log,
1735         struct xlog_in_core     *iclog,
1736         int                     roundoff)
1737 {
1738         int                     i, j, k;
1739         int                     size = iclog->ic_offset + roundoff;
1740         __be32                  cycle_lsn;
1741         char                    *dp;
1742
1743         cycle_lsn = CYCLE_LSN_DISK(iclog->ic_header.h_lsn);
1744
1745         dp = iclog->ic_datap;
1746         for (i = 0; i < BTOBB(size); i++) {
1747                 if (i >= (XLOG_HEADER_CYCLE_SIZE / BBSIZE))
1748                         break;
1749                 iclog->ic_header.h_cycle_data[i] = *(__be32 *)dp;
1750                 *(__be32 *)dp = cycle_lsn;
1751                 dp += BBSIZE;
1752         }
1753
1754         if (xfs_has_logv2(log->l_mp)) {
1755                 xlog_in_core_2_t *xhdr = iclog->ic_data;
1756
1757                 for ( ; i < BTOBB(size); i++) {
1758                         j = i / (XLOG_HEADER_CYCLE_SIZE / BBSIZE);
1759                         k = i % (XLOG_HEADER_CYCLE_SIZE / BBSIZE);
1760                         xhdr[j].hic_xheader.xh_cycle_data[k] = *(__be32 *)dp;
1761                         *(__be32 *)dp = cycle_lsn;
1762                         dp += BBSIZE;
1763                 }
1764
1765                 for (i = 1; i < log->l_iclog_heads; i++)
1766                         xhdr[i].hic_xheader.xh_cycle = cycle_lsn;
1767         }
1768 }
1769
1770 /*
1771  * Calculate the checksum for a log buffer.
1772  *
1773  * This is a little more complicated than it should be because the various
1774  * headers and the actual data are non-contiguous.
1775  */
1776 __le32
1777 xlog_cksum(
1778         struct xlog             *log,
1779         struct xlog_rec_header  *rhead,
1780         char                    *dp,
1781         int                     size)
1782 {
1783         uint32_t                crc;
1784
1785         /* first generate the crc for the record header ... */
1786         crc = xfs_start_cksum_update((char *)rhead,
1787                               sizeof(struct xlog_rec_header),
1788                               offsetof(struct xlog_rec_header, h_crc));
1789
1790         /* ... then for additional cycle data for v2 logs ... */
1791         if (xfs_has_logv2(log->l_mp)) {
1792                 union xlog_in_core2 *xhdr = (union xlog_in_core2 *)rhead;
1793                 int             i;
1794                 int             xheads;
1795
1796                 xheads = DIV_ROUND_UP(size, XLOG_HEADER_CYCLE_SIZE);
1797
1798                 for (i = 1; i < xheads; i++) {
1799                         crc = crc32c(crc, &xhdr[i].hic_xheader,
1800                                      sizeof(struct xlog_rec_ext_header));
1801                 }
1802         }
1803
1804         /* ... and finally for the payload */
1805         crc = crc32c(crc, dp, size);
1806
1807         return xfs_end_cksum(crc);
1808 }
1809
1810 static void
1811 xlog_bio_end_io(
1812         struct bio              *bio)
1813 {
1814         struct xlog_in_core     *iclog = bio->bi_private;
1815
1816         queue_work(iclog->ic_log->l_ioend_workqueue,
1817                    &iclog->ic_end_io_work);
1818 }
1819
1820 static int
1821 xlog_map_iclog_data(
1822         struct bio              *bio,
1823         void                    *data,
1824         size_t                  count)
1825 {
1826         do {
1827                 struct page     *page = kmem_to_page(data);
1828                 unsigned int    off = offset_in_page(data);
1829                 size_t          len = min_t(size_t, count, PAGE_SIZE - off);
1830
1831                 if (bio_add_page(bio, page, len, off) != len)
1832                         return -EIO;
1833
1834                 data += len;
1835                 count -= len;
1836         } while (count);
1837
1838         return 0;
1839 }
1840
1841 STATIC void
1842 xlog_write_iclog(
1843         struct xlog             *log,
1844         struct xlog_in_core     *iclog,
1845         uint64_t                bno,
1846         unsigned int            count)
1847 {
1848         ASSERT(bno < log->l_logBBsize);
1849         trace_xlog_iclog_write(iclog, _RET_IP_);
1850
1851         /*
1852          * We lock the iclogbufs here so that we can serialise against I/O
1853          * completion during unmount.  We might be processing a shutdown
1854          * triggered during unmount, and that can occur asynchronously to the
1855          * unmount thread, and hence we need to ensure that completes before
1856          * tearing down the iclogbufs.  Hence we need to hold the buffer lock
1857          * across the log IO to archieve that.
1858          */
1859         down(&iclog->ic_sema);
1860         if (xlog_is_shutdown(log)) {
1861                 /*
1862                  * It would seem logical to return EIO here, but we rely on
1863                  * the log state machine to propagate I/O errors instead of
1864                  * doing it here.  We kick of the state machine and unlock
1865                  * the buffer manually, the code needs to be kept in sync
1866                  * with the I/O completion path.
1867                  */
1868                 xlog_state_done_syncing(iclog);
1869                 up(&iclog->ic_sema);
1870                 return;
1871         }
1872
1873         bio_init(&iclog->ic_bio, iclog->ic_bvec, howmany(count, PAGE_SIZE));
1874         bio_set_dev(&iclog->ic_bio, log->l_targ->bt_bdev);
1875         iclog->ic_bio.bi_iter.bi_sector = log->l_logBBstart + bno;
1876         iclog->ic_bio.bi_end_io = xlog_bio_end_io;
1877         iclog->ic_bio.bi_private = iclog;
1878
1879         /*
1880          * We use REQ_SYNC | REQ_IDLE here to tell the block layer the are more
1881          * IOs coming immediately after this one. This prevents the block layer
1882          * writeback throttle from throttling log writes behind background
1883          * metadata writeback and causing priority inversions.
1884          */
1885         iclog->ic_bio.bi_opf = REQ_OP_WRITE | REQ_META | REQ_SYNC | REQ_IDLE;
1886         if (iclog->ic_flags & XLOG_ICL_NEED_FLUSH) {
1887                 iclog->ic_bio.bi_opf |= REQ_PREFLUSH;
1888                 /*
1889                  * For external log devices, we also need to flush the data
1890                  * device cache first to ensure all metadata writeback covered
1891                  * by the LSN in this iclog is on stable storage. This is slow,
1892                  * but it *must* complete before we issue the external log IO.
1893                  */
1894                 if (log->l_targ != log->l_mp->m_ddev_targp)
1895                         blkdev_issue_flush(log->l_mp->m_ddev_targp->bt_bdev);
1896         }
1897         if (iclog->ic_flags & XLOG_ICL_NEED_FUA)
1898                 iclog->ic_bio.bi_opf |= REQ_FUA;
1899
1900         iclog->ic_flags &= ~(XLOG_ICL_NEED_FLUSH | XLOG_ICL_NEED_FUA);
1901
1902         if (xlog_map_iclog_data(&iclog->ic_bio, iclog->ic_data, count)) {
1903                 xfs_force_shutdown(log->l_mp, SHUTDOWN_LOG_IO_ERROR);
1904                 return;
1905         }
1906         if (is_vmalloc_addr(iclog->ic_data))
1907                 flush_kernel_vmap_range(iclog->ic_data, count);
1908
1909         /*
1910          * If this log buffer would straddle the end of the log we will have
1911          * to split it up into two bios, so that we can continue at the start.
1912          */
1913         if (bno + BTOBB(count) > log->l_logBBsize) {
1914                 struct bio *split;
1915
1916                 split = bio_split(&iclog->ic_bio, log->l_logBBsize - bno,
1917                                   GFP_NOIO, &fs_bio_set);
1918                 bio_chain(split, &iclog->ic_bio);
1919                 submit_bio(split);
1920
1921                 /* restart at logical offset zero for the remainder */
1922                 iclog->ic_bio.bi_iter.bi_sector = log->l_logBBstart;
1923         }
1924
1925         submit_bio(&iclog->ic_bio);
1926 }
1927
1928 /*
1929  * We need to bump cycle number for the part of the iclog that is
1930  * written to the start of the log. Watch out for the header magic
1931  * number case, though.
1932  */
1933 static void
1934 xlog_split_iclog(
1935         struct xlog             *log,
1936         void                    *data,
1937         uint64_t                bno,
1938         unsigned int            count)
1939 {
1940         unsigned int            split_offset = BBTOB(log->l_logBBsize - bno);
1941         unsigned int            i;
1942
1943         for (i = split_offset; i < count; i += BBSIZE) {
1944                 uint32_t cycle = get_unaligned_be32(data + i);
1945
1946                 if (++cycle == XLOG_HEADER_MAGIC_NUM)
1947                         cycle++;
1948                 put_unaligned_be32(cycle, data + i);
1949         }
1950 }
1951
1952 static int
1953 xlog_calc_iclog_size(
1954         struct xlog             *log,
1955         struct xlog_in_core     *iclog,
1956         uint32_t                *roundoff)
1957 {
1958         uint32_t                count_init, count;
1959
1960         /* Add for LR header */
1961         count_init = log->l_iclog_hsize + iclog->ic_offset;
1962         count = roundup(count_init, log->l_iclog_roundoff);
1963
1964         *roundoff = count - count_init;
1965
1966         ASSERT(count >= count_init);
1967         ASSERT(*roundoff < log->l_iclog_roundoff);
1968         return count;
1969 }
1970
1971 /*
1972  * Flush out the in-core log (iclog) to the on-disk log in an asynchronous 
1973  * fashion.  Previously, we should have moved the current iclog
1974  * ptr in the log to point to the next available iclog.  This allows further
1975  * write to continue while this code syncs out an iclog ready to go.
1976  * Before an in-core log can be written out, the data section must be scanned
1977  * to save away the 1st word of each BBSIZE block into the header.  We replace
1978  * it with the current cycle count.  Each BBSIZE block is tagged with the
1979  * cycle count because there in an implicit assumption that drives will
1980  * guarantee that entire 512 byte blocks get written at once.  In other words,
1981  * we can't have part of a 512 byte block written and part not written.  By
1982  * tagging each block, we will know which blocks are valid when recovering
1983  * after an unclean shutdown.
1984  *
1985  * This routine is single threaded on the iclog.  No other thread can be in
1986  * this routine with the same iclog.  Changing contents of iclog can there-
1987  * fore be done without grabbing the state machine lock.  Updating the global
1988  * log will require grabbing the lock though.
1989  *
1990  * The entire log manager uses a logical block numbering scheme.  Only
1991  * xlog_write_iclog knows about the fact that the log may not start with
1992  * block zero on a given device.
1993  */
1994 STATIC void
1995 xlog_sync(
1996         struct xlog             *log,
1997         struct xlog_in_core     *iclog)
1998 {
1999         unsigned int            count;          /* byte count of bwrite */
2000         unsigned int            roundoff;       /* roundoff to BB or stripe */
2001         uint64_t                bno;
2002         unsigned int            size;
2003
2004         ASSERT(atomic_read(&iclog->ic_refcnt) == 0);
2005         trace_xlog_iclog_sync(iclog, _RET_IP_);
2006
2007         count = xlog_calc_iclog_size(log, iclog, &roundoff);
2008
2009         /* move grant heads by roundoff in sync */
2010         xlog_grant_add_space(log, &log->l_reserve_head.grant, roundoff);
2011         xlog_grant_add_space(log, &log->l_write_head.grant, roundoff);
2012
2013         /* put cycle number in every block */
2014         xlog_pack_data(log, iclog, roundoff); 
2015
2016         /* real byte length */
2017         size = iclog->ic_offset;
2018         if (xfs_has_logv2(log->l_mp))
2019                 size += roundoff;
2020         iclog->ic_header.h_len = cpu_to_be32(size);
2021
2022         XFS_STATS_INC(log->l_mp, xs_log_writes);
2023         XFS_STATS_ADD(log->l_mp, xs_log_blocks, BTOBB(count));
2024
2025         bno = BLOCK_LSN(be64_to_cpu(iclog->ic_header.h_lsn));
2026
2027         /* Do we need to split this write into 2 parts? */
2028         if (bno + BTOBB(count) > log->l_logBBsize)
2029                 xlog_split_iclog(log, &iclog->ic_header, bno, count);
2030
2031         /* calculcate the checksum */
2032         iclog->ic_header.h_crc = xlog_cksum(log, &iclog->ic_header,
2033                                             iclog->ic_datap, size);
2034         /*
2035          * Intentionally corrupt the log record CRC based on the error injection
2036          * frequency, if defined. This facilitates testing log recovery in the
2037          * event of torn writes. Hence, set the IOABORT state to abort the log
2038          * write on I/O completion and shutdown the fs. The subsequent mount
2039          * detects the bad CRC and attempts to recover.
2040          */
2041 #ifdef DEBUG
2042         if (XFS_TEST_ERROR(false, log->l_mp, XFS_ERRTAG_LOG_BAD_CRC)) {
2043                 iclog->ic_header.h_crc &= cpu_to_le32(0xAAAAAAAA);
2044                 iclog->ic_fail_crc = true;
2045                 xfs_warn(log->l_mp,
2046         "Intentionally corrupted log record at LSN 0x%llx. Shutdown imminent.",
2047                          be64_to_cpu(iclog->ic_header.h_lsn));
2048         }
2049 #endif
2050         xlog_verify_iclog(log, iclog, count);
2051         xlog_write_iclog(log, iclog, bno, count);
2052 }
2053
2054 /*
2055  * Deallocate a log structure
2056  */
2057 STATIC void
2058 xlog_dealloc_log(
2059         struct xlog     *log)
2060 {
2061         xlog_in_core_t  *iclog, *next_iclog;
2062         int             i;
2063
2064         xlog_cil_destroy(log);
2065
2066         /*
2067          * Cycle all the iclogbuf locks to make sure all log IO completion
2068          * is done before we tear down these buffers.
2069          */
2070         iclog = log->l_iclog;
2071         for (i = 0; i < log->l_iclog_bufs; i++) {
2072                 down(&iclog->ic_sema);
2073                 up(&iclog->ic_sema);
2074                 iclog = iclog->ic_next;
2075         }
2076
2077         iclog = log->l_iclog;
2078         for (i = 0; i < log->l_iclog_bufs; i++) {
2079                 next_iclog = iclog->ic_next;
2080                 kmem_free(iclog->ic_data);
2081                 kmem_free(iclog);
2082                 iclog = next_iclog;
2083         }
2084
2085         log->l_mp->m_log = NULL;
2086         destroy_workqueue(log->l_ioend_workqueue);
2087         kmem_free(log);
2088 }
2089
2090 /*
2091  * Update counters atomically now that memcpy is done.
2092  */
2093 static inline void
2094 xlog_state_finish_copy(
2095         struct xlog             *log,
2096         struct xlog_in_core     *iclog,
2097         int                     record_cnt,
2098         int                     copy_bytes)
2099 {
2100         lockdep_assert_held(&log->l_icloglock);
2101
2102         be32_add_cpu(&iclog->ic_header.h_num_logops, record_cnt);
2103         iclog->ic_offset += copy_bytes;
2104 }
2105
2106 /*
2107  * print out info relating to regions written which consume
2108  * the reservation
2109  */
2110 void
2111 xlog_print_tic_res(
2112         struct xfs_mount        *mp,
2113         struct xlog_ticket      *ticket)
2114 {
2115         uint i;
2116         uint ophdr_spc = ticket->t_res_num_ophdrs * (uint)sizeof(xlog_op_header_t);
2117
2118         /* match with XLOG_REG_TYPE_* in xfs_log.h */
2119 #define REG_TYPE_STR(type, str) [XLOG_REG_TYPE_##type] = str
2120         static char *res_type_str[] = {
2121             REG_TYPE_STR(BFORMAT, "bformat"),
2122             REG_TYPE_STR(BCHUNK, "bchunk"),
2123             REG_TYPE_STR(EFI_FORMAT, "efi_format"),
2124             REG_TYPE_STR(EFD_FORMAT, "efd_format"),
2125             REG_TYPE_STR(IFORMAT, "iformat"),
2126             REG_TYPE_STR(ICORE, "icore"),
2127             REG_TYPE_STR(IEXT, "iext"),
2128             REG_TYPE_STR(IBROOT, "ibroot"),
2129             REG_TYPE_STR(ILOCAL, "ilocal"),
2130             REG_TYPE_STR(IATTR_EXT, "iattr_ext"),
2131             REG_TYPE_STR(IATTR_BROOT, "iattr_broot"),
2132             REG_TYPE_STR(IATTR_LOCAL, "iattr_local"),
2133             REG_TYPE_STR(QFORMAT, "qformat"),
2134             REG_TYPE_STR(DQUOT, "dquot"),
2135             REG_TYPE_STR(QUOTAOFF, "quotaoff"),
2136             REG_TYPE_STR(LRHEADER, "LR header"),
2137             REG_TYPE_STR(UNMOUNT, "unmount"),
2138             REG_TYPE_STR(COMMIT, "commit"),
2139             REG_TYPE_STR(TRANSHDR, "trans header"),
2140             REG_TYPE_STR(ICREATE, "inode create"),
2141             REG_TYPE_STR(RUI_FORMAT, "rui_format"),
2142             REG_TYPE_STR(RUD_FORMAT, "rud_format"),
2143             REG_TYPE_STR(CUI_FORMAT, "cui_format"),
2144             REG_TYPE_STR(CUD_FORMAT, "cud_format"),
2145             REG_TYPE_STR(BUI_FORMAT, "bui_format"),
2146             REG_TYPE_STR(BUD_FORMAT, "bud_format"),
2147         };
2148         BUILD_BUG_ON(ARRAY_SIZE(res_type_str) != XLOG_REG_TYPE_MAX + 1);
2149 #undef REG_TYPE_STR
2150
2151         xfs_warn(mp, "ticket reservation summary:");
2152         xfs_warn(mp, "  unit res    = %d bytes",
2153                  ticket->t_unit_res);
2154         xfs_warn(mp, "  current res = %d bytes",
2155                  ticket->t_curr_res);
2156         xfs_warn(mp, "  total reg   = %u bytes (o/flow = %u bytes)",
2157                  ticket->t_res_arr_sum, ticket->t_res_o_flow);
2158         xfs_warn(mp, "  ophdrs      = %u (ophdr space = %u bytes)",
2159                  ticket->t_res_num_ophdrs, ophdr_spc);
2160         xfs_warn(mp, "  ophdr + reg = %u bytes",
2161                  ticket->t_res_arr_sum + ticket->t_res_o_flow + ophdr_spc);
2162         xfs_warn(mp, "  num regions = %u",
2163                  ticket->t_res_num);
2164
2165         for (i = 0; i < ticket->t_res_num; i++) {
2166                 uint r_type = ticket->t_res_arr[i].r_type;
2167                 xfs_warn(mp, "region[%u]: %s - %u bytes", i,
2168                             ((r_type <= 0 || r_type > XLOG_REG_TYPE_MAX) ?
2169                             "bad-rtype" : res_type_str[r_type]),
2170                             ticket->t_res_arr[i].r_len);
2171         }
2172 }
2173
2174 /*
2175  * Print a summary of the transaction.
2176  */
2177 void
2178 xlog_print_trans(
2179         struct xfs_trans        *tp)
2180 {
2181         struct xfs_mount        *mp = tp->t_mountp;
2182         struct xfs_log_item     *lip;
2183
2184         /* dump core transaction and ticket info */
2185         xfs_warn(mp, "transaction summary:");
2186         xfs_warn(mp, "  log res   = %d", tp->t_log_res);
2187         xfs_warn(mp, "  log count = %d", tp->t_log_count);
2188         xfs_warn(mp, "  flags     = 0x%x", tp->t_flags);
2189
2190         xlog_print_tic_res(mp, tp->t_ticket);
2191
2192         /* dump each log item */
2193         list_for_each_entry(lip, &tp->t_items, li_trans) {
2194                 struct xfs_log_vec      *lv = lip->li_lv;
2195                 struct xfs_log_iovec    *vec;
2196                 int                     i;
2197
2198                 xfs_warn(mp, "log item: ");
2199                 xfs_warn(mp, "  type    = 0x%x", lip->li_type);
2200                 xfs_warn(mp, "  flags   = 0x%lx", lip->li_flags);
2201                 if (!lv)
2202                         continue;
2203                 xfs_warn(mp, "  niovecs = %d", lv->lv_niovecs);
2204                 xfs_warn(mp, "  size    = %d", lv->lv_size);
2205                 xfs_warn(mp, "  bytes   = %d", lv->lv_bytes);
2206                 xfs_warn(mp, "  buf len = %d", lv->lv_buf_len);
2207
2208                 /* dump each iovec for the log item */
2209                 vec = lv->lv_iovecp;
2210                 for (i = 0; i < lv->lv_niovecs; i++) {
2211                         int dumplen = min(vec->i_len, 32);
2212
2213                         xfs_warn(mp, "  iovec[%d]", i);
2214                         xfs_warn(mp, "    type  = 0x%x", vec->i_type);
2215                         xfs_warn(mp, "    len   = %d", vec->i_len);
2216                         xfs_warn(mp, "    first %d bytes of iovec[%d]:", dumplen, i);
2217                         xfs_hex_dump(vec->i_addr, dumplen);
2218
2219                         vec++;
2220                 }
2221         }
2222 }
2223
2224 /*
2225  * Calculate the potential space needed by the log vector.  We may need a start
2226  * record, and each region gets its own struct xlog_op_header and may need to be
2227  * double word aligned.
2228  */
2229 static int
2230 xlog_write_calc_vec_length(
2231         struct xlog_ticket      *ticket,
2232         struct xfs_log_vec      *log_vector,
2233         uint                    optype)
2234 {
2235         struct xfs_log_vec      *lv;
2236         int                     headers = 0;
2237         int                     len = 0;
2238         int                     i;
2239
2240         if (optype & XLOG_START_TRANS)
2241                 headers++;
2242
2243         for (lv = log_vector; lv; lv = lv->lv_next) {
2244                 /* we don't write ordered log vectors */
2245                 if (lv->lv_buf_len == XFS_LOG_VEC_ORDERED)
2246                         continue;
2247
2248                 headers += lv->lv_niovecs;
2249
2250                 for (i = 0; i < lv->lv_niovecs; i++) {
2251                         struct xfs_log_iovec    *vecp = &lv->lv_iovecp[i];
2252
2253                         len += vecp->i_len;
2254                         xlog_tic_add_region(ticket, vecp->i_len, vecp->i_type);
2255                 }
2256         }
2257
2258         ticket->t_res_num_ophdrs += headers;
2259         len += headers * sizeof(struct xlog_op_header);
2260
2261         return len;
2262 }
2263
2264 static void
2265 xlog_write_start_rec(
2266         struct xlog_op_header   *ophdr,
2267         struct xlog_ticket      *ticket)
2268 {
2269         ophdr->oh_tid   = cpu_to_be32(ticket->t_tid);
2270         ophdr->oh_clientid = ticket->t_clientid;
2271         ophdr->oh_len = 0;
2272         ophdr->oh_flags = XLOG_START_TRANS;
2273         ophdr->oh_res2 = 0;
2274 }
2275
2276 static xlog_op_header_t *
2277 xlog_write_setup_ophdr(
2278         struct xlog             *log,
2279         struct xlog_op_header   *ophdr,
2280         struct xlog_ticket      *ticket,
2281         uint                    flags)
2282 {
2283         ophdr->oh_tid = cpu_to_be32(ticket->t_tid);
2284         ophdr->oh_clientid = ticket->t_clientid;
2285         ophdr->oh_res2 = 0;
2286
2287         /* are we copying a commit or unmount record? */
2288         ophdr->oh_flags = flags;
2289
2290         /*
2291          * We've seen logs corrupted with bad transaction client ids.  This
2292          * makes sure that XFS doesn't generate them on.  Turn this into an EIO
2293          * and shut down the filesystem.
2294          */
2295         switch (ophdr->oh_clientid)  {
2296         case XFS_TRANSACTION:
2297         case XFS_VOLUME:
2298         case XFS_LOG:
2299                 break;
2300         default:
2301                 xfs_warn(log->l_mp,
2302                         "Bad XFS transaction clientid 0x%x in ticket "PTR_FMT,
2303                         ophdr->oh_clientid, ticket);
2304                 return NULL;
2305         }
2306
2307         return ophdr;
2308 }
2309
2310 /*
2311  * Set up the parameters of the region copy into the log. This has
2312  * to handle region write split across multiple log buffers - this
2313  * state is kept external to this function so that this code can
2314  * be written in an obvious, self documenting manner.
2315  */
2316 static int
2317 xlog_write_setup_copy(
2318         struct xlog_ticket      *ticket,
2319         struct xlog_op_header   *ophdr,
2320         int                     space_available,
2321         int                     space_required,
2322         int                     *copy_off,
2323         int                     *copy_len,
2324         int                     *last_was_partial_copy,
2325         int                     *bytes_consumed)
2326 {
2327         int                     still_to_copy;
2328
2329         still_to_copy = space_required - *bytes_consumed;
2330         *copy_off = *bytes_consumed;
2331
2332         if (still_to_copy <= space_available) {
2333                 /* write of region completes here */
2334                 *copy_len = still_to_copy;
2335                 ophdr->oh_len = cpu_to_be32(*copy_len);
2336                 if (*last_was_partial_copy)
2337                         ophdr->oh_flags |= (XLOG_END_TRANS|XLOG_WAS_CONT_TRANS);
2338                 *last_was_partial_copy = 0;
2339                 *bytes_consumed = 0;
2340                 return 0;
2341         }
2342
2343         /* partial write of region, needs extra log op header reservation */
2344         *copy_len = space_available;
2345         ophdr->oh_len = cpu_to_be32(*copy_len);
2346         ophdr->oh_flags |= XLOG_CONTINUE_TRANS;
2347         if (*last_was_partial_copy)
2348                 ophdr->oh_flags |= XLOG_WAS_CONT_TRANS;
2349         *bytes_consumed += *copy_len;
2350         (*last_was_partial_copy)++;
2351
2352         /* account for new log op header */
2353         ticket->t_curr_res -= sizeof(struct xlog_op_header);
2354         ticket->t_res_num_ophdrs++;
2355
2356         return sizeof(struct xlog_op_header);
2357 }
2358
2359 static int
2360 xlog_write_copy_finish(
2361         struct xlog             *log,
2362         struct xlog_in_core     *iclog,
2363         uint                    flags,
2364         int                     *record_cnt,
2365         int                     *data_cnt,
2366         int                     *partial_copy,
2367         int                     *partial_copy_len,
2368         int                     log_offset)
2369 {
2370         int                     error;
2371
2372         if (*partial_copy) {
2373                 /*
2374                  * This iclog has already been marked WANT_SYNC by
2375                  * xlog_state_get_iclog_space.
2376                  */
2377                 spin_lock(&log->l_icloglock);
2378                 xlog_state_finish_copy(log, iclog, *record_cnt, *data_cnt);
2379                 *record_cnt = 0;
2380                 *data_cnt = 0;
2381                 goto release_iclog;
2382         }
2383
2384         *partial_copy = 0;
2385         *partial_copy_len = 0;
2386
2387         if (iclog->ic_size - log_offset > sizeof(xlog_op_header_t))
2388                 return 0;
2389
2390         /* no more space in this iclog - push it. */
2391         spin_lock(&log->l_icloglock);
2392         xlog_state_finish_copy(log, iclog, *record_cnt, *data_cnt);
2393         *record_cnt = 0;
2394         *data_cnt = 0;
2395
2396         if (iclog->ic_state == XLOG_STATE_ACTIVE)
2397                 xlog_state_switch_iclogs(log, iclog, 0);
2398         else
2399                 ASSERT(iclog->ic_state == XLOG_STATE_WANT_SYNC ||
2400                         xlog_is_shutdown(log));
2401 release_iclog:
2402         error = xlog_state_release_iclog(log, iclog);
2403         spin_unlock(&log->l_icloglock);
2404         return error;
2405 }
2406
2407 /*
2408  * Write some region out to in-core log
2409  *
2410  * This will be called when writing externally provided regions or when
2411  * writing out a commit record for a given transaction.
2412  *
2413  * General algorithm:
2414  *      1. Find total length of this write.  This may include adding to the
2415  *              lengths passed in.
2416  *      2. Check whether we violate the tickets reservation.
2417  *      3. While writing to this iclog
2418  *          A. Reserve as much space in this iclog as can get
2419  *          B. If this is first write, save away start lsn
2420  *          C. While writing this region:
2421  *              1. If first write of transaction, write start record
2422  *              2. Write log operation header (header per region)
2423  *              3. Find out if we can fit entire region into this iclog
2424  *              4. Potentially, verify destination memcpy ptr
2425  *              5. Memcpy (partial) region
2426  *              6. If partial copy, release iclog; otherwise, continue
2427  *                      copying more regions into current iclog
2428  *      4. Mark want sync bit (in simulation mode)
2429  *      5. Release iclog for potential flush to on-disk log.
2430  *
2431  * ERRORS:
2432  * 1.   Panic if reservation is overrun.  This should never happen since
2433  *      reservation amounts are generated internal to the filesystem.
2434  * NOTES:
2435  * 1. Tickets are single threaded data structures.
2436  * 2. The XLOG_END_TRANS & XLOG_CONTINUE_TRANS flags are passed down to the
2437  *      syncing routine.  When a single log_write region needs to span
2438  *      multiple in-core logs, the XLOG_CONTINUE_TRANS bit should be set
2439  *      on all log operation writes which don't contain the end of the
2440  *      region.  The XLOG_END_TRANS bit is used for the in-core log
2441  *      operation which contains the end of the continued log_write region.
2442  * 3. When xlog_state_get_iclog_space() grabs the rest of the current iclog,
2443  *      we don't really know exactly how much space will be used.  As a result,
2444  *      we don't update ic_offset until the end when we know exactly how many
2445  *      bytes have been written out.
2446  */
2447 int
2448 xlog_write(
2449         struct xlog             *log,
2450         struct xfs_cil_ctx      *ctx,
2451         struct xfs_log_vec      *log_vector,
2452         struct xlog_ticket      *ticket,
2453         uint                    optype)
2454 {
2455         struct xlog_in_core     *iclog = NULL;
2456         struct xfs_log_vec      *lv = log_vector;
2457         struct xfs_log_iovec    *vecp = lv->lv_iovecp;
2458         int                     index = 0;
2459         int                     len;
2460         int                     partial_copy = 0;
2461         int                     partial_copy_len = 0;
2462         int                     contwr = 0;
2463         int                     record_cnt = 0;
2464         int                     data_cnt = 0;
2465         int                     error = 0;
2466
2467         /*
2468          * If this is a commit or unmount transaction, we don't need a start
2469          * record to be written.  We do, however, have to account for the
2470          * commit or unmount header that gets written. Hence we always have
2471          * to account for an extra xlog_op_header here.
2472          */
2473         ticket->t_curr_res -= sizeof(struct xlog_op_header);
2474         if (ticket->t_curr_res < 0) {
2475                 xfs_alert_tag(log->l_mp, XFS_PTAG_LOGRES,
2476                      "ctx ticket reservation ran out. Need to up reservation");
2477                 xlog_print_tic_res(log->l_mp, ticket);
2478                 xfs_force_shutdown(log->l_mp, SHUTDOWN_LOG_IO_ERROR);
2479         }
2480
2481         len = xlog_write_calc_vec_length(ticket, log_vector, optype);
2482         while (lv && (!lv->lv_niovecs || index < lv->lv_niovecs)) {
2483                 void            *ptr;
2484                 int             log_offset;
2485
2486                 error = xlog_state_get_iclog_space(log, len, &iclog, ticket,
2487                                                    &contwr, &log_offset);
2488                 if (error)
2489                         return error;
2490
2491                 ASSERT(log_offset <= iclog->ic_size - 1);
2492                 ptr = iclog->ic_datap + log_offset;
2493
2494                 /*
2495                  * If we have a context pointer, pass it the first iclog we are
2496                  * writing to so it can record state needed for iclog write
2497                  * ordering.
2498                  */
2499                 if (ctx) {
2500                         xlog_cil_set_ctx_write_state(ctx, iclog);
2501                         ctx = NULL;
2502                 }
2503
2504                 /*
2505                  * This loop writes out as many regions as can fit in the amount
2506                  * of space which was allocated by xlog_state_get_iclog_space().
2507                  */
2508                 while (lv && (!lv->lv_niovecs || index < lv->lv_niovecs)) {
2509                         struct xfs_log_iovec    *reg;
2510                         struct xlog_op_header   *ophdr;
2511                         int                     copy_len;
2512                         int                     copy_off;
2513                         bool                    ordered = false;
2514                         bool                    wrote_start_rec = false;
2515
2516                         /* ordered log vectors have no regions to write */
2517                         if (lv->lv_buf_len == XFS_LOG_VEC_ORDERED) {
2518                                 ASSERT(lv->lv_niovecs == 0);
2519                                 ordered = true;
2520                                 goto next_lv;
2521                         }
2522
2523                         reg = &vecp[index];
2524                         ASSERT(reg->i_len % sizeof(int32_t) == 0);
2525                         ASSERT((unsigned long)ptr % sizeof(int32_t) == 0);
2526
2527                         /*
2528                          * Before we start formatting log vectors, we need to
2529                          * write a start record. Only do this for the first
2530                          * iclog we write to.
2531                          */
2532                         if (optype & XLOG_START_TRANS) {
2533                                 xlog_write_start_rec(ptr, ticket);
2534                                 xlog_write_adv_cnt(&ptr, &len, &log_offset,
2535                                                 sizeof(struct xlog_op_header));
2536                                 optype &= ~XLOG_START_TRANS;
2537                                 wrote_start_rec = true;
2538                         }
2539
2540                         ophdr = xlog_write_setup_ophdr(log, ptr, ticket, optype);
2541                         if (!ophdr)
2542                                 return -EIO;
2543
2544                         xlog_write_adv_cnt(&ptr, &len, &log_offset,
2545                                            sizeof(struct xlog_op_header));
2546
2547                         len += xlog_write_setup_copy(ticket, ophdr,
2548                                                      iclog->ic_size-log_offset,
2549                                                      reg->i_len,
2550                                                      &copy_off, &copy_len,
2551                                                      &partial_copy,
2552                                                      &partial_copy_len);
2553                         xlog_verify_dest_ptr(log, ptr);
2554
2555                         /*
2556                          * Copy region.
2557                          *
2558                          * Unmount records just log an opheader, so can have
2559                          * empty payloads with no data region to copy. Hence we
2560                          * only copy the payload if the vector says it has data
2561                          * to copy.
2562                          */
2563                         ASSERT(copy_len >= 0);
2564                         if (copy_len > 0) {
2565                                 memcpy(ptr, reg->i_addr + copy_off, copy_len);
2566                                 xlog_write_adv_cnt(&ptr, &len, &log_offset,
2567                                                    copy_len);
2568                         }
2569                         copy_len += sizeof(struct xlog_op_header);
2570                         record_cnt++;
2571                         if (wrote_start_rec) {
2572                                 copy_len += sizeof(struct xlog_op_header);
2573                                 record_cnt++;
2574                         }
2575                         data_cnt += contwr ? copy_len : 0;
2576
2577                         error = xlog_write_copy_finish(log, iclog, optype,
2578                                                        &record_cnt, &data_cnt,
2579                                                        &partial_copy,
2580                                                        &partial_copy_len,
2581                                                        log_offset);
2582                         if (error)
2583                                 return error;
2584
2585                         /*
2586                          * if we had a partial copy, we need to get more iclog
2587                          * space but we don't want to increment the region
2588                          * index because there is still more is this region to
2589                          * write.
2590                          *
2591                          * If we completed writing this region, and we flushed
2592                          * the iclog (indicated by resetting of the record
2593                          * count), then we also need to get more log space. If
2594                          * this was the last record, though, we are done and
2595                          * can just return.
2596                          */
2597                         if (partial_copy)
2598                                 break;
2599
2600                         if (++index == lv->lv_niovecs) {
2601 next_lv:
2602                                 lv = lv->lv_next;
2603                                 index = 0;
2604                                 if (lv)
2605                                         vecp = lv->lv_iovecp;
2606                         }
2607                         if (record_cnt == 0 && !ordered) {
2608                                 if (!lv)
2609                                         return 0;
2610                                 break;
2611                         }
2612                 }
2613         }
2614
2615         ASSERT(len == 0);
2616
2617         spin_lock(&log->l_icloglock);
2618         xlog_state_finish_copy(log, iclog, record_cnt, data_cnt);
2619         error = xlog_state_release_iclog(log, iclog);
2620         spin_unlock(&log->l_icloglock);
2621
2622         return error;
2623 }
2624
2625 static void
2626 xlog_state_activate_iclog(
2627         struct xlog_in_core     *iclog,
2628         int                     *iclogs_changed)
2629 {
2630         ASSERT(list_empty_careful(&iclog->ic_callbacks));
2631         trace_xlog_iclog_activate(iclog, _RET_IP_);
2632
2633         /*
2634          * If the number of ops in this iclog indicate it just contains the
2635          * dummy transaction, we can change state into IDLE (the second time
2636          * around). Otherwise we should change the state into NEED a dummy.
2637          * We don't need to cover the dummy.
2638          */
2639         if (*iclogs_changed == 0 &&
2640             iclog->ic_header.h_num_logops == cpu_to_be32(XLOG_COVER_OPS)) {
2641                 *iclogs_changed = 1;
2642         } else {
2643                 /*
2644                  * We have two dirty iclogs so start over.  This could also be
2645                  * num of ops indicating this is not the dummy going out.
2646                  */
2647                 *iclogs_changed = 2;
2648         }
2649
2650         iclog->ic_state = XLOG_STATE_ACTIVE;
2651         iclog->ic_offset = 0;
2652         iclog->ic_header.h_num_logops = 0;
2653         memset(iclog->ic_header.h_cycle_data, 0,
2654                 sizeof(iclog->ic_header.h_cycle_data));
2655         iclog->ic_header.h_lsn = 0;
2656         iclog->ic_header.h_tail_lsn = 0;
2657 }
2658
2659 /*
2660  * Loop through all iclogs and mark all iclogs currently marked DIRTY as
2661  * ACTIVE after iclog I/O has completed.
2662  */
2663 static void
2664 xlog_state_activate_iclogs(
2665         struct xlog             *log,
2666         int                     *iclogs_changed)
2667 {
2668         struct xlog_in_core     *iclog = log->l_iclog;
2669
2670         do {
2671                 if (iclog->ic_state == XLOG_STATE_DIRTY)
2672                         xlog_state_activate_iclog(iclog, iclogs_changed);
2673                 /*
2674                  * The ordering of marking iclogs ACTIVE must be maintained, so
2675                  * an iclog doesn't become ACTIVE beyond one that is SYNCING.
2676                  */
2677                 else if (iclog->ic_state != XLOG_STATE_ACTIVE)
2678                         break;
2679         } while ((iclog = iclog->ic_next) != log->l_iclog);
2680 }
2681
2682 static int
2683 xlog_covered_state(
2684         int                     prev_state,
2685         int                     iclogs_changed)
2686 {
2687         /*
2688          * We go to NEED for any non-covering writes. We go to NEED2 if we just
2689          * wrote the first covering record (DONE). We go to IDLE if we just
2690          * wrote the second covering record (DONE2) and remain in IDLE until a
2691          * non-covering write occurs.
2692          */
2693         switch (prev_state) {
2694         case XLOG_STATE_COVER_IDLE:
2695                 if (iclogs_changed == 1)
2696                         return XLOG_STATE_COVER_IDLE;
2697                 fallthrough;
2698         case XLOG_STATE_COVER_NEED:
2699         case XLOG_STATE_COVER_NEED2:
2700                 break;
2701         case XLOG_STATE_COVER_DONE:
2702                 if (iclogs_changed == 1)
2703                         return XLOG_STATE_COVER_NEED2;
2704                 break;
2705         case XLOG_STATE_COVER_DONE2:
2706                 if (iclogs_changed == 1)
2707                         return XLOG_STATE_COVER_IDLE;
2708                 break;
2709         default:
2710                 ASSERT(0);
2711         }
2712
2713         return XLOG_STATE_COVER_NEED;
2714 }
2715
2716 STATIC void
2717 xlog_state_clean_iclog(
2718         struct xlog             *log,
2719         struct xlog_in_core     *dirty_iclog)
2720 {
2721         int                     iclogs_changed = 0;
2722
2723         trace_xlog_iclog_clean(dirty_iclog, _RET_IP_);
2724
2725         dirty_iclog->ic_state = XLOG_STATE_DIRTY;
2726
2727         xlog_state_activate_iclogs(log, &iclogs_changed);
2728         wake_up_all(&dirty_iclog->ic_force_wait);
2729
2730         if (iclogs_changed) {
2731                 log->l_covered_state = xlog_covered_state(log->l_covered_state,
2732                                 iclogs_changed);
2733         }
2734 }
2735
2736 STATIC xfs_lsn_t
2737 xlog_get_lowest_lsn(
2738         struct xlog             *log)
2739 {
2740         struct xlog_in_core     *iclog = log->l_iclog;
2741         xfs_lsn_t               lowest_lsn = 0, lsn;
2742
2743         do {
2744                 if (iclog->ic_state == XLOG_STATE_ACTIVE ||
2745                     iclog->ic_state == XLOG_STATE_DIRTY)
2746                         continue;
2747
2748                 lsn = be64_to_cpu(iclog->ic_header.h_lsn);
2749                 if ((lsn && !lowest_lsn) || XFS_LSN_CMP(lsn, lowest_lsn) < 0)
2750                         lowest_lsn = lsn;
2751         } while ((iclog = iclog->ic_next) != log->l_iclog);
2752
2753         return lowest_lsn;
2754 }
2755
2756 /*
2757  * Completion of a iclog IO does not imply that a transaction has completed, as
2758  * transactions can be large enough to span many iclogs. We cannot change the
2759  * tail of the log half way through a transaction as this may be the only
2760  * transaction in the log and moving the tail to point to the middle of it
2761  * will prevent recovery from finding the start of the transaction. Hence we
2762  * should only update the last_sync_lsn if this iclog contains transaction
2763  * completion callbacks on it.
2764  *
2765  * We have to do this before we drop the icloglock to ensure we are the only one
2766  * that can update it.
2767  *
2768  * If we are moving the last_sync_lsn forwards, we also need to ensure we kick
2769  * the reservation grant head pushing. This is due to the fact that the push
2770  * target is bound by the current last_sync_lsn value. Hence if we have a large
2771  * amount of log space bound up in this committing transaction then the
2772  * last_sync_lsn value may be the limiting factor preventing tail pushing from
2773  * freeing space in the log. Hence once we've updated the last_sync_lsn we
2774  * should push the AIL to ensure the push target (and hence the grant head) is
2775  * no longer bound by the old log head location and can move forwards and make
2776  * progress again.
2777  */
2778 static void
2779 xlog_state_set_callback(
2780         struct xlog             *log,
2781         struct xlog_in_core     *iclog,
2782         xfs_lsn_t               header_lsn)
2783 {
2784         trace_xlog_iclog_callback(iclog, _RET_IP_);
2785         iclog->ic_state = XLOG_STATE_CALLBACK;
2786
2787         ASSERT(XFS_LSN_CMP(atomic64_read(&log->l_last_sync_lsn),
2788                            header_lsn) <= 0);
2789
2790         if (list_empty_careful(&iclog->ic_callbacks))
2791                 return;
2792
2793         atomic64_set(&log->l_last_sync_lsn, header_lsn);
2794         xlog_grant_push_ail(log, 0);
2795 }
2796
2797 /*
2798  * Return true if we need to stop processing, false to continue to the next
2799  * iclog. The caller will need to run callbacks if the iclog is returned in the
2800  * XLOG_STATE_CALLBACK state.
2801  */
2802 static bool
2803 xlog_state_iodone_process_iclog(
2804         struct xlog             *log,
2805         struct xlog_in_core     *iclog)
2806 {
2807         xfs_lsn_t               lowest_lsn;
2808         xfs_lsn_t               header_lsn;
2809
2810         switch (iclog->ic_state) {
2811         case XLOG_STATE_ACTIVE:
2812         case XLOG_STATE_DIRTY:
2813                 /*
2814                  * Skip all iclogs in the ACTIVE & DIRTY states:
2815                  */
2816                 return false;
2817         case XLOG_STATE_DONE_SYNC:
2818                 /*
2819                  * Now that we have an iclog that is in the DONE_SYNC state, do
2820                  * one more check here to see if we have chased our tail around.
2821                  * If this is not the lowest lsn iclog, then we will leave it
2822                  * for another completion to process.
2823                  */
2824                 header_lsn = be64_to_cpu(iclog->ic_header.h_lsn);
2825                 lowest_lsn = xlog_get_lowest_lsn(log);
2826                 if (lowest_lsn && XFS_LSN_CMP(lowest_lsn, header_lsn) < 0)
2827                         return false;
2828                 xlog_state_set_callback(log, iclog, header_lsn);
2829                 return false;
2830         default:
2831                 /*
2832                  * Can only perform callbacks in order.  Since this iclog is not
2833                  * in the DONE_SYNC state, we skip the rest and just try to
2834                  * clean up.
2835                  */
2836                 return true;
2837         }
2838 }
2839
2840 /*
2841  * Loop over all the iclogs, running attached callbacks on them. Return true if
2842  * we ran any callbacks, indicating that we dropped the icloglock. We don't need
2843  * to handle transient shutdown state here at all because
2844  * xlog_state_shutdown_callbacks() will be run to do the necessary shutdown
2845  * cleanup of the callbacks.
2846  */
2847 static bool
2848 xlog_state_do_iclog_callbacks(
2849         struct xlog             *log)
2850                 __releases(&log->l_icloglock)
2851                 __acquires(&log->l_icloglock)
2852 {
2853         struct xlog_in_core     *first_iclog = log->l_iclog;
2854         struct xlog_in_core     *iclog = first_iclog;
2855         bool                    ran_callback = false;
2856
2857         do {
2858                 LIST_HEAD(cb_list);
2859
2860                 if (xlog_state_iodone_process_iclog(log, iclog))
2861                         break;
2862                 if (iclog->ic_state != XLOG_STATE_CALLBACK) {
2863                         iclog = iclog->ic_next;
2864                         continue;
2865                 }
2866                 list_splice_init(&iclog->ic_callbacks, &cb_list);
2867                 spin_unlock(&log->l_icloglock);
2868
2869                 trace_xlog_iclog_callbacks_start(iclog, _RET_IP_);
2870                 xlog_cil_process_committed(&cb_list);
2871                 trace_xlog_iclog_callbacks_done(iclog, _RET_IP_);
2872                 ran_callback = true;
2873
2874                 spin_lock(&log->l_icloglock);
2875                 xlog_state_clean_iclog(log, iclog);
2876                 iclog = iclog->ic_next;
2877         } while (iclog != first_iclog);
2878
2879         return ran_callback;
2880 }
2881
2882
2883 /*
2884  * Loop running iclog completion callbacks until there are no more iclogs in a
2885  * state that can run callbacks.
2886  */
2887 STATIC void
2888 xlog_state_do_callback(
2889         struct xlog             *log)
2890 {
2891         int                     flushcnt = 0;
2892         int                     repeats = 0;
2893
2894         spin_lock(&log->l_icloglock);
2895         while (xlog_state_do_iclog_callbacks(log)) {
2896                 if (xlog_is_shutdown(log))
2897                         break;
2898
2899                 if (++repeats > 5000) {
2900                         flushcnt += repeats;
2901                         repeats = 0;
2902                         xfs_warn(log->l_mp,
2903                                 "%s: possible infinite loop (%d iterations)",
2904                                 __func__, flushcnt);
2905                 }
2906         }
2907
2908         if (log->l_iclog->ic_state == XLOG_STATE_ACTIVE)
2909                 wake_up_all(&log->l_flush_wait);
2910
2911         spin_unlock(&log->l_icloglock);
2912 }
2913
2914
2915 /*
2916  * Finish transitioning this iclog to the dirty state.
2917  *
2918  * Callbacks could take time, so they are done outside the scope of the
2919  * global state machine log lock.
2920  */
2921 STATIC void
2922 xlog_state_done_syncing(
2923         struct xlog_in_core     *iclog)
2924 {
2925         struct xlog             *log = iclog->ic_log;
2926
2927         spin_lock(&log->l_icloglock);
2928         ASSERT(atomic_read(&iclog->ic_refcnt) == 0);
2929         trace_xlog_iclog_sync_done(iclog, _RET_IP_);
2930
2931         /*
2932          * If we got an error, either on the first buffer, or in the case of
2933          * split log writes, on the second, we shut down the file system and
2934          * no iclogs should ever be attempted to be written to disk again.
2935          */
2936         if (!xlog_is_shutdown(log)) {
2937                 ASSERT(iclog->ic_state == XLOG_STATE_SYNCING);
2938                 iclog->ic_state = XLOG_STATE_DONE_SYNC;
2939         }
2940
2941         /*
2942          * Someone could be sleeping prior to writing out the next
2943          * iclog buffer, we wake them all, one will get to do the
2944          * I/O, the others get to wait for the result.
2945          */
2946         wake_up_all(&iclog->ic_write_wait);
2947         spin_unlock(&log->l_icloglock);
2948         xlog_state_do_callback(log);
2949 }
2950
2951 /*
2952  * If the head of the in-core log ring is not (ACTIVE or DIRTY), then we must
2953  * sleep.  We wait on the flush queue on the head iclog as that should be
2954  * the first iclog to complete flushing. Hence if all iclogs are syncing,
2955  * we will wait here and all new writes will sleep until a sync completes.
2956  *
2957  * The in-core logs are used in a circular fashion. They are not used
2958  * out-of-order even when an iclog past the head is free.
2959  *
2960  * return:
2961  *      * log_offset where xlog_write() can start writing into the in-core
2962  *              log's data space.
2963  *      * in-core log pointer to which xlog_write() should write.
2964  *      * boolean indicating this is a continued write to an in-core log.
2965  *              If this is the last write, then the in-core log's offset field
2966  *              needs to be incremented, depending on the amount of data which
2967  *              is copied.
2968  */
2969 STATIC int
2970 xlog_state_get_iclog_space(
2971         struct xlog             *log,
2972         int                     len,
2973         struct xlog_in_core     **iclogp,
2974         struct xlog_ticket      *ticket,
2975         int                     *continued_write,
2976         int                     *logoffsetp)
2977 {
2978         int               log_offset;
2979         xlog_rec_header_t *head;
2980         xlog_in_core_t    *iclog;
2981
2982 restart:
2983         spin_lock(&log->l_icloglock);
2984         if (xlog_is_shutdown(log)) {
2985                 spin_unlock(&log->l_icloglock);
2986                 return -EIO;
2987         }
2988
2989         iclog = log->l_iclog;
2990         if (iclog->ic_state != XLOG_STATE_ACTIVE) {
2991                 XFS_STATS_INC(log->l_mp, xs_log_noiclogs);
2992
2993                 /* Wait for log writes to have flushed */
2994                 xlog_wait(&log->l_flush_wait, &log->l_icloglock);
2995                 goto restart;
2996         }
2997
2998         head = &iclog->ic_header;
2999
3000         atomic_inc(&iclog->ic_refcnt);  /* prevents sync */
3001         log_offset = iclog->ic_offset;
3002
3003         trace_xlog_iclog_get_space(iclog, _RET_IP_);
3004
3005         /* On the 1st write to an iclog, figure out lsn.  This works
3006          * if iclogs marked XLOG_STATE_WANT_SYNC always write out what they are
3007          * committing to.  If the offset is set, that's how many blocks
3008          * must be written.
3009          */
3010         if (log_offset == 0) {
3011                 ticket->t_curr_res -= log->l_iclog_hsize;
3012                 xlog_tic_add_region(ticket,
3013                                     log->l_iclog_hsize,
3014                                     XLOG_REG_TYPE_LRHEADER);
3015                 head->h_cycle = cpu_to_be32(log->l_curr_cycle);
3016                 head->h_lsn = cpu_to_be64(
3017                         xlog_assign_lsn(log->l_curr_cycle, log->l_curr_block));
3018                 ASSERT(log->l_curr_block >= 0);
3019         }
3020
3021         /* If there is enough room to write everything, then do it.  Otherwise,
3022          * claim the rest of the region and make sure the XLOG_STATE_WANT_SYNC
3023          * bit is on, so this will get flushed out.  Don't update ic_offset
3024          * until you know exactly how many bytes get copied.  Therefore, wait
3025          * until later to update ic_offset.
3026          *
3027          * xlog_write() algorithm assumes that at least 2 xlog_op_header_t's
3028          * can fit into remaining data section.
3029          */
3030         if (iclog->ic_size - iclog->ic_offset < 2*sizeof(xlog_op_header_t)) {
3031                 int             error = 0;
3032
3033                 xlog_state_switch_iclogs(log, iclog, iclog->ic_size);
3034
3035                 /*
3036                  * If we are the only one writing to this iclog, sync it to
3037                  * disk.  We need to do an atomic compare and decrement here to
3038                  * avoid racing with concurrent atomic_dec_and_lock() calls in
3039                  * xlog_state_release_iclog() when there is more than one
3040                  * reference to the iclog.
3041                  */
3042                 if (!atomic_add_unless(&iclog->ic_refcnt, -1, 1))
3043                         error = xlog_state_release_iclog(log, iclog);
3044                 spin_unlock(&log->l_icloglock);
3045                 if (error)
3046                         return error;
3047                 goto restart;
3048         }
3049
3050         /* Do we have enough room to write the full amount in the remainder
3051          * of this iclog?  Or must we continue a write on the next iclog and
3052          * mark this iclog as completely taken?  In the case where we switch
3053          * iclogs (to mark it taken), this particular iclog will release/sync
3054          * to disk in xlog_write().
3055          */
3056         if (len <= iclog->ic_size - iclog->ic_offset) {
3057                 *continued_write = 0;
3058                 iclog->ic_offset += len;
3059         } else {
3060                 *continued_write = 1;
3061                 xlog_state_switch_iclogs(log, iclog, iclog->ic_size);
3062         }
3063         *iclogp = iclog;
3064
3065         ASSERT(iclog->ic_offset <= iclog->ic_size);
3066         spin_unlock(&log->l_icloglock);
3067
3068         *logoffsetp = log_offset;
3069         return 0;
3070 }
3071
3072 /*
3073  * The first cnt-1 times a ticket goes through here we don't need to move the
3074  * grant write head because the permanent reservation has reserved cnt times the
3075  * unit amount.  Release part of current permanent unit reservation and reset
3076  * current reservation to be one units worth.  Also move grant reservation head
3077  * forward.
3078  */
3079 void
3080 xfs_log_ticket_regrant(
3081         struct xlog             *log,
3082         struct xlog_ticket      *ticket)
3083 {
3084         trace_xfs_log_ticket_regrant(log, ticket);
3085
3086         if (ticket->t_cnt > 0)
3087                 ticket->t_cnt--;
3088
3089         xlog_grant_sub_space(log, &log->l_reserve_head.grant,
3090                                         ticket->t_curr_res);
3091         xlog_grant_sub_space(log, &log->l_write_head.grant,
3092                                         ticket->t_curr_res);
3093         ticket->t_curr_res = ticket->t_unit_res;
3094         xlog_tic_reset_res(ticket);
3095
3096         trace_xfs_log_ticket_regrant_sub(log, ticket);
3097
3098         /* just return if we still have some of the pre-reserved space */
3099         if (!ticket->t_cnt) {
3100                 xlog_grant_add_space(log, &log->l_reserve_head.grant,
3101                                      ticket->t_unit_res);
3102                 trace_xfs_log_ticket_regrant_exit(log, ticket);
3103
3104                 ticket->t_curr_res = ticket->t_unit_res;
3105                 xlog_tic_reset_res(ticket);
3106         }
3107
3108         xfs_log_ticket_put(ticket);
3109 }
3110
3111 /*
3112  * Give back the space left from a reservation.
3113  *
3114  * All the information we need to make a correct determination of space left
3115  * is present.  For non-permanent reservations, things are quite easy.  The
3116  * count should have been decremented to zero.  We only need to deal with the
3117  * space remaining in the current reservation part of the ticket.  If the
3118  * ticket contains a permanent reservation, there may be left over space which
3119  * needs to be released.  A count of N means that N-1 refills of the current
3120  * reservation can be done before we need to ask for more space.  The first
3121  * one goes to fill up the first current reservation.  Once we run out of
3122  * space, the count will stay at zero and the only space remaining will be
3123  * in the current reservation field.
3124  */
3125 void
3126 xfs_log_ticket_ungrant(
3127         struct xlog             *log,
3128         struct xlog_ticket      *ticket)
3129 {
3130         int                     bytes;
3131
3132         trace_xfs_log_ticket_ungrant(log, ticket);
3133
3134         if (ticket->t_cnt > 0)
3135                 ticket->t_cnt--;
3136
3137         trace_xfs_log_ticket_ungrant_sub(log, ticket);
3138
3139         /*
3140          * If this is a permanent reservation ticket, we may be able to free
3141          * up more space based on the remaining count.
3142          */
3143         bytes = ticket->t_curr_res;
3144         if (ticket->t_cnt > 0) {
3145                 ASSERT(ticket->t_flags & XLOG_TIC_PERM_RESERV);
3146                 bytes += ticket->t_unit_res*ticket->t_cnt;
3147         }
3148
3149         xlog_grant_sub_space(log, &log->l_reserve_head.grant, bytes);
3150         xlog_grant_sub_space(log, &log->l_write_head.grant, bytes);
3151
3152         trace_xfs_log_ticket_ungrant_exit(log, ticket);
3153
3154         xfs_log_space_wake(log->l_mp);
3155         xfs_log_ticket_put(ticket);
3156 }
3157
3158 /*
3159  * This routine will mark the current iclog in the ring as WANT_SYNC and move
3160  * the current iclog pointer to the next iclog in the ring.
3161  */
3162 void
3163 xlog_state_switch_iclogs(
3164         struct xlog             *log,
3165         struct xlog_in_core     *iclog,
3166         int                     eventual_size)
3167 {
3168         ASSERT(iclog->ic_state == XLOG_STATE_ACTIVE);
3169         assert_spin_locked(&log->l_icloglock);
3170         trace_xlog_iclog_switch(iclog, _RET_IP_);
3171
3172         if (!eventual_size)
3173                 eventual_size = iclog->ic_offset;
3174         iclog->ic_state = XLOG_STATE_WANT_SYNC;
3175         iclog->ic_header.h_prev_block = cpu_to_be32(log->l_prev_block);
3176         log->l_prev_block = log->l_curr_block;
3177         log->l_prev_cycle = log->l_curr_cycle;
3178
3179         /* roll log?: ic_offset changed later */
3180         log->l_curr_block += BTOBB(eventual_size)+BTOBB(log->l_iclog_hsize);
3181
3182         /* Round up to next log-sunit */
3183         if (log->l_iclog_roundoff > BBSIZE) {
3184                 uint32_t sunit_bb = BTOBB(log->l_iclog_roundoff);
3185                 log->l_curr_block = roundup(log->l_curr_block, sunit_bb);
3186         }
3187
3188         if (log->l_curr_block >= log->l_logBBsize) {
3189                 /*
3190                  * Rewind the current block before the cycle is bumped to make
3191                  * sure that the combined LSN never transiently moves forward
3192                  * when the log wraps to the next cycle. This is to support the
3193                  * unlocked sample of these fields from xlog_valid_lsn(). Most
3194                  * other cases should acquire l_icloglock.
3195                  */
3196                 log->l_curr_block -= log->l_logBBsize;
3197                 ASSERT(log->l_curr_block >= 0);
3198                 smp_wmb();
3199                 log->l_curr_cycle++;
3200                 if (log->l_curr_cycle == XLOG_HEADER_MAGIC_NUM)
3201                         log->l_curr_cycle++;
3202         }
3203         ASSERT(iclog == log->l_iclog);
3204         log->l_iclog = iclog->ic_next;
3205 }
3206
3207 /*
3208  * Force the iclog to disk and check if the iclog has been completed before
3209  * xlog_force_iclog() returns. This can happen on synchronous (e.g.
3210  * pmem) or fast async storage because we drop the icloglock to issue the IO.
3211  * If completion has already occurred, tell the caller so that it can avoid an
3212  * unnecessary wait on the iclog.
3213  */
3214 static int
3215 xlog_force_and_check_iclog(
3216         struct xlog_in_core     *iclog,
3217         bool                    *completed)
3218 {
3219         xfs_lsn_t               lsn = be64_to_cpu(iclog->ic_header.h_lsn);
3220         int                     error;
3221
3222         *completed = false;
3223         error = xlog_force_iclog(iclog);
3224         if (error)
3225                 return error;
3226
3227         /*
3228          * If the iclog has already been completed and reused the header LSN
3229          * will have been rewritten by completion
3230          */
3231         if (be64_to_cpu(iclog->ic_header.h_lsn) != lsn)
3232                 *completed = true;
3233         return 0;
3234 }
3235
3236 /*
3237  * Write out all data in the in-core log as of this exact moment in time.
3238  *
3239  * Data may be written to the in-core log during this call.  However,
3240  * we don't guarantee this data will be written out.  A change from past
3241  * implementation means this routine will *not* write out zero length LRs.
3242  *
3243  * Basically, we try and perform an intelligent scan of the in-core logs.
3244  * If we determine there is no flushable data, we just return.  There is no
3245  * flushable data if:
3246  *
3247  *      1. the current iclog is active and has no data; the previous iclog
3248  *              is in the active or dirty state.
3249  *      2. the current iclog is drity, and the previous iclog is in the
3250  *              active or dirty state.
3251  *
3252  * We may sleep if:
3253  *
3254  *      1. the current iclog is not in the active nor dirty state.
3255  *      2. the current iclog dirty, and the previous iclog is not in the
3256  *              active nor dirty state.
3257  *      3. the current iclog is active, and there is another thread writing
3258  *              to this particular iclog.
3259  *      4. a) the current iclog is active and has no other writers
3260  *         b) when we return from flushing out this iclog, it is still
3261  *              not in the active nor dirty state.
3262  */
3263 int
3264 xfs_log_force(
3265         struct xfs_mount        *mp,
3266         uint                    flags)
3267 {
3268         struct xlog             *log = mp->m_log;
3269         struct xlog_in_core     *iclog;
3270
3271         XFS_STATS_INC(mp, xs_log_force);
3272         trace_xfs_log_force(mp, 0, _RET_IP_);
3273
3274         xlog_cil_force(log);
3275
3276         spin_lock(&log->l_icloglock);
3277         if (xlog_is_shutdown(log))
3278                 goto out_error;
3279
3280         iclog = log->l_iclog;
3281         trace_xlog_iclog_force(iclog, _RET_IP_);
3282
3283         if (iclog->ic_state == XLOG_STATE_DIRTY ||
3284             (iclog->ic_state == XLOG_STATE_ACTIVE &&
3285              atomic_read(&iclog->ic_refcnt) == 0 && iclog->ic_offset == 0)) {
3286                 /*
3287                  * If the head is dirty or (active and empty), then we need to
3288                  * look at the previous iclog.
3289                  *
3290                  * If the previous iclog is active or dirty we are done.  There
3291                  * is nothing to sync out. Otherwise, we attach ourselves to the
3292                  * previous iclog and go to sleep.
3293                  */
3294                 iclog = iclog->ic_prev;
3295         } else if (iclog->ic_state == XLOG_STATE_ACTIVE) {
3296                 if (atomic_read(&iclog->ic_refcnt) == 0) {
3297                         /* We have exclusive access to this iclog. */
3298                         bool    completed;
3299
3300                         if (xlog_force_and_check_iclog(iclog, &completed))
3301                                 goto out_error;
3302
3303                         if (completed)
3304                                 goto out_unlock;
3305                 } else {
3306                         /*
3307                          * Someone else is still writing to this iclog, so we
3308                          * need to ensure that when they release the iclog it
3309                          * gets synced immediately as we may be waiting on it.
3310                          */
3311                         xlog_state_switch_iclogs(log, iclog, 0);
3312                 }
3313         }
3314
3315         /*
3316          * The iclog we are about to wait on may contain the checkpoint pushed
3317          * by the above xlog_cil_force() call, but it may not have been pushed
3318          * to disk yet. Like the ACTIVE case above, we need to make sure caches
3319          * are flushed when this iclog is written.
3320          */
3321         if (iclog->ic_state == XLOG_STATE_WANT_SYNC)
3322                 iclog->ic_flags |= XLOG_ICL_NEED_FLUSH | XLOG_ICL_NEED_FUA;
3323
3324         if (flags & XFS_LOG_SYNC)
3325                 return xlog_wait_on_iclog(iclog);
3326 out_unlock:
3327         spin_unlock(&log->l_icloglock);
3328         return 0;
3329 out_error:
3330         spin_unlock(&log->l_icloglock);
3331         return -EIO;
3332 }
3333
3334 /*
3335  * Force the log to a specific LSN.
3336  *
3337  * If an iclog with that lsn can be found:
3338  *      If it is in the DIRTY state, just return.
3339  *      If it is in the ACTIVE state, move the in-core log into the WANT_SYNC
3340  *              state and go to sleep or return.
3341  *      If it is in any other state, go to sleep or return.
3342  *
3343  * Synchronous forces are implemented with a wait queue.  All callers trying
3344  * to force a given lsn to disk must wait on the queue attached to the
3345  * specific in-core log.  When given in-core log finally completes its write
3346  * to disk, that thread will wake up all threads waiting on the queue.
3347  */
3348 static int
3349 xlog_force_lsn(
3350         struct xlog             *log,
3351         xfs_lsn_t               lsn,
3352         uint                    flags,
3353         int                     *log_flushed,
3354         bool                    already_slept)
3355 {
3356         struct xlog_in_core     *iclog;
3357         bool                    completed;
3358
3359         spin_lock(&log->l_icloglock);
3360         if (xlog_is_shutdown(log))
3361                 goto out_error;
3362
3363         iclog = log->l_iclog;
3364         while (be64_to_cpu(iclog->ic_header.h_lsn) != lsn) {
3365                 trace_xlog_iclog_force_lsn(iclog, _RET_IP_);
3366                 iclog = iclog->ic_next;
3367                 if (iclog == log->l_iclog)
3368                         goto out_unlock;
3369         }
3370
3371         switch (iclog->ic_state) {
3372         case XLOG_STATE_ACTIVE:
3373                 /*
3374                  * We sleep here if we haven't already slept (e.g. this is the
3375                  * first time we've looked at the correct iclog buf) and the
3376                  * buffer before us is going to be sync'ed.  The reason for this
3377                  * is that if we are doing sync transactions here, by waiting
3378                  * for the previous I/O to complete, we can allow a few more
3379                  * transactions into this iclog before we close it down.
3380                  *
3381                  * Otherwise, we mark the buffer WANT_SYNC, and bump up the
3382                  * refcnt so we can release the log (which drops the ref count).
3383                  * The state switch keeps new transaction commits from using
3384                  * this buffer.  When the current commits finish writing into
3385                  * the buffer, the refcount will drop to zero and the buffer
3386                  * will go out then.
3387                  */
3388                 if (!already_slept &&
3389                     (iclog->ic_prev->ic_state == XLOG_STATE_WANT_SYNC ||
3390                      iclog->ic_prev->ic_state == XLOG_STATE_SYNCING)) {
3391                         xlog_wait(&iclog->ic_prev->ic_write_wait,
3392                                         &log->l_icloglock);
3393                         return -EAGAIN;
3394                 }
3395                 if (xlog_force_and_check_iclog(iclog, &completed))
3396                         goto out_error;
3397                 if (log_flushed)
3398                         *log_flushed = 1;
3399                 if (completed)
3400                         goto out_unlock;
3401                 break;
3402         case XLOG_STATE_WANT_SYNC:
3403                 /*
3404                  * This iclog may contain the checkpoint pushed by the
3405                  * xlog_cil_force_seq() call, but there are other writers still
3406                  * accessing it so it hasn't been pushed to disk yet. Like the
3407                  * ACTIVE case above, we need to make sure caches are flushed
3408                  * when this iclog is written.
3409                  */
3410                 iclog->ic_flags |= XLOG_ICL_NEED_FLUSH | XLOG_ICL_NEED_FUA;
3411                 break;
3412         default:
3413                 /*
3414                  * The entire checkpoint was written by the CIL force and is on
3415                  * its way to disk already. It will be stable when it
3416                  * completes, so we don't need to manipulate caches here at all.
3417                  * We just need to wait for completion if necessary.
3418                  */
3419                 break;
3420         }
3421
3422         if (flags & XFS_LOG_SYNC)
3423                 return xlog_wait_on_iclog(iclog);
3424 out_unlock:
3425         spin_unlock(&log->l_icloglock);
3426         return 0;
3427 out_error:
3428         spin_unlock(&log->l_icloglock);
3429         return -EIO;
3430 }
3431
3432 /*
3433  * Force the log to a specific checkpoint sequence.
3434  *
3435  * First force the CIL so that all the required changes have been flushed to the
3436  * iclogs. If the CIL force completed it will return a commit LSN that indicates
3437  * the iclog that needs to be flushed to stable storage. If the caller needs
3438  * a synchronous log force, we will wait on the iclog with the LSN returned by
3439  * xlog_cil_force_seq() to be completed.
3440  */
3441 int
3442 xfs_log_force_seq(
3443         struct xfs_mount        *mp,
3444         xfs_csn_t               seq,
3445         uint                    flags,
3446         int                     *log_flushed)
3447 {
3448         struct xlog             *log = mp->m_log;
3449         xfs_lsn_t               lsn;
3450         int                     ret;
3451         ASSERT(seq != 0);
3452
3453         XFS_STATS_INC(mp, xs_log_force);
3454         trace_xfs_log_force(mp, seq, _RET_IP_);
3455
3456         lsn = xlog_cil_force_seq(log, seq);
3457         if (lsn == NULLCOMMITLSN)
3458                 return 0;
3459
3460         ret = xlog_force_lsn(log, lsn, flags, log_flushed, false);
3461         if (ret == -EAGAIN) {
3462                 XFS_STATS_INC(mp, xs_log_force_sleep);
3463                 ret = xlog_force_lsn(log, lsn, flags, log_flushed, true);
3464         }
3465         return ret;
3466 }
3467
3468 /*
3469  * Free a used ticket when its refcount falls to zero.
3470  */
3471 void
3472 xfs_log_ticket_put(
3473         xlog_ticket_t   *ticket)
3474 {
3475         ASSERT(atomic_read(&ticket->t_ref) > 0);
3476         if (atomic_dec_and_test(&ticket->t_ref))
3477                 kmem_cache_free(xfs_log_ticket_zone, ticket);
3478 }
3479
3480 xlog_ticket_t *
3481 xfs_log_ticket_get(
3482         xlog_ticket_t   *ticket)
3483 {
3484         ASSERT(atomic_read(&ticket->t_ref) > 0);
3485         atomic_inc(&ticket->t_ref);
3486         return ticket;
3487 }
3488
3489 /*
3490  * Figure out the total log space unit (in bytes) that would be
3491  * required for a log ticket.
3492  */
3493 static int
3494 xlog_calc_unit_res(
3495         struct xlog             *log,
3496         int                     unit_bytes)
3497 {
3498         int                     iclog_space;
3499         uint                    num_headers;
3500
3501         /*
3502          * Permanent reservations have up to 'cnt'-1 active log operations
3503          * in the log.  A unit in this case is the amount of space for one
3504          * of these log operations.  Normal reservations have a cnt of 1
3505          * and their unit amount is the total amount of space required.
3506          *
3507          * The following lines of code account for non-transaction data
3508          * which occupy space in the on-disk log.
3509          *
3510          * Normal form of a transaction is:
3511          * <oph><trans-hdr><start-oph><reg1-oph><reg1><reg2-oph>...<commit-oph>
3512          * and then there are LR hdrs, split-recs and roundoff at end of syncs.
3513          *
3514          * We need to account for all the leadup data and trailer data
3515          * around the transaction data.
3516          * And then we need to account for the worst case in terms of using
3517          * more space.
3518          * The worst case will happen if:
3519          * - the placement of the transaction happens to be such that the
3520          *   roundoff is at its maximum
3521          * - the transaction data is synced before the commit record is synced
3522          *   i.e. <transaction-data><roundoff> | <commit-rec><roundoff>
3523          *   Therefore the commit record is in its own Log Record.
3524          *   This can happen as the commit record is called with its
3525          *   own region to xlog_write().
3526          *   This then means that in the worst case, roundoff can happen for
3527          *   the commit-rec as well.
3528          *   The commit-rec is smaller than padding in this scenario and so it is
3529          *   not added separately.
3530          */
3531
3532         /* for trans header */
3533         unit_bytes += sizeof(xlog_op_header_t);
3534         unit_bytes += sizeof(xfs_trans_header_t);
3535
3536         /* for start-rec */
3537         unit_bytes += sizeof(xlog_op_header_t);
3538
3539         /*
3540          * for LR headers - the space for data in an iclog is the size minus
3541          * the space used for the headers. If we use the iclog size, then we
3542          * undercalculate the number of headers required.
3543          *
3544          * Furthermore - the addition of op headers for split-recs might
3545          * increase the space required enough to require more log and op
3546          * headers, so take that into account too.
3547          *
3548          * IMPORTANT: This reservation makes the assumption that if this
3549          * transaction is the first in an iclog and hence has the LR headers
3550          * accounted to it, then the remaining space in the iclog is
3551          * exclusively for this transaction.  i.e. if the transaction is larger
3552          * than the iclog, it will be the only thing in that iclog.
3553          * Fundamentally, this means we must pass the entire log vector to
3554          * xlog_write to guarantee this.
3555          */
3556         iclog_space = log->l_iclog_size - log->l_iclog_hsize;
3557         num_headers = howmany(unit_bytes, iclog_space);
3558
3559         /* for split-recs - ophdrs added when data split over LRs */
3560         unit_bytes += sizeof(xlog_op_header_t) * num_headers;
3561
3562         /* add extra header reservations if we overrun */
3563         while (!num_headers ||
3564                howmany(unit_bytes, iclog_space) > num_headers) {
3565                 unit_bytes += sizeof(xlog_op_header_t);
3566                 num_headers++;
3567         }
3568         unit_bytes += log->l_iclog_hsize * num_headers;
3569
3570         /* for commit-rec LR header - note: padding will subsume the ophdr */
3571         unit_bytes += log->l_iclog_hsize;
3572
3573         /* roundoff padding for transaction data and one for commit record */
3574         unit_bytes += 2 * log->l_iclog_roundoff;
3575
3576         return unit_bytes;
3577 }
3578
3579 int
3580 xfs_log_calc_unit_res(
3581         struct xfs_mount        *mp,
3582         int                     unit_bytes)
3583 {
3584         return xlog_calc_unit_res(mp->m_log, unit_bytes);
3585 }
3586
3587 /*
3588  * Allocate and initialise a new log ticket.
3589  */
3590 struct xlog_ticket *
3591 xlog_ticket_alloc(
3592         struct xlog             *log,
3593         int                     unit_bytes,
3594         int                     cnt,
3595         char                    client,
3596         bool                    permanent)
3597 {
3598         struct xlog_ticket      *tic;
3599         int                     unit_res;
3600
3601         tic = kmem_cache_zalloc(xfs_log_ticket_zone, GFP_NOFS | __GFP_NOFAIL);
3602
3603         unit_res = xlog_calc_unit_res(log, unit_bytes);
3604
3605         atomic_set(&tic->t_ref, 1);
3606         tic->t_task             = current;
3607         INIT_LIST_HEAD(&tic->t_queue);
3608         tic->t_unit_res         = unit_res;
3609         tic->t_curr_res         = unit_res;
3610         tic->t_cnt              = cnt;
3611         tic->t_ocnt             = cnt;
3612         tic->t_tid              = prandom_u32();
3613         tic->t_clientid         = client;
3614         if (permanent)
3615                 tic->t_flags |= XLOG_TIC_PERM_RESERV;
3616
3617         xlog_tic_reset_res(tic);
3618
3619         return tic;
3620 }
3621
3622 #if defined(DEBUG)
3623 /*
3624  * Make sure that the destination ptr is within the valid data region of
3625  * one of the iclogs.  This uses backup pointers stored in a different
3626  * part of the log in case we trash the log structure.
3627  */
3628 STATIC void
3629 xlog_verify_dest_ptr(
3630         struct xlog     *log,
3631         void            *ptr)
3632 {
3633         int i;
3634         int good_ptr = 0;
3635
3636         for (i = 0; i < log->l_iclog_bufs; i++) {
3637                 if (ptr >= log->l_iclog_bak[i] &&
3638                     ptr <= log->l_iclog_bak[i] + log->l_iclog_size)
3639                         good_ptr++;
3640         }
3641
3642         if (!good_ptr)
3643                 xfs_emerg(log->l_mp, "%s: invalid ptr", __func__);
3644 }
3645
3646 /*
3647  * Check to make sure the grant write head didn't just over lap the tail.  If
3648  * the cycles are the same, we can't be overlapping.  Otherwise, make sure that
3649  * the cycles differ by exactly one and check the byte count.
3650  *
3651  * This check is run unlocked, so can give false positives. Rather than assert
3652  * on failures, use a warn-once flag and a panic tag to allow the admin to
3653  * determine if they want to panic the machine when such an error occurs. For
3654  * debug kernels this will have the same effect as using an assert but, unlinke
3655  * an assert, it can be turned off at runtime.
3656  */
3657 STATIC void
3658 xlog_verify_grant_tail(
3659         struct xlog     *log)
3660 {
3661         int             tail_cycle, tail_blocks;
3662         int             cycle, space;
3663
3664         xlog_crack_grant_head(&log->l_write_head.grant, &cycle, &space);
3665         xlog_crack_atomic_lsn(&log->l_tail_lsn, &tail_cycle, &tail_blocks);
3666         if (tail_cycle != cycle) {
3667                 if (cycle - 1 != tail_cycle &&
3668                     !test_and_set_bit(XLOG_TAIL_WARN, &log->l_opstate)) {
3669                         xfs_alert_tag(log->l_mp, XFS_PTAG_LOGRES,
3670                                 "%s: cycle - 1 != tail_cycle", __func__);
3671                 }
3672
3673                 if (space > BBTOB(tail_blocks) &&
3674                     !test_and_set_bit(XLOG_TAIL_WARN, &log->l_opstate)) {
3675                         xfs_alert_tag(log->l_mp, XFS_PTAG_LOGRES,
3676                                 "%s: space > BBTOB(tail_blocks)", __func__);
3677                 }
3678         }
3679 }
3680
3681 /* check if it will fit */
3682 STATIC void
3683 xlog_verify_tail_lsn(
3684         struct xlog             *log,
3685         struct xlog_in_core     *iclog)
3686 {
3687         xfs_lsn_t       tail_lsn = be64_to_cpu(iclog->ic_header.h_tail_lsn);
3688         int             blocks;
3689
3690     if (CYCLE_LSN(tail_lsn) == log->l_prev_cycle) {
3691         blocks =
3692             log->l_logBBsize - (log->l_prev_block - BLOCK_LSN(tail_lsn));
3693         if (blocks < BTOBB(iclog->ic_offset)+BTOBB(log->l_iclog_hsize))
3694                 xfs_emerg(log->l_mp, "%s: ran out of log space", __func__);
3695     } else {
3696         ASSERT(CYCLE_LSN(tail_lsn)+1 == log->l_prev_cycle);
3697
3698         if (BLOCK_LSN(tail_lsn) == log->l_prev_block)
3699                 xfs_emerg(log->l_mp, "%s: tail wrapped", __func__);
3700
3701         blocks = BLOCK_LSN(tail_lsn) - log->l_prev_block;
3702         if (blocks < BTOBB(iclog->ic_offset) + 1)
3703                 xfs_emerg(log->l_mp, "%s: ran out of log space", __func__);
3704     }
3705 }
3706
3707 /*
3708  * Perform a number of checks on the iclog before writing to disk.
3709  *
3710  * 1. Make sure the iclogs are still circular
3711  * 2. Make sure we have a good magic number
3712  * 3. Make sure we don't have magic numbers in the data
3713  * 4. Check fields of each log operation header for:
3714  *      A. Valid client identifier
3715  *      B. tid ptr value falls in valid ptr space (user space code)
3716  *      C. Length in log record header is correct according to the
3717  *              individual operation headers within record.
3718  * 5. When a bwrite will occur within 5 blocks of the front of the physical
3719  *      log, check the preceding blocks of the physical log to make sure all
3720  *      the cycle numbers agree with the current cycle number.
3721  */
3722 STATIC void
3723 xlog_verify_iclog(
3724         struct xlog             *log,
3725         struct xlog_in_core     *iclog,
3726         int                     count)
3727 {
3728         xlog_op_header_t        *ophead;
3729         xlog_in_core_t          *icptr;
3730         xlog_in_core_2_t        *xhdr;
3731         void                    *base_ptr, *ptr, *p;
3732         ptrdiff_t               field_offset;
3733         uint8_t                 clientid;
3734         int                     len, i, j, k, op_len;
3735         int                     idx;
3736
3737         /* check validity of iclog pointers */
3738         spin_lock(&log->l_icloglock);
3739         icptr = log->l_iclog;
3740         for (i = 0; i < log->l_iclog_bufs; i++, icptr = icptr->ic_next)
3741                 ASSERT(icptr);
3742
3743         if (icptr != log->l_iclog)
3744                 xfs_emerg(log->l_mp, "%s: corrupt iclog ring", __func__);
3745         spin_unlock(&log->l_icloglock);
3746
3747         /* check log magic numbers */
3748         if (iclog->ic_header.h_magicno != cpu_to_be32(XLOG_HEADER_MAGIC_NUM))
3749                 xfs_emerg(log->l_mp, "%s: invalid magic num", __func__);
3750
3751         base_ptr = ptr = &iclog->ic_header;
3752         p = &iclog->ic_header;
3753         for (ptr += BBSIZE; ptr < base_ptr + count; ptr += BBSIZE) {
3754                 if (*(__be32 *)ptr == cpu_to_be32(XLOG_HEADER_MAGIC_NUM))
3755                         xfs_emerg(log->l_mp, "%s: unexpected magic num",
3756                                 __func__);
3757         }
3758
3759         /* check fields */
3760         len = be32_to_cpu(iclog->ic_header.h_num_logops);
3761         base_ptr = ptr = iclog->ic_datap;
3762         ophead = ptr;
3763         xhdr = iclog->ic_data;
3764         for (i = 0; i < len; i++) {
3765                 ophead = ptr;
3766
3767                 /* clientid is only 1 byte */
3768                 p = &ophead->oh_clientid;
3769                 field_offset = p - base_ptr;
3770                 if (field_offset & 0x1ff) {
3771                         clientid = ophead->oh_clientid;
3772                 } else {
3773                         idx = BTOBBT((char *)&ophead->oh_clientid - iclog->ic_datap);
3774                         if (idx >= (XLOG_HEADER_CYCLE_SIZE / BBSIZE)) {
3775                                 j = idx / (XLOG_HEADER_CYCLE_SIZE / BBSIZE);
3776                                 k = idx % (XLOG_HEADER_CYCLE_SIZE / BBSIZE);
3777                                 clientid = xlog_get_client_id(
3778                                         xhdr[j].hic_xheader.xh_cycle_data[k]);
3779                         } else {
3780                                 clientid = xlog_get_client_id(
3781                                         iclog->ic_header.h_cycle_data[idx]);
3782                         }
3783                 }
3784                 if (clientid != XFS_TRANSACTION && clientid != XFS_LOG)
3785                         xfs_warn(log->l_mp,
3786                                 "%s: invalid clientid %d op "PTR_FMT" offset 0x%lx",
3787                                 __func__, clientid, ophead,
3788                                 (unsigned long)field_offset);
3789
3790                 /* check length */
3791                 p = &ophead->oh_len;
3792                 field_offset = p - base_ptr;
3793                 if (field_offset & 0x1ff) {
3794                         op_len = be32_to_cpu(ophead->oh_len);
3795                 } else {
3796                         idx = BTOBBT((uintptr_t)&ophead->oh_len -
3797                                     (uintptr_t)iclog->ic_datap);
3798                         if (idx >= (XLOG_HEADER_CYCLE_SIZE / BBSIZE)) {
3799                                 j = idx / (XLOG_HEADER_CYCLE_SIZE / BBSIZE);
3800                                 k = idx % (XLOG_HEADER_CYCLE_SIZE / BBSIZE);
3801                                 op_len = be32_to_cpu(xhdr[j].hic_xheader.xh_cycle_data[k]);
3802                         } else {
3803                                 op_len = be32_to_cpu(iclog->ic_header.h_cycle_data[idx]);
3804                         }
3805                 }
3806                 ptr += sizeof(xlog_op_header_t) + op_len;
3807         }
3808 }
3809 #endif
3810
3811 /*
3812  * Perform a forced shutdown on the log. This should be called once and once
3813  * only by the high level filesystem shutdown code to shut the log subsystem
3814  * down cleanly.
3815  *
3816  * Our main objectives here are to make sure that:
3817  *      a. if the shutdown was not due to a log IO error, flush the logs to
3818  *         disk. Anything modified after this is ignored.
3819  *      b. the log gets atomically marked 'XLOG_IO_ERROR' for all interested
3820  *         parties to find out. Nothing new gets queued after this is done.
3821  *      c. Tasks sleeping on log reservations, pinned objects and
3822  *         other resources get woken up.
3823  *
3824  * Return true if the shutdown cause was a log IO error and we actually shut the
3825  * log down.
3826  */
3827 bool
3828 xlog_force_shutdown(
3829         struct xlog     *log,
3830         int             shutdown_flags)
3831 {
3832         bool            log_error = (shutdown_flags & SHUTDOWN_LOG_IO_ERROR);
3833
3834         /*
3835          * If this happens during log recovery then we aren't using the runtime
3836          * log mechanisms yet so there's nothing to shut down.
3837          */
3838         if (!log || xlog_in_recovery(log))
3839                 return false;
3840
3841         ASSERT(!xlog_is_shutdown(log));
3842
3843         /*
3844          * Flush all the completed transactions to disk before marking the log
3845          * being shut down. We need to do this first as shutting down the log
3846          * before the force will prevent the log force from flushing the iclogs
3847          * to disk.
3848          *
3849          * Re-entry due to a log IO error shutdown during the log force is
3850          * prevented by the atomicity of higher level shutdown code.
3851          */
3852         if (!log_error)
3853                 xfs_log_force(log->l_mp, XFS_LOG_SYNC);
3854
3855         /*
3856          * Atomically set the shutdown state. If the shutdown state is already
3857          * set, there someone else is performing the shutdown and so we are done
3858          * here. This should never happen because we should only ever get called
3859          * once by the first shutdown caller.
3860          *
3861          * Much of the log state machine transitions assume that shutdown state
3862          * cannot change once they hold the log->l_icloglock. Hence we need to
3863          * hold that lock here, even though we use the atomic test_and_set_bit()
3864          * operation to set the shutdown state.
3865          */
3866         spin_lock(&log->l_icloglock);
3867         if (test_and_set_bit(XLOG_IO_ERROR, &log->l_opstate)) {
3868                 spin_unlock(&log->l_icloglock);
3869                 ASSERT(0);
3870                 return false;
3871         }
3872         spin_unlock(&log->l_icloglock);
3873
3874         /*
3875          * We don't want anybody waiting for log reservations after this. That
3876          * means we have to wake up everybody queued up on reserveq as well as
3877          * writeq.  In addition, we make sure in xlog_{re}grant_log_space that
3878          * we don't enqueue anything once the SHUTDOWN flag is set, and this
3879          * action is protected by the grant locks.
3880          */
3881         xlog_grant_head_wake_all(&log->l_reserve_head);
3882         xlog_grant_head_wake_all(&log->l_write_head);
3883
3884         /*
3885          * Wake up everybody waiting on xfs_log_force. Wake the CIL push first
3886          * as if the log writes were completed. The abort handling in the log
3887          * item committed callback functions will do this again under lock to
3888          * avoid races.
3889          */
3890         spin_lock(&log->l_cilp->xc_push_lock);
3891         wake_up_all(&log->l_cilp->xc_start_wait);
3892         wake_up_all(&log->l_cilp->xc_commit_wait);
3893         spin_unlock(&log->l_cilp->xc_push_lock);
3894
3895         spin_lock(&log->l_icloglock);
3896         xlog_state_shutdown_callbacks(log);
3897         spin_unlock(&log->l_icloglock);
3898
3899         return log_error;
3900 }
3901
3902 STATIC int
3903 xlog_iclogs_empty(
3904         struct xlog     *log)
3905 {
3906         xlog_in_core_t  *iclog;
3907
3908         iclog = log->l_iclog;
3909         do {
3910                 /* endianness does not matter here, zero is zero in
3911                  * any language.
3912                  */
3913                 if (iclog->ic_header.h_num_logops)
3914                         return 0;
3915                 iclog = iclog->ic_next;
3916         } while (iclog != log->l_iclog);
3917         return 1;
3918 }
3919
3920 /*
3921  * Verify that an LSN stamped into a piece of metadata is valid. This is
3922  * intended for use in read verifiers on v5 superblocks.
3923  */
3924 bool
3925 xfs_log_check_lsn(
3926         struct xfs_mount        *mp,
3927         xfs_lsn_t               lsn)
3928 {
3929         struct xlog             *log = mp->m_log;
3930         bool                    valid;
3931
3932         /*
3933          * norecovery mode skips mount-time log processing and unconditionally
3934          * resets the in-core LSN. We can't validate in this mode, but
3935          * modifications are not allowed anyways so just return true.
3936          */
3937         if (xfs_has_norecovery(mp))
3938                 return true;
3939
3940         /*
3941          * Some metadata LSNs are initialized to NULL (e.g., the agfl). This is
3942          * handled by recovery and thus safe to ignore here.
3943          */
3944         if (lsn == NULLCOMMITLSN)
3945                 return true;
3946
3947         valid = xlog_valid_lsn(mp->m_log, lsn);
3948
3949         /* warn the user about what's gone wrong before verifier failure */
3950         if (!valid) {
3951                 spin_lock(&log->l_icloglock);
3952                 xfs_warn(mp,
3953 "Corruption warning: Metadata has LSN (%d:%d) ahead of current LSN (%d:%d). "
3954 "Please unmount and run xfs_repair (>= v4.3) to resolve.",
3955                          CYCLE_LSN(lsn), BLOCK_LSN(lsn),
3956                          log->l_curr_cycle, log->l_curr_block);
3957                 spin_unlock(&log->l_icloglock);
3958         }
3959
3960         return valid;
3961 }
3962
3963 /*
3964  * Notify the log that we're about to start using a feature that is protected
3965  * by a log incompat feature flag.  This will prevent log covering from
3966  * clearing those flags.
3967  */
3968 void
3969 xlog_use_incompat_feat(
3970         struct xlog             *log)
3971 {
3972         down_read(&log->l_incompat_users);
3973 }
3974
3975 /* Notify the log that we've finished using log incompat features. */
3976 void
3977 xlog_drop_incompat_feat(
3978         struct xlog             *log)
3979 {
3980         up_read(&log->l_incompat_users);
3981 }