Как обрабатывать файл построчно в сценарии Linux Bash
Довольно легко прочитать содержимое текстового файла Linux построчно в сценарии оболочки – если вы имеете дело с некоторыми тонкими ошибками. Вот как это сделать безопасным способом.
Файлы, текст и идиомы
У каждого языка программирования есть набор идиом. Это стандартные простые способы решения ряда общих задач. Это элементарный способ или способ по умолчанию использовать одну из функций языка, с которым работает программист. Они становятся частью набора ментальных планов программиста.
Хорошими примерами являются такие действия, как чтение данных из файлов, работа с циклами и замена значений двух переменных. Программист будет знать по крайней мере один способ достичь своих целей обычным или ванильным способом. Возможно, этого будет достаточно для удовлетворения текущих требований. Или, может быть, они украсят код, чтобы сделать его более эффективным или применимым к конкретному решению, которое они разрабатывают. Но иметь под рукой идиому из строительных блоков – отличная отправная точка.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Знание и понимание идиом одного языка также упрощает освоение нового языка программирования. Знание того, как вещи построены на одном языке, и поиск эквивалента – или наиболее близкого – на другом языке – хороший способ оценить сходства и различия между языками программирования, которые вы уже знаете, и тем, который вы изучаете.
Чтение строк из файла: однострочный
В Bash вы можете использовать while
цикл в командной строке, чтобы прочитать каждую строку текста из файла и что-то с ней сделать. Наш текстовый файл называется «data.txt». Он содержит список месяцев в году.
January February March . . October November December
Наш простой однострочный текст:
while read line; do echo $line; done < data.txt
В while
Цикл читает строку из файла, и поток выполнения маленькой программы переходит к телу цикла. В echo
команда записывает строку текста в окно терминала. Попытка чтения завершается неудачей, когда больше нет строк для чтения, и цикл завершен.
Один из приемов – это возможность перенаправить файл в цикл. В других языках программирования вам нужно будет открыть файл, прочитать из него и снова закрыть, когда вы закончите. С Bash вы можете просто использовать перенаправление файлов и позволить оболочке обрабатывать все эти низкоуровневые вещи за вас.
Конечно, этот однострочник не очень полезен. Linux уже предоставляет cat
команда, которая делает именно это за нас. Мы создали сложный способ заменить трехбуквенную команду. Но он наглядно демонстрирует принципы чтения из файла.
В определенной степени это работает достаточно хорошо. Предположим, у нас есть еще один текстовый файл, содержащий названия месяцев. В этом файле escape-последовательность для символа новой строки добавлена к каждой строке. Назовем его «data2.txt».
Januaryn Februaryn Marchn . . Octobern Novembern Decembern
Давайте воспользуемся однострочником в нашем новом файле.
while read line; do echo $line; done < data2.txt
Экранирующий символ обратной косой черты ” »Был отброшен. В результате к каждой строке добавляется буква «n». Bash интерпретирует обратную косую черту как начало escape-последовательность. Часто мы не хотим, чтобы Bash интерпретировал то, что он читает. Может быть удобнее прочитать строку целиком – escape-последовательности с обратной косой чертой и все такое – и выбрать в собственном коде, что анализировать или заменять самостоятельно.
Если мы хотим произвести значимую обработку или синтаксический анализ строк текста, нам понадобится сценарий.
Чтение строк из файла с помощью скрипта
Вот наш сценарий. Он называется «script1.sh».
#!/bin/bash
Counter=0
while IFS='' read -r LinefromFile || [[ -n "${LinefromFile}" ]]; do
((Counter++))
echo "Accessing line $Counter: ${LinefromFile}"
done < "$1"
Мы устанавливаем переменную с именем Counter
к нулю, то определяем нашу while
петля.
Первый оператор в строке while: IFS=''
. IFS
обозначает внутренний разделитель полей. Он содержит значения, которые Bash использует для определения границ слов. По умолчанию команда чтения удаляет начальные и конечные пробелы. Если мы хотим читать строки из файла в точности такими, какие они есть, нам нужно установить IFS
быть пустой строкой.
Мы могли бы установить это один раз вне цикла, так же, как мы устанавливаем значение Counter
. Но с более сложными сценариями, особенно со многими определяемыми пользователем функциями в них, возможно, что IFS
могут быть установлены в другие значения в другом месте сценария. Обеспечение того, чтобы IFS
устанавливается в пустую строку каждый раз, когда while
loop iterates гарантирует, что мы знаем, каким будет его поведение.
Мы собираемся прочитать строку текста в переменной с именем LinefromFile
. Мы используем -r
(считайте обратную косую черту как обычный символ), чтобы игнорировать обратную косую черту. С ними будут обращаться так же, как с любым другим персонажем, и они не получат никакого специального обращения.
Есть два условия, которые удовлетворяют while
цикл и разрешить обработку текста телу цикла:
read -r LinefromFile
: Когда строка текста успешно считана из файла,read
команда отправляет сигнал успехаwhile
, аwhile
loop передает поток выполнения в тело цикла. Обратите внимание, чтоread
команда должна увидеть символ новой строки в конце строки текста, чтобы считать ее прочитанной. Если файл не POSIX совместимый текстовый файл, последняя строка может не включать символ новой строки. Еслиread
команда видит маркер конца файла (EOF) перед тем, как строка будет завершена новой строкой, она будет не рассматривайте это как успешное чтение. Если это произойдет, последняя строка текста не будет передана в тело цикла и не будет обработана.[ -n "${LinefromFile}" ]
: Нам нужно проделать дополнительную работу для обработки файлов, несовместимых с POSIX. Это сравнение проверяет текст, читаемый из файла. Если оно не завершено символом новой строки, это сравнение все равно вернет успех дляwhile
петля. Это гарантирует, что любые фрагменты завершающей строки обрабатываются телом цикла.
Эти два предложения разделяются логическим оператором ИЛИ ” ||
Так что если либо Предложение возвращает успех, полученный текст обрабатывается телом цикла, независимо от того, есть ли символ новой строки или нет.
В теле нашего цикла мы увеличиваем Counter
переменная на единицу и используя echo
для отправки вывода в окно терминала. Отображаются номер строки и текст каждой строки.
Мы все еще можем использовать наш трюк с перенаправлением, чтобы перенаправить файл в цикл. В этом случае мы перенаправляем $ 1, переменную, которая содержит имя первого параметра командной строки, переданного сценарию. Используя этот трюк, мы можем легко передать имя файла данных, над которым мы хотим, чтобы сценарий работал.
Скопируйте и вставьте сценарий в редактор и сохраните его под именем «script1.sh». Использовать chmod
команда сделать его исполняемым.
chmod +x script1.sh
Давайте посмотрим, что делает наш скрипт с текстовым файлом data2.txt и содержащимися в нем обратными косыми чертами.
./script1.sh data2.txt
Каждый символ в строке отображается дословно. Обратные косые черты не интерпретируются как escape-символы. Они печатаются как обычные символы.
Передача строки функции
Мы все еще просто выводим текст на экран. В реальном сценарии программирования мы, вероятно, собираемся сделать что-то более интересное со строкой текста. В большинстве случаев хорошей практикой программирования является обработка дальнейшей обработки строки в другой функции.
Вот как мы могли это сделать. Это «script2.sh».
#!/bin/bash
Counter=0
function process_line() {
echo "Processing line $Counter: $1"
}
while IFS='' read -r LinefromFile || [[ -n "${LinefromFile}" ]]; do
((Counter++))
process_line "$LinefromFile"
done < "$1"
Мы определяем наши Counter
как и раньше, а затем мы определяем функцию с именем process_line()
. Должно появиться определение функции перед функция сначала вызывается в скрипте.
Наша функция будет передавать только что прочитанную строку текста на каждой итерации while
петля. Мы можем получить доступ к этому значению в функции, используя $1
переменная. Если бы функции были переданы две переменные, мы могли бы получить доступ к этим значениям, используя $1
и $2
и так далее, чтобы узнать о других переменных.
Шhile
петля в основном такая же. В теле цикла есть только одно изменение. В echo
линия заменена вызовом process_line()
функция. Обратите внимание, что вам не нужно использовать скобки «()» в имени функции, когда вы ее вызываете.
Имя переменной, содержащей строку текста, LinefromFile
, заключен в кавычки при передаче в функцию. Это касается строк, в которых есть пробелы. Без кавычек первое слово рассматривается как $1
по функции второе слово считается $2
, и так далее. Использование кавычек гарантирует, что вся строка текста будет обрабатываться как $1
. Обратите внимание, что это не тоже самое $1
который содержит тот же файл данных, переданный в сценарий.
Потому что Counter
был объявлен в основной части скрипта, а не внутри функции, на него можно ссылаться внутри process_line()
функция.
Скопируйте или введите приведенный выше сценарий в редактор и сохраните его под именем «script2.sh». Сделайте его исполняемым с помощью chmod
:
chmod +x script2.sh
Теперь мы можем запустить его и передать новый файл данных «data3.txt». В нем есть список месяцев и одна строка со многими словами.
January February March . . October November nMore text "at the end of the line" December
Наша команда:
./script2.sh data3.txt
Строки считываются из файла и передаются одна за другой в process_line()
функция. Все строки отображаются правильно, в том числе нечетная с обратным пробелом, кавычками и несколькими словами.
Строительные блоки полезны
Ходят мысли, что идиома должна содержать что-то уникальное для этого языка. Я не разделяю этого убеждения. Важно то, что он хорошо использует язык, легко запоминается и обеспечивает надежный и надежный способ реализации некоторых функций в вашем коде.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)