Textbearbetning i Linux
I denna artikel kommer vi att gå igenom hur man använder verktygen tr
, sed
och awk
för att modifiera en text. Den kommer att vara helt och hållet baserat
på exempel. Uppgiften kommer vara att snygga till en lista över Robert De
Niro-filmer.
Börja med att ladda hem listan till din dator. Det är en CSV fil och ser ut som nedan (de sista raderna):
2013, 11, "Killing Season"
2014, 9, "The Bag Man"
2015, 60, "Joy"
2015, 26, "Heist"
2015, 61, "The Intern"
2016, 11, "Dirty Grandpa"
Det vi ska åstadkomma är att ändra utseendet på listan så att den istället ser ut så här:
Killing Season - 2013
The Bag Man - 2014
Joy - 2015
Heist - 2015
The Intern - 2015
Dirty Grandpa - 2016
Det vill säga filmens namn ska stå först, sedan årtalet separerat med ett bindestreck. Vi ska också plocka bort alla citattecken och Rotten Tomatoes-poängen.
tr
Det första verktyget vi kommer att använda här är tr
(för translate). Detta
är ett verktyg för att byta ut specifika tecken mot andra tecken, eller helt
enkelt för att ta bort tecken som vi ska göra i vårt fall.
För att byta ut tecken (eller översätta), används tr
på följande sätt:
$> echo "kalle" | tr 'a' '4'
k4lle
Här översatte vi a mot 4. Detta går även att översätta flera tecken samtidigt. Låt oss säga att vi vill översätta a mot 4, e mot 3 och l mot |. Då gör vi följande vis:
$> echo "kalle" | tr 'ael' '43|'
k4||3
För att ta bort tecken används flaggan -d
.
$> echo "kalle" | tr -d 'e'
kall
Nu när vi vet hur tr
fungerar kan vi testa att ta bort alla citattecken ur
listan.
$> cat deniro.csv | tr -d '"'
2013, 11, Killing Season
2014, 9, The Bag Man
2015, 60, Joy
2015, 26, Heist
2015, 61, The Intern
2016, 11, Dirty Grandpa
awk
awk
är ett verktyg och programspråk för att söka i och behandla texter. Här
kommer vi att använda awk
för att välja ut de fält vi är intresserade av i
listan. Men först ett exempel på hur awk
används. Vi kommer här att använda
/etc/passwd-filen som exempel.
De fem sista raderna i min /etc/passwd-fil ser ut som nedan. Här använder jag
tail
för att visa de fem sista raderna.
$> tail -n 5 /etc/passwd
sddm:x:123:129:Simple Desktop Display Manager:/var/lib/sddm:/bin/false
anna:x:1006:1007:Anna,,,:/home/anna:/bin/bash
fnatte:x:1007:1008::/home/fnatte:/bin/bash
nut:x:124:130::/var/lib/nut:/bin/false
pulse:x:112:118:PulseAudio daemon,,,:/var/run/pulse:/bin/false
Fälten i passwd-filen är åtskilda med ett kolon. Låt oss nu anta att vi endast
är intresserade av användarnamnet och hemkatalogen. Dessa är fält nummer 1
och 6. Det är nu awk
kommer in i bilden.
$> tail -n 5 /etc/passwd | awk -F ":" '{ print $1, $6 }'
sddm /var/lib/sddm
anna /home/anna
fnatte /home/fnatte
nut /var/lib/nut
pulse /var/run/pulse
Vi specificerade fältseparatorn med -F ":"
. Anges ingen fältseparator antas
att blanksteg separerar fälten.
Nu när vi vet hur awk
fungerar kan vi använda det för att välja ut filmens
namn och årtal från listan med De Niro-filmer. Årtalet är fält nummer 1, och
filmen är fält nummer 3. Här kommer vi således att skriva ut fält 3 före fält 1,
och mellan dem ska vi skriva ut ett bindestreck. Här måste vi också använda en
annan fältseparator. I listan används kommatecken för att separera fälten, så vi
anger detta med -F ","
. Nu lägger vi till awk
efter tr
med ännu en
rörledning.
$> cat deniro.csv | tr -d '"' | awk -F "," '{ print $3, "-", $1 }'
Killing Season - 2013
The Bag Man - 2014
Joy - 2015
Heist - 2015
The Intern - 2015
Dirty Grandpa - 2016
Perfekt, bortsett från att det finns ett blanksteg framför varje rad. För att få
bort det kan vi använda sed
.
sed
sed
är istället ett verktyg för att redigera texter. Redigeringarna görs med
reguljära uttryck, så här får vi nytta av det vi lärt oss
från Reguljära uttryck, del 1
och Reguljära uttryck, del 2.
Här ska vi ta bort ett mellanslag som står som allra första tecken på varje
rad. Som vi kommer ihåg från artiklarna om reguljära uttryck markeras början på
en rad med ^
.
Med sed
kommer vi att använda funktionen s
för substitute. När vi skriver
reguljära uttryck för verktyg som sed
och vi
(och även för PHP) skrivs dessa
mellan två styck /
för att avgränsa uttrycket. Efter det sista snedstrecket
skriver man det som ska ersätta matchningen av det reguljära uttrycket.
Om vi återigen använder /etc/passwd-filen som exempel kan vi nu ersätta alla kolon med understreck.
$> tail -n 5 /etc/passwd | sed 's/:/_/g'
sddm_x_123_129_Simple Desktop Display Manager_/var/lib/sddm_/bin/false
anna_x_1006_1007_Anna,,,_/home/anna_/bin/bash
fnatte_x_1007_1008__/home/fnatte_/bin/bash
nut_x_124_130__/var/lib/nut_/bin/false
pulse_x_112_118_PulseAudio daemon,,,_/var/run/pulse_/bin/false
s
står alltså för substitue. Därefter kommer det reguljära uttrycket mellan
två snedstreck; i det här fallet är det bara ett kolon /:/
. Därefter kommer
understrecket som ska används istället för kolonet. Därefter avslutas hela
uttrycket med ett sista snedstreck. Det sista tecknet, g
, betyder global. Om
vi utelämnar g
kommer bara det första kolonet på varje rad att bytas ut mot
understreck.
Nu när vi vet hur sed
fungerar lägger vi till det i slutet av våra andra
kommandon med en ny rörledning. Eftersom vi här ska ta bort mellanslaget lämnar
vi ersättningen tom.
$> cat deniro.csv | tr -d '"' | awk -F "," '{ print $3, "-", $1 }' | sed 's/^ //'
Killing Season - 2013
The Bag Man - 2014
Joy - 2015
Heist - 2015
The Intern - 2015
Dirty Grandpa - 2016
Och det hela fungerar perfekt! Vi har nu formaterat listan precis så som vi vill.
Textbearbetning har alltid varit en väsentlig del av UNIX – ända sedan AT&T Bell Labs tid. För den som är intresserad av historia rekommenderar jag följande två YouTube-klipp:
Relaterat
Senaste nyheterna och inläggen
CyberInfo Sverige är ett IT-företag i nordvästra Skåne som tillhandahåller böcker, utbildningar, nyheter och konsulttjänster inom Linux, BSD och programmering.
CyberInfo Sverige är godkänd för F-skatt, är momsregistrerat och innehar
utgivningsbevis för webbplatsen www.cyberinfo.se.