Linux shell awk怎么去除行内，重复列？

===关键词.txt===

芒硝-化工生产，硫化钠-化工生产

建筑史-研究-中国-近代-文集，建筑物-保护-中国-近代-文集

高等学校-课程改革-湖北省-文集，高等学校-课程建设-湖北省-文集

利用shell的相关命令，可以用awk，按照“-”“，”“ ”分隔一行关键词，去除行内重复关键词，得到
===去除重复后.txt===

芒硝,硫化钠,化工生产

建筑史,研究,中国,近代,文集,建筑物,保护

高等学校,课程改革,湖北省,文集,课程建设

提示：行内关键词顺序，不重要

谢谢。

举报该问题

推荐答案推荐于2016-09-17

awk -F"[-，]" '{for(i=1;i<=NF;i++)a[$i,NR]++}{for(j in a){split(j,b,SUBSEP);if(b[2]==NR)printf b[1]" "} printf "\n"}' 关键词.txt >去除重复后.txt

以此例测试通过。

关于awk二维数组的使用：

awk的多维数组在本质上是一维数组，更确切一点，awk在存储上并不支持多维数组。awk提供了逻辑上模拟二维数组的访问方式。例如，array[2,4] = 1这样的访问是允许的。awk使用一个特殊的字符串SUBSEP (\034)作为分割字段，在上面的例子中，关联数组array存储的键值实际上是2\0344。
类似一维数组的成员测试，多维数组可以使用 if ( (i,j) in array)这样的语法，但是下标必须放置在圆括号中。
类似一维数组的循环访问，多维数组使用 for ( item in array )这样的语法遍历数组。与一维数组不同的是，多维数组必须使用split()函数来访问单独的下标分量。split ( item, subscr, SUBSEP)。

追问

执行结果，有乱码。
==========================

�工生产 �钠硫� 芒硝 �
近代保护中国文集建筑史建筑物研究
高等学校 �省湖� 文集课程改革课程建设

追答

你是windows上编辑的文件吧，要用awk，需要先用dos2unix转为unix格式。

我做测试时是在linux下直接用vim创建的《关键词.txt》文件。

dos2unix 关键词.txt

然后再用awk。

追问

我都是在Ubuntu下执行的，一直乱码。检查了“关键词.txt”是unix回车符0a，utf8-nobomb编码

你那里运行正常的话，见私信告我吧

追答

可能环境有差异，我是在Redhat Linux服务器上测试的。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/WOzWvXt7XejveBjBztt.html

第1个回答 2014-12-03

，いつか権を手に入れば、血のしぶき天下(爆ましょう犬だ。追答

天降异象于前。

第2个回答 2014-12-03

内行的概念还没听说过。
不过这个需求能开发出来的
可否私谈？

相似回答

Linux删除重复行的代码答：第二，用sort+awk命令，注意，单纯awk同样不行，原因同上。sort -n $file | awk '{if($0!=line)print; line=$0}'第三，用sort+sed命令，同样需要sort命令先排序。sort -n $file | sed '$!N; /^.∗\1$/!P; D'Shell脚本 ? ...

linux下的vi编辑器中,怎样删除重复行。求代码。答：假设文件名为a.txt，那么在shell中文件当前路径下运行如下命令即可：for line in `awk '{print $1}' a.txt | sort | uniq`do grep "$line" a.txt | sort -k2n | tail -n1 >>result.txtdone处理结果保存到result.txt中。

linux怎么用awk和sed删除文本中只有一列的行?答：awk '{if (NF>1) print $0}' test.txt

Linux下使用Shell文本处理工具集锦答：按数字、字典序、逆序排序：n、d、r指定按第N列排序：k Nuniq：消除重复行工具 消除重复行：sort unsort.txt | uniq统计各行出现次数：sort unsort.txt | uniq c找出重复行：sort unsort.txt | uniq dtr：转换工具字符替换：echo 12345 | tr '09' '9876543210'删除字符：cat file | tr d...

怎样用shell语言去掉指定列值的行。答：假设你的数据保存在dat，shell中执行下面的命令：awk '2 !~ /gm.*/{ print;} ' dat 他的意思是如果某行的第2字段不匹配gm* 那么就输出这一行。

LinuxShell文本处理工具集锦答：-k N 指定按第N列排序eg:复制代码代码如下:sort -nrk 1 data.txtsort -bd data // 忽略像空格之类的前导空白字符 uniq 消除重复行•消除重复行复制代码代码如下:sort unsort.txt | uniq •统计各行在文件中出现的次数复制代码代码如下:sort unsort.txt | uniq -c •找出重复行复制代码代码如下:sort...

shell脚本取重复数据的最后一条记录答：3）最后根据tmp文件中记录的次数是否大于1来生成err.unl文件，记录重复的行及总共出现的次数。4）将tmp文件中的次数记录去除即得到更新后的 unl 文件。由于要求要覆盖原unl文件，所以这里存在风险。建议运行脚本前先备份一下原unl文件。最后，恕我直言，这个题目的难度不止10分。你看，while循环，grep ...

shell实现查找含某个字符串的行,并截取此行=之前的内容,怎么写?答：Shell参数：dwMessage为输入参数，传递发送的消息，表明要执行的操作。可选的值如下:NIM_ADD 向托盘区域添加一个图标。此时第二个参数lpdata指向的NOTIFYICONDATA结构体中的hWnd和uID成员用来标示这个图标，以便以后再次使用Shell_NotifyIcon对此图标操作。NIM_DELETE 删除托盘区域的一个图标。此时第二个参数lp...

linux shell / sed /awk/ 相关脚本编程如何把一个文件中的匹配内容后...答：sed 's/\(Part label=\).*:\(.*\)-.*/\1"\2"/g' 文件名 > 输出文件名我自己测试了一下，应该没问题

大家正在搜

linux重复运行shell命令 linuxshellawk linuxshell脚本awk shell删除重复行 shell删除文件重复行 shell basename awk 执行shell命令 shell去重复命令 shell重复执行

shell如何将一行的数据求累加值？网上很多awk都是加列，...

shell中 sed或awk 通过分隔符删除相应字段

shell awk求和当第一列相同时，对应的第二列相加

shell awk如何输出文件的指定列

linux列统计不同值操作的awk或shell脚本

Linux Shell awk中怎么调用数组和for循环？

linux中的shell编辑除了第一列都输出如何实现，awk...

编shell脚本遇到一个问题，awk能切割掉最后一个字段的值...