【求助】日志提取问题，行数不固定，怎么提取

兽兽 2021-05-10 08:09:24

$: 0, e$: 50000 以及中括号这些内容都是时有时无的，
中括号的内容，有时候有多行，有时候就1行，

所以不能按行来提取，或者每几行几行提取，

想取出User1 User2 e$: $:

然后存入list或map
该怎么提取，求大佬赐教

--- User1: 士大夫消费 --- -- Mon Nov 23 19:47:20 2020

--- User2: 士大夫 --- -- Mon Nov 23 19:47:20 2020

$: 0, e$: 50000 -- Mon Nov 23 19:47:20 2020

--- User1: 洞洞2 --- -- Sun May 09 15:08:10 2021

--- User2: 女战士 --- -- Sun May 09 15:08:10 2021

[id=58709530], dur=1, max_dur=1, gemhole=[0,0], addtion=[0], antimonster=[0], dec_dmg=[0], add_life=[0] -- Sun May 09 15:08:10 2021

[id=6473413], dur=1, max_dur=1, gemhole=[0,0], addtion=[0], antimonster=[0], dec_dmg=[0], add_life=[0] -- Sun May 09 15:08:10 2021

[id=6470717], dur=1, max_dur=1, gemhole=[0,0], addtion=[0], antimonster=[0], dec_dmg=[0], add_life=[0] -- Sun May 09 15:08:10 2021

[id=6534954], dur=1, max_dur=1, gemhole=[0,0], addtion=[0], antimonster=[0], dec_dmg=[0], add_life=[0] -- Sun May 09 15:08:10 2021

[id=6547606], dur=1, max_dur=1, gemhole=[0,0], addtion=[0], antimonster=[0], dec_dmg=[0], add_life=[0] -- Sun May 09 15:08:10 2021

--- User1: 洞洞2 --- -- Sun May 09 15:18:06 2021

--- User2: 李达康同志 --- -- Sun May 09 15:18:06 2021

[id=5200240], dur=10000, max_dur=10000, gemhole=[13,13], addtion=[0], antimonster=[0], dec_dmg=[1], add_life=[0] -- Sun May 09 15:18:06 2021

[id=1885128], dur=6640, max_dur=7099, gemhole=[13,13], addtion=[8], antimonster=[0], dec_dmg=[0], add_life=[0] -- Sun May 09 15:18:06 2021

[id=58226605], dur=1, max_dur=1, gemhole=[0,0], addtion=[0], antimonster=[0], dec_dmg=[0], add_life=[0] -- Sun May 09 15:18:06 2021

--- User1: 士大夫消费 --- -- Mon Nov 23 19:47:21 2020

--- User2: 士大夫 --- -- Mon Nov 23 19:47:21 2020

$: 0, e$: 50000 -- Mon Nov 23 19:47:20 2021

--- User1: 是佛山 --- -- Sun May 09 15:28:00 2021

[id=5083968], dur=6874, max_dur=7099, gemhole=[13,13], addtion=[8], antimonster=[0], dec_dmg=[3], add_life=[0] -- Sun May 09 15:28:00 2021

--- User2: 洞洞2 --- -- Sun May 09 15:28:00 2021

--- User1: 是佛山 --- -- Sun May 09 15:28:32 2021

--- User2: 洞洞2 --- -- Sun May 09 15:28:32 2021

...全文

1520 17 打赏收藏转发到动态举报

写回复

用AI写文章

17 条回复

切换为时间正序

请发表友善的回复…

发表回复

兽兽 2021-05-14

打赏
举报

引用 16 楼 xxoo2007 的回复:

这个简单，正则强抓就好 User[0-9]*:.*?\n(\$:.*?e\$.*?\n)?

User1: 士大夫消费 --- -- Mon Nov 23 19:47:20 2020

User2: 士大夫 --- -- Mon Nov 23 19:47:20 2020
$: 0, e$: 50000 -- Mon Nov 23 19:47:20 2020

User1: 洞洞2 --- -- Sun May 09 15:08:10 2021

User2: 女战士 --- -- Sun May 09 15:08:10 2021

User1: 洞洞2 --- -- Sun May 09 15:18:06 2021

User2: 李达康同志 --- -- Sun May 09 15:18:06 2021

User1: 士大夫消费 --- -- Mon Nov 23 19:47:21 2020

User2: 士大夫 --- -- Mon Nov 23 19:47:21 2020
$: 0, e$: 50000 -- Mon Nov 23 19:47:20 2021

User1: 是佛山 --- -- Sun May 09 15:28:00 2021

User2: 洞洞2 --- -- Sun May 09 15:28:00 2021

User1: 是佛山 --- -- Sun May 09 15:28:32 2021

正则不是很靠谱吧。我试过了。想把User1: 到下一个User1: 之间的数据提出来，组合成另一个新行，没成功

xxoo2007 2021-05-14

打赏
举报

这个简单，正则强抓就好

User[0-9]*:.*?\n(\$:.*?e\$.*?\n)?

User1: 士大夫消费 --- -- Mon Nov 23 19:47:20 2020



User2: 士大夫 --- -- Mon Nov 23 19:47:20 2020

$: 0, e$: 50000 -- Mon Nov 23 19:47:20 2020



User1: 洞洞2 --- -- Sun May 09 15:08:10 2021



User2: 女战士 --- -- Sun May 09 15:08:10 2021



User1: 洞洞2 --- -- Sun May 09 15:18:06 2021



User2: 李达康同志 --- -- Sun May 09 15:18:06 2021



User1: 士大夫消费 --- -- Mon Nov 23 19:47:21 2020



User2: 士大夫 --- -- Mon Nov 23 19:47:21 2020

$: 0, e$: 50000 -- Mon Nov 23 19:47:20 2021



User1: 是佛山 --- -- Sun May 09 15:28:00 2021



User2: 洞洞2 --- -- Sun May 09 15:28:00 2021



User1: 是佛山 --- -- Sun May 09 15:28:32 2021

冰思雨 2021-05-13

打赏
举报

你的要求是将文件的数据提取到 List 里面，而 List 是要占内存的，提取的数据越多，占的内存就越大，大到一定程度，内存就爆掉了。我们一般情况下，处理大文件，都是随着提取数据，紧接着就处理掉了，不会先全都提取出来，然后，在进行处理。如果处理起来不太方便的话，也可以将提取出来的数据保存到数据库中，数据库的操作按说应该要方便的多。或者，你也可以将提取的过程做个更改，提取一定数量的数据之后，新生成一个文件将其保存到文件中，这样的话，就会生成多个小文件，然后，你再逐个处理小文件即可。

yuzhizhi 2021-05-12

打赏
举报

不知规则情况下，6楼是一个快捷有效办法。

兽兽 2021-05-12

打赏
举报

引用 13 楼冰思雨的回复:


    public static List<String> getLines(File target, String[] keys) throws IOException {
        List<String> result = new ArrayList<>();
        try(BufferedReader reader = new BufferedReader(new FileReader(target))) {
            String line = null;
            for (int lineNumber = 1; (line=reader.readLine())!=null; lineNumber++) {
                for (String key : keys) {
                    if (line.contains(key)) {
                        result.add(line);
                        break;
                    }
                }
            }
        }
        return result;
    }

    public static void main(String[] args) throws IOException {
        final File target = new File("/path/to/file");
        final String[] keys = new String[]{"User1", "User2",  "e$:", "$:"};
        List<String> result = getLines(target, keys);
        // 注意，target 文件太大的话，会爆掉内存的。
    }

文件是不能大于内存吗。是读到内存里面处理的，是这个意思吗，好的，非常感谢，

冰思雨 2021-05-12

打赏
举报


    public static List<String> getLines(File target, String[] keys) throws IOException {
        List<String> result = new ArrayList<>();
        try(BufferedReader reader = new BufferedReader(new FileReader(target))) {
            String line = null;
            for (int lineNumber = 1; (line=reader.readLine())!=null; lineNumber++) {
                for (String key : keys) {
                    if (line.contains(key)) {
                        result.add(line);
                        break;
                    }
                }
            }
        }
        return result;
    }

    public static void main(String[] args) throws IOException {
        final File target = new File("/path/to/file");
        final String[] keys = new String[]{"User1", "User2",  "e$:", "$:"};
        List<String> result = getLines(target, keys);
        // 注意，target 文件太大的话，会爆掉内存的。
    }

兽兽 2021-05-11